Skip to main content

REDMADMEDIA 網誌

回前頁
大多數現代大型語言模型(LLM)都屬於Transformer架構 - 當下科技

大多數現代大型語言模型(LLM)都屬於Transformer架構

· · 專欄: 當下科技

準確來說,Transformer是架構(引擎設計​​),而LLM是應用(使用該引擎建造的車輛)。

Transformer是一種特定的深度學習架構,由Google研究人員在2017年著名的論文《注意力機制就是一切》(Attention Is All You Need)中提出。它依賴一種名為「自註意力機制」的機制來並行處理資料序列(例如文字),而不是順序處理。

LLM(大型語言模型)是一個通用術語,指的是經過大量文字資料訓練,能夠理解、產生和處理人類語言的AI模型。

Transformer與LLM的關係,你可以想像成「內燃機」與「跑車」之關係。

Transformer 是內燃機,一種特定的技術/設計,你可以用引擎製造汽車、卡車、船或發電機;同樣,你可以使用 Transformer 架構來建立 LLM(語言邏輯模型)、電腦視覺模型或蛋白質折疊模型(例如 AlphaFold)。

LLM 是跑車,是一種專門設計用於高速行駛的產品,大多數現代跑車都使用內燃機;同樣,大多數現代 LLM 都使用 Transformer,但並非所有 Transformer 都是 LLM。

Transformer 是一種 LLM,是錯誤概念,混淆的產生是因為如今幾乎所有著名的 LLM 都是基於 Transformer 架構建構的。

GPT(生成式預訓練 Transformer)其中的「T」正是 Transformer 的縮寫。

BERT(基於 Transformer 的雙向編碼器表示)也明確地以此命名。

Llama、Claude、Gemini這些都是以 Transformer 為基礎的模型。

是否可以在沒有 Transformer 的情況下建置 LLM?是可以的,2017 年之前,語言模型就已經存在,但它們使用的是不同的架構:

RNN(循環神經網路)

LSTM(長短期記憶網)

這些是過去的「大型語言模型」(LLM)(儘管當時它們通常不會被稱為「大型」,因為它們的可擴展性不如 Transformer);即使在今天,研究人員仍在嘗試使用非 Transformer 架構(例如 Mamba/SSM)來建構新型的 LLM。

正確的觀念是:Transformer 是建構大多數現代 LLM 所採用的架構。

0 likes

推薦文章

港股今天難逃跌勢(21/11/2025)

港股今天難逃跌勢(21/11/2025)

如我昨早文章所估計,大市並沒有因Nvidia 中規中矩的財季表現(何來超出預期,我不覺!)而轉勢,還跌得深一些。都說了,美市至少要跌至感恩節前後,才能停下來。 Nvidia 愈先進的GPU,甚…

暫託少年夢

暫託少年夢

小時候,總有理想,而我那個年少日子,是香港最充滿幹勁的時代,對於個人理想,大家都認定必有付諸實行的未來。 而我,那時就希望將來有一間屬於自己的書店,教客人甫進來,由書架上的書籍,就體會到店長的…

燕麥和燕麥奶的功效是否相同?讓我來和大家簡單地分析燕麥奶的優缺點!- Mark哥醫師

燕麥和燕麥奶的功效是否相同?讓我來和大家簡單地分析燕麥奶的優缺點!- Mark哥醫師

朋友來電查問燕麥和燕麥奶的功效是否一樣。朋友是極忙碌的工作狂,閱讀作者前所寫有關燕麥的文章,覺得吃燕麥對身體很有好處。他雖然覺得筆者所推介的燕麥食譜簡單易弄,但仍然想再快一點,剩下多點時間工作,故此…

留言 (0)

還沒有留言,成為第一個留言的人吧!

發表留言

您必須登入才能留言。