大多數現代大型語言模型（LLM）都屬於Transformer架構

2025年12月02日 · 作者: alexbeebie · 專欄: 當下科技

準確來說，Transformer是架構（引擎設計），而LLM是應用（使用該引擎建造的車輛）。

Transformer是一種特定的深度學習架構，由Google研究人員在2017年著名的論文《注意力機制就是一切》（Attention Is All You Need）中提出。它依賴一種名為「自註意力機制」的機制來並行處理資料序列（例如文字），而不是順序處理。

LLM（大型語言模型）是一個通用術語，指的是經過大量文字資料訓練，能夠理解、產生和處理人類語言的AI模型。

Transformer與LLM的關係，你可以想像成「內燃機」與「跑車」之關係。

Transformer 是內燃機，一種特定的技術/設計，你可以用引擎製造汽車、卡車、船或發電機；同樣，你可以使用 Transformer 架構來建立 LLM（語言邏輯模型）、電腦視覺模型或蛋白質折疊模型（例如 AlphaFold）。

LLM 是跑車，是一種專門設計用於高速行駛的產品，大多數現代跑車都使用內燃機；同樣，大多數現代 LLM 都使用 Transformer，但並非所有 Transformer 都是 LLM。

Transformer 是一種 LLM，是錯誤概念，混淆的產生是因為如今幾乎所有著名的 LLM 都是基於 Transformer 架構建構的。

GPT（生成式預訓練 Transformer）其中的「T」正是 Transformer 的縮寫。

BERT（基於 Transformer 的雙向編碼器表示）也明確地以此命名。

Llama、Claude、Gemini這些都是以 Transformer 為基礎的模型。

是否可以在沒有 Transformer 的情況下建置 LLM？是可以的，2017 年之前，語言模型就已經存在，但它們使用的是不同的架構：

RNN（循環神經網路）

LSTM（長短期記憶網）

這些是過去的「大型語言模型」（LLM）（儘管當時它們通常不會被稱為「大型」，因為它們的可擴展性不如 Transformer）；即使在今天，研究人員仍在嘗試使用非 Transformer 架構（例如 Mamba/SSM）來建構新型的 LLM。

正確的觀念是：Transformer 是建構大多數現代 LLM 所採用的架構。

0 likes

留言 (0)

還沒有留言，成為第一個留言的人吧！

您必須登入才能留言。