Skip to main content

REDMADMEDIA 網誌

回前頁
Deepseek並沒有使用 Transformer 架構? - 當下科技

Deepseek並沒有使用 Transformer 架構?

· · 專欄: 當下科技

這絕對是誤解,DeepSeek 仍然 100% 基於 Transformer 架構,行內所說的 DeepSeek 的「架構創新」是指他們修改了 Transformer 的內部元件,而不是取代了 Transformer 本身。

Deepseek的核心仍是 Transformer,與 GPT-4、Claude、LLaMA 和 Gemini 一樣,DeepSeek 模型(V2、V3、R1)都是僅包含解碼器的 Transformer,它仍然依賴谷歌在 2017 年引入的基本機制:「注意力機制」(自註意力)和前饋網路。

然而,DeepSeek 雖保留了 Transformer 的「骨架」,但對其「肌肉」和「器官」進行了修改,使其效率更高。

想像一下,Transformer 架構就像一輛車(四個輪子、引擎、方向盤),GPT-4 / LLaMA 就像一輛巨大的 V8 引擎油老虎,它動力強勁,但重量很重,而且油耗很高。DeepSeek 並沒有發明直升機(直升機的架構與汽車完全不同,例如 Mamba 或 RWKV),它打造的是一輛混合動力賽車,仍是一輛汽車(基於 Transformer 架構),但他們重新設計了燃油噴射系統(MLA)和引擎管理系統(MoE),使其速度不變,但油耗降低了 90%。

那為什麼堅持使用 Transformer 架構呢?Transformer 架構是目前唯一被證明能夠可靠「擴展」的架構。隨著數據和計算量的增加,它會變得越來越聰明。其他非 Transformer 架構(例如 RNN、SSM 或 Mamba)尚未證明它們能夠在 6,710 億參數的大規模場景下超越 Transformer 架構。

簡言之,DeepSeek 是一個 Transformer,但它是 Transformer 的一個高度最佳化的變異版本。

0 likes

推薦文章

為何 Linux 病毒感染率較低?

為何 Linux 病毒感染率較低?

人們普遍認為 Linux 系統,比 Windows 系統,更不易受到病毒的攻擊,這種看法源自於幾個關鍵因素。 使用者基數和攻擊目標:一個重要原因是 Linux 的使用者基數較小,尤其是在桌面系…

為何北海道札幌的冬日街上人流甚少?— 談談日本的地下街

為何北海道札幌的冬日街上人流甚少?— 談談日本的地下街

在札幌的冬季,由於氣候寒冷且經常下雪,許多人選擇使用地下街作為主要的步行要道。再者,札幌的地下街系統非常發達,連接了主要的地鐵站和商業區,讓人們能夠在不受惡劣天氣影響的情況下輕鬆活動。概括而言,札幌…

有興趣住日本監獄嘛?機會嚟啦!

有興趣住日本監獄嘛?機會嚟啦!

星野集團將利用國家重要文化財產前奈良監獄(位於奈良市),於2026年春季開設一家旗下豪華品牌「星のや」(Hoshinoya)的酒店,該酒店將採用特許權方式,所有權仍歸政府所有,並將經營權出售給私人企…

留言 (0)

還沒有留言,成為第一個留言的人吧!

發表留言

您必須登入才能留言。