Skip to main content

REDMADMEDIA 網誌

回前頁
人工智慧模型版本的更新,有甚麼改變? - 當下科技

人工智慧模型版本的更新,有甚麼改變?

· · 專欄: 當下科技

當 OpenAI 從 GPT-3.5 升級到 GPT-4,或者 Anthropic 從 Claude 2 升級到 Claude 3 時,它們進行了甚麼更新呢?

以下是對「更新」工作原理的詳細說明,區分了小版本更新和大版本升級。

1)「深入挖掘」(微調和資料更新)

通常發生在小版本更新中(例如,從 GPT-4 升級到 GPT-4 Turbo)。有時,他們會保留相同的「框架」(架構)和相同的基礎知識,但會改進我們之前討論過的「深度」層。

它們亦可能會意識到模型在 Python 程式設計方面表現不佳,需要透過提供更多高品質的 Python 問答範例來「深入挖掘」指令調優階段。

如果使用者抱怨模型過於懶惰或過於謙虛,開發者會調整對齊層(強化學習),這會改變模型的表達方式,但不會改變它所掌握的知識。

有時,開發者可以在不重建整個模型的情況下,用新資訊(例如最近的新聞)「修補」模型,但這在技術上難度較高,而且不如直接重新訓練常見。

2)「改變模型架構」(重新訓練)

通常發生在主版本升級時(例如,從 GPT-3 到 GPT-4),這是一個巨大的飛躍。當模型版本號升級時,開發者並非只對舊模型進行最佳化,他們通常會拋棄舊的「模型」,建造一個更大、更好的模型。

想像一下,舊模型有 10 億個連接(神經元),新模型可能擁有 1 兆個連接,較大的盒子可以容納更複雜的模式、細微差別和邏輯。

又或它們改變了數學運算。例如,它們可能會改變模型「關注」長文件的方式。例如舊模型在處理 3000 個單字後會忘記對話的開頭,新模型(例如 Claude 3 或 GPT-4o)的架構旨在記住 10 萬個以上的單字。這需要改變盒子的基本藍圖。

改變亦可以多模態,這是一項巨大的架構變革,如GPT-4o 能同時處理文字、音訊和圖像,這需要徹底重新設計神經網路的輸入和輸出。

3) 更好的「食物」(數據課程)

內容的品質亦是核心之一。從版本 1 升級到版本 2 時,開發者經常會意識到:「我們給上一版模型輸入了太多來自互聯網的垃圾數據。」為了進行更新,他們會更精心篩選資料。他們可能會使用教科書而不是 Reddit 評論。即使架構保持不變,輸入高品質的「食物」(數據)也能顯著提升模型的智慧程度。

因此,當我們看到更新時:

小更新(例如,“六月更新”):通常只是對現有模型進行「更深入的挖掘」(更好的微調/對齊)。

大更新(例如 GPT-5):通常涉及新的架構,更多的參數,與及「更好的內容」(使用更乾淨的資料從頭開始重新訓練)。

0 likes

推薦文章

頭瘡(附筆者的簡易有效處理方法) - Mark哥醫解

頭瘡(附筆者的簡易有效處理方法) - Mark哥醫解

頭瘡(附筆者的簡易有效處理方法) - Mark哥醫解 有讀者查詢頭瘡的處理和 舒緩方法,筆者特別在此把頭瘡的形成主因和中醫的治療方法和大家分享,並在篇末和大家分享我自己常使用的簡易處理且…

戲院結業 —— 預示大型商場將要大劈租

戲院結業 —— 預示大型商場將要大劈租

荷里活廣場的戲院復活,我認為最大的含意是——大型商場已經守不住,開始要大幅削減其商舖租金。 如果你有留意一些一線商場,這年來吉舖愈來愈多,而由九倉擁有的荷里活廣場,其「圍板」之多,已多到你不可…

滋陰補血的「地黃酒」 - Mark哥醫師

滋陰補血的「地黃酒」 - Mark哥醫師

配方: 熟地黃 400g 枸杞 200g 沉香 3g 白酒 5000g 功效與應用: 本方滋陽補血,降氣溫中,暖腎納氣,適用中老年人身體虛弱,精血不足,營衛…

留言 (0)

還沒有留言,成為第一個留言的人吧!

發表留言

您必須登入才能留言。