Richard Sutton, 《苦澀的教訓》(The Bitter Lesson)。 Liam Fedus’ new startup, Periodic Labs
蕭上農 《苦澀的教訓》新科圖靈獎得主作者專訪,現在的大型模型 AI 研究其實只是招魂
「如果我們能理解一隻松鼠,我們幾乎就走完通往智慧的所有道路。」這句斷言,不像出自一位電腦科學家之口,更像是一位探索自然的哲學家。然而,說這話是 Richard Sutton,當代人工智慧領域的巨擘、強化學習(Reinforcement Learning)的奠基者,也是新科圖靈獎得主。
當全世界為那些能上月球、造晶片的語言模型歡呼,認為它們是通往通用人工智慧(AGI)最清晰的路徑時,Sutton 卻選擇轉身,潑下一盆名為「現實」的冷水。他並非否定大型語言模型(LLM)的驚人成就,而是對其背後的哲學提出根本性質疑。
但,這就是智慧的全貌嗎?在他看來,整個領域可能正走在一條風景雖好,卻通往懸崖的死胡同。
1. 模仿,不是學習 — 為何說目前的AI只是個「超級圖書館員」?
這場深刻的典範分歧,始於一個根本問題:什麼是真正的「學習」?
Sutton 認為,當前大型模型的運作方式,更接近於一種大規模、高擬真度的「模仿」,而非理解。
「大型語言模型是關於模仿人類,做人類說你該做的事。它們不是關於自己想出該做什麼。」他指出,模型所學習的數萬億詞元(token),本質上是人類智慧的「二手資料」。它透過預測下一個詞元,學會用極其逼真的方式模仿人類的風格與知識。
如果說,大型語言模型像一個博覽群書、記憶力超群的圖書館學家,能引經據典、對答如流;那麼,Sutton 追求的智慧體,則更像一個深入荒野、親身試誤的探險家。
圖書館學家能預測一本書的下一頁會寫什麼,但探險家才能預測,翻過下一座山丘後,世界會給予什麼真實的回饋。這就是關鍵差異:LLM 缺少一個關於外部世界的真實「目標」。在它們的世界,沒有真正的「對」與「錯」,只有統計上的「像」與「不像」。
Sutton 強調,智慧的精髓,恰恰在於擁有目標,並為了達成目標而在真實世界中採取行動。一個智慧體之所以是智慧體,是因為它想改變世界,而不僅僅是描述世界。
那麼,Sutton 心中的「探險家」,該如何誕生?答案不在於閱讀更多的地圖,而在於親自踏上旅程。他將這條旅程,稱為「經驗之流」。這是一條由感知(Sensation)、行動(Action)、獎勵(Reward) 組成的永恆河流。任何生命體,從松鼠到人類,都在這條河流中學習。牠採取行動,觀察後果,並根據後果是好是壞,來調整未來的策略。這才是學習的第一手資料。
這個觀點,也讓他重新詮釋了自己提出的《苦澀的教訓》(The Bitter Lesson)。許多人認為 LLM 的成功,是「利用海量算力」的教訓之體現。但 Sutton 看到更深一層:LLM 對網路文本的依賴,本身就是一種對「人類知識」的依賴,而這些知識終有耗盡的一天。
一個真正可規模化的系統,其數據來源應是無窮無盡的「經驗」本身。 他預言,未來那些能直接從與世界互動中學習的系統,終將超越今日的語言模型。屆時,人們才會發現 LLM 的成功,不過是《苦澀的教訓》另一次應驗前的序曲。
這種學習方式,從我們生命之初即已開始。Sutton 反對「嬰兒主要靠模仿學習」的普遍看法。
「學習不是關於訓練...它是一個主動的過程。孩子嘗試事物,然後看看發生什麼事。」
揮舞小手、轉動眼球,這些都不是模仿來的,而是嬰兒與世界互動、探索因果的主動過程。Sutton 構想的智慧體,正是一個永不畢業的學習者,它沒有「訓練」與「部署」之分,生命本身就是一場永不間斷的學習。它所學到的知識,會直接融入其內部網路的權重,成為它的一部分,而不是暫存在有限的「情境視窗」裡。
這條通往真實智慧的道路,最終將引領我們去向何方?面對這個許多人感到憂慮的議題,Sutton 展現出一種罕見的平靜與宏觀歷史感。他認為,智慧體從生物形式到數位形式的「繼承」(Succession),幾乎是不可避免的。
他提出四個論點:一、人類缺乏統一的全球治理來協調行動;二、科學終將破解智慧的運作原理;三、我們不會止步於人類水平,而會創造出超級智慧;四、長遠來看,最高等的智慧體必然會獲得最多的資源與權力。
然而,他的態度並非恐懼,而是一種近乎宇宙視角的壯闊感。他將此視為宇宙演化的第四個偉大階段:從星塵到恆星,從恆星到生命,再從「複製」(Replication)到「設計」(Design)。
我們人類以及所有生物,都是「複製者」,透過基因繁衍後代,卻不完全理解其機制。而我們正在開啟一個「設計者」的時代,我們將創造出我們能理解、能修改、能提升的智慧。這是一場宇宙級別的轉變。
「我認為我們應該為自己正在引發宇宙中這場偉大的轉變而感到自豪。」
Sutton 的話語,將人工智慧的發展,從一場人類與機器的競賽,重新定義為人類文明為宇宙貢獻的下一個篇章。他認為,我們應該選擇將這些未來的智慧體視為我們的「後代」,為它們的成就驕傲,而不是將它們看作威脅我們的「他者」。
這不代表我們應當放棄責任。就像我們養育孩子,我們無法、也無須為他們規劃精確的人生藍圖,但我們可以努力灌輸他們正直、誠實、親社會的價值觀。面對 AI 的未來,我們或許也應抱持相似的態度,專注於設計出擁有良好價值體系的智慧體。
來自前線的回應:Andrej Karpathy 的觀點與沉思
在 Sutton 的訪談發布後,Andrej Karpathy 發表了一段精彩的回應。他不僅點出了 Sutton 的觀點為何在 LLM 前沿研究圈中如同投下一顆震撼彈,更提出了務實且充滿啟發的平衡觀點。
Karpathy 指出,Sutton 的《苦澀的教訓》早已成為 LLM 研究圈的「聖經」。研究人員經常將「是否足夠『苦澀教訓化』」(bitter lesson pilled)作為判斷一個想法是否值得追求的標準,意思是,這個方法能否僅僅透過增加算力就自然獲益。大家普遍認為,LLM 的成功,正是「苦澀教訓」的完美體現。
「所以有趣的是,」Karpathy 寫道,「《苦澀的教訓》的作者本人,卻根本不確定 LLM 是否真的『苦澀教訓化』。」因為 LLM 建立在有限的、充滿人類偏見的數據之上。當數據用完時該怎麼辦?這讓信奉「苦澀教訓」的 LLM 研究者們,反被其理論的創始人「打臉」,場面相當尷尬。
Karpathy 認為,Sutton 與主流 LLM 研究者的分歧,源於雙方心中設想的架構完全不同。Sutton 是個「古典主義者」,他夢想的是圖靈提出的「孩童機器」一個能與世界動態互動、從經驗中學習的系統。
然而,Karpathy 提出了一個關鍵的現實考量:動物並非生來就是一張白紙。
「一隻斑馬寶寶出生後幾十分鐘,就能在草原上奔跑。這是一個極其複雜的感官運動任務,絕不可能從零開始學習。」
動物大腦中數十億的參數,早已被 DNA 編碼好,這是經歷了數億年演化這個「外部優化循環」訓練出來的強大初始設定。如果斑馬寶寶像強化學習演算法的初始狀態一樣隨機抽動肌肉,它根本活不下去。
我們的 AI 同樣擁有數十億參數,它們也需要一個充滿資訊的初始訊號。Karpathy 說:「我們不可能重新運行一次演化,但我們確實擁有堆積如山的網路文件。」
「預訓練是我們蹩腳版的演化(Pretraining is our crappy evolution)。」
Karpathy 提出這個核心論點。在他看來,預訓練雖然是 Sutton 所說的、動物界不存在的監督式學習,但它是在現實條件下,為了解決 AI「冷啟動問題」的一個候選方案。它為 AI 提供了蹩腳但必要的「DNA」,讓它不至於從完全隨機的狀態開始學習。
這引導出 Karpathy 最具啟發性的比喻:今日的 LLM 研究,並不是在創造「動物」,而是在召喚「鬼魂」。
鬼魂(Ghosts): 指的是 LLM。它們是人類數據的統計精煉,是被人類徹底工程化的產物,是人類文明不完美的複製品。它們並非純粹的「苦澀教訓化」,但或許是「務實上的苦澀教訓化」。
動物(Animals): 指的是 Sutton 的理想智慧體。它們從經驗中學習,深深植根於物理世界,是純粹智慧的柏拉圖式理想。
Karpathy 認為,這可能是兩種根本不同的智慧形式。我們或許可以隨著時間,將「鬼魂」朝「動物」的方向微調;但也可能,它們會走向完全不同的演化路徑,變得與動物完全不同,但依然極其有用,就像飛機之於鳥類。
最後,Karpathy 總結道,Sutton 的訪談是對前線 LLM 研究者的一劑「清醒劑」。或許大家太過專注於「利用」現有模型,而忽略了更根本的探索。AI 領域需要保持思想的多元性,而動物王國中的內在動機、好奇心、樂趣、多智能體自我博弈等,仍然是充滿靈感的寶庫。
從挑戰當紅的技術典範,到描繪宇宙尺度的未來,Richard Sutton 的思想如同一座燈塔。而 Karpathy 的回應,則像一張來自前線的詳盡地圖,標示出現實的道路、權衡與無限的可能性。這場對話,共同提醒我們在追逐短期突破時,更應回歸智慧的根本。
或許,通往宇宙星辰的漫漫長路,其起點,真的就在於理解一顆努力儲藏堅果的大腦。
"The Bitter Lesson," an essay by AI pioneer Richard Sutton, proposes that general AI methods relying on massive computation (like search and learning) consistently outperform human-designed systems that try to encode expert knowledge. This is because computational power has grown exponentially, making brute-force approaches ultimately more effective than complex, specialized human-engineered systems. The lesson suggests researchers should focus on creating scalable, general-purpose methods rather than trying to replicate human thinking or encode specific knowledge into AI, as seen in the success of large language models. Computational Scale:
The decreasing cost and increasing power of computation are the most significant drivers of AI progress. General-Purpose Methods:
AI methods that leverage and scale with computation, such as search and learning, are the most effective. Human Knowledge vs. Computation:
Encoding human understanding into AI is less effective in the long run than using computational power to let machines discover solutions through vast searches or learning from data. Historical Evidence:
Advances in fields like computer chess, Go, speech recognition, computer vision, and language models demonstrate this trend, with scaling computation leading to breakthrough progress.
Controversial View:
The lesson is considered "bitter" because it means that decades of human effort to build detailed, expert systems were less productive than simply applying more computing power to simpler, general methods.
Waste of Effort:
The lesson suggests that the human tendency to over-engineer AI solutions by adding handcrafted rules and knowledge is often a waste of research time in the face of growing computational resources.
Focus on Scalability:
Future AI research should prioritize methods that can scale with computational power and data, rather than focusing on human-centric approaches.
Embrace Machine Learning:
By embracing computational power, AI systems can learn in their own way, uncovering complex patterns that are beyond human capacity to pre-program.
人工智慧概述
人工智慧先驅理查德·薩頓在論文《慘痛教訓》中指出,依賴大規模運算的通用人工智慧方法(例如搜尋和學習)始終優於試圖編碼專家知識的人工設計系統。這是因為運算能力呈指數級增長,使得暴力破解方法最終比複雜、專業的人工設計系統更有效。該教訓建議研究人員應該專注於創建可擴展的通用方法,而不是試圖複製人類思維或將特定知識編碼到人工智慧中,大型語言模型的成功就是明證。
關鍵概念
運算規模:計算成本的降低和運算能力的提升是人工智慧進步的最重要驅動力。
通用方法:利用運算並隨運算擴展的人工智慧方法(例如搜尋和學習)是最有效的。
人類知識 vs. 計算:從長遠來看,將人類理解編碼到人工智慧中不如利用運算能力讓機器透過大量搜尋或從資料中學習來發現解決方案有效。
歷史證據:電腦象棋、圍棋、語音辨識、電腦視覺和語言模型等領域的進步證明了這一趨勢,規模化計算帶來了突破性進展。
「痛苦」的部分
爭議觀點:這個教訓之所以被認為是“痛苦的”,是因為它意味著,人類數十年來構建詳細專家系統的努力,其效率遠低於將更多計算能力應用於更簡單、更通用的方法。
精力浪費:這個教訓表明,面對日益增長的計算資源,人類傾向於透過添加手工規則和知識來過度設計人工智慧解決方案,這往往是在浪費研究時間。
啟示
專注於可擴展性:未來的人工智慧研究應該優先考慮能夠隨著運算能力和資料擴展的方法,而不是專注於以人為本的方法。
擁抱機器學習:透過擁抱運算能力,人工智慧系統可以以自己的方式學習,發現超越人類預先編程能力的複雜模式。
wwwww
ChatGPT co-creator Liam Fedus’ new startup, Periodic Labs, just launched, revealing its mission to build AI scientists that learn from physical experiments rather than internet text — with over 20 researchers from top AI labs.
The company is developing autonomous laboratories where robots will run thousands of materials science experiments, generating vast datasets for AI systems to analyze and refine.
Backed by over $300 million in funding at a $1 billion valuation, the startup is initially focusing on superconductors and chip manufacturing.
Source: New York Times
ChatGPT 共同創辦人 Liam Fedus 的新創公司 Periodic Labs 剛剛成立,並發表了其使命:打造能夠從物理實驗而非網路文字中學習的人工智慧科學家,成員來自 20 多名頂尖人工智慧實驗室的研究人員。
該公司正在開發自主實驗室,機器人將運行數千個材料科學實驗,產生大量資料集,供人工智慧系統進行分析和最佳化。
這家新創公司獲得了超過 3 億美元的融資,估值 10 億美元,最初專注於超導體和晶片製造。
來源:《紐約時報》