2025年1月27日 星期一

筆記:Taiwan AI Labs訓練的小專家模型FedGPT。杜奕瑾。鄭紹鈺微摘。 牟中原DeepSee簡說說; 謝昆霖用 Claude 深度閱讀 DeepSeek-R1 DeepSeek-V3 論文 比較 Dense (LLaMA 3)架構和 MoE (DeepSeek-V3)架構的成本

 

我們在1/21台灣AI產業年會發佈了Taiwan AI Labs訓練的小專家模型FedGPT。
幾個重點:
1. 算力很重要但不是全部,資料、演算法也是。前面是硬體功夫,後面是軟體功夫。
2. MoE 不是新觀念、是趨勢,未來是專用落地小模型的世界。在我們跟台大陳緼儂老師開源TAME時就提及。
3. 通用跑分就像研究所畢業成績只是一個開始。通用跑分在過去的經驗,中國一般能調得超英趕美。
4. 但成功者不是只看畢業成績、要看場域實際資料跑出來的結果。
5. 還有應用的快速落地與能否主動學習。這部分就會牽涉到新興法規。開源閉源都無法回答這題。所以有聯邦式開放架構。
6. 綜合以上幾點,台灣人工思維形式提供全球第一個可信任負責任的聯邦式FedGPT架構。讓企業也可以基於最優秀的畢業生,落地訓練成為自己的員工、自己的GPT。
7. 這不代表算力沒有優勢、而是雲端的優勢會轉換到地端結合。NVIDIA 其實有看到這一塊所以有Project Digits。
8. 這一轉變台灣其實更有優勢、因為AI雲端壟斷的局面打破、會有更多不同的混合運用。台灣軟硬可信任的科技會是重要的提供者。會有更多的買家。
9. 開源模型有的成果都是受惠於眾多開源的結果,不管是資料集、算法、平台美國在這個賽道仍是主要的貢獻者。
10. 1/27DeepSeek的發佈、只是告訴大家AI的霸權不是只有在算力的掌握、要多投資軟體跟應用的基本功。技術部分有值得學習,以及敬佩。趨勢跟Taiwan AI Labs 1/21發佈的所見略同。其他中國超越美國什麼的就當作行銷術語就好了。行銷成功所以今天相關股票也受到影響。
我們用到的資源更少唷!希望未來在我們的成果也幫忙多宣傳,然後我們也在徵人。

The release of a less capital-intensive artificial intelligence model from China’s DeepSeek sent a chill through the U.S. stock market Monday, initiating a massive selloff and hitting billionaires where it hurts—their fortunes.
DeepSeek Panic Live Updates: Ultra-Rich Lose Billions As Nasdaq Paces To Worst Day Of 2025
forbes.com
DeepSeek Panic Live Updates: Ultra-Rich Lose Billions As Nasdaq Paces To Worst Day Of 2025
“The AI investment cycle may be overhyped,” posed an



微摘:
1)DeepSeek R1的演算法的確有可取之處,大幅節省了成本,有個柏克萊學生將演算法用在count-down上,的確大幅減省了成本:
2) DeepSeek沒有公布所有的訓練資料跟細節(e.g. The training weights),不少人猜說秘方是在訓練資料裡(跟不能說的GPUs)。所以現在有一群開源社群的人以Synthetic Data為主想要重製DeepSeek R1的pipeline一遍:
等到這邊的結果都出來,大概就可以比較準確的評估有多少東西是來自演算法的創新了。(不曉得huggingface他們夠不夠錢...)
3)我跟中國朋友隨便測了一陣子試DeepSeek R1,有抓到一些懷疑應該是用GPT4 output當訓練資料的東西,所以那個訓練資料的配方組成應該還是扮演了一定的角色。
4)DeepSeek R1目前是弱審查模式,我跟朋友測一測,發現繞一繞問天安門還是會回答給你。這應該過不了中國國內的「安全AI」的標準。
5)去年跟OpenAI的工程師聊過,他們從GPT2的時候,就是主打用GPUs拉算力用平A的A過去,不過前陣子開始遇到的瓶頸是便宜的訓練資料已經用完了。如果Open R1的結果也不錯,那表示給累積訓練資料的成本越來越高,給定有限算量,用演算法提升表現還是可行的。
6)我是不擔心「算力過剩」啦,給定市場供給有限的算力,人類就是有辦法把這些算力花掉,就跟蓋高速公路多蓋幾條但還是很快就會塞滿,Jevons Paradox。
7)假設幻方手上真的沒有「不能說」的晶片,然後Open R1的結果也很好,那現在發生的事對美方晶片管制就是一個警鐘,就是整個矽谷跟一間中國的代差沒有到很大。
😎 7的假設是假設。但如果用舊晶片,僅靠靠新的方法可以提升結果這麼多,那也是蠻棒的,像我在哈佛的lab就是二十來顆2020年買的GPU,你預算很有限,有限算力能多做事就是有不少機會。
所有心情:
12



牟中原

中國新開源人工智慧公司開發的DeepSeek R1只花了6 million $ 及兩個月時間,它的表現可以和最頂級OpenAI的o1效能相近。震驚美國AI 界。近來我們公司開發新技術時,都變成在用DeepSeek 了,因為它免費且不限制次數。有PhD 程度。而它們居然是用比較低級的GPU H800 ,因為被美國限制高級GPU出口。Necessity is the mother of invention. 他們在方法上有很多新發明(公開發表),已經不是抄襲。
l 價格便宜96.4%,而且基本上免費。
l OpenAI 的新 o3 mini 模型可供免費用戶使用,但與 DeepSeek 的無限制存取相比具有明顯的限制。
l DeepSeek R1 是開源的、經濟高效的、本地運行的,讓所有人都能使用 AI。

DeepSeek 發布 DeepSeek-V3 開始,就已經讓 Meta 的 Llama 4 在各項測試中處於落後,「更糟糕的是,這間不知名的中國公司僅為此花費了 550 萬美元。」
該名自稱 Meta 的員工指出,「Meta 生成式 AI 部門裡的每位高層薪資都超過了這個數字」,「而我們卻有幾十位這樣的高階主管,我根本無法想像該如何向公司高層證明部門目前高額成本的合理性。」
關於 DeepSeek 對於為什麼這麼便宜的討論,我不知道有多少人看了他們的論文?基本上有兩篇論文要讀,一篇是 R1 的 一篇是 V1 的。以下是我用 Claude 深度閱讀後得到的一些心得,作為筆記、也分享出來。
.
▍單看 DeepSeek-R1
DeepSeek-R1-Zero:不依賴監督式微調,純透過強化學習提升模型推理能力。
做法是直接對基礎模型應用強化學習、使用 GRPO 框架進行訓練,並採用規則為主的獎勵系統,以自然產生多種強大的推理行為模式
DeepSeek-R1:結合小規模冷啟動資料和多階段訓練流程。
冷啟動(Cold Start)階段,使用 Chain of Thought (CoT) 資料集進行微調,一共約 144K 筆樣本。推理訓練:600K 樣本、通用訓練:200K 樣本。
.
▍單看 DeepSeek-V3
DeepSeek-V3 是一 MoE 架構的大型語言模型,總參數量 671B,每個 token 使用 37B 參數。模型採用 MLA 和 DeepSeekMoE 架構。使用 14.8T tokens 訓練。總訓練成本僅需 2.788M H800 GPU 小時。
但是要部署 DeepSeek-V3 則有最小部署單位要求:
預填充(Prefilling)階段
- 4 個節點,共 32 個 GPU / - 採用 4-way Tensor Parallelism / - 8-way Data Parallelism / - 32-way Expert Parallelism
論文中寫到 Prefilling 階段,為了讓每張 GPU 可以維運更多個專家(例如 16個),他們發展了 dynamic redundancy(動態冗餘) 策略,在每一步推理,只有 9 個專家會被啟動。
解碼(Decoding)階段
- 40 個節點,共 320 個 GPU / - 4-way Tensor Parallelism / - 80-way Data Parallelism / - 320-way Expert Parallelism
每個GPU只維運一個專家,並有64個GPU負責處理冗餘專家和共享專家。
硬體連接的要求:節點內需要 NVLink 連接 / 節點間需要 InfiniBand 連接 / 網路頻寬和低延遲的要求高
.
▍比較 Dense 架構和 MoE 架構的成本
訓練成本:MoE 是 Dense 的 1/18
Dense (LLaMA 3):預估超過 1 億美元,需要大量 GPU 的計算時間用於訓練,每次計算都用全部參數。
MoE (DeepSeek-V3):約 557.6 萬美元,訓練時間短,但是只用到MoE只訓練部份參數。
但是部署成本剛好相反,硬體成本:MoE 是 Dense 的 20倍
Dense (LLaMA 3 405B):約 $160,000 USD
以 16 張 A100 80GB 估算
MoE (DeepSeek-V3):約 $3,200,000 USD
論文中提及 預填充:32 GPU / 解碼:320 GPU
MoE 的部署硬體成本確實比 Dense 高得多,訓練成本低運營成本高,適合訓練預算受限、部署環境較穩定的團隊。
這也是為什麼大多數商業部署選擇 Dense 架構,因算力資源、預算充裕充沛。在部署的成本考量更重要:部署的穩定性、便利性都比較高,也能應付多樣的部署環境。
.
▍但 R1 其實是 V3 的一部份,用來生成細緻的 CoT
我們都知道 CoT 只是 提高 Prompt 的技術,人類提問時,因為給的脈絡太少、太蒼白,以致於沒辦法啟動夠多的參數來生成解答。但是,叫人類每次丟個問題,就要囉囉嗦嗦輸入一堆生成步驟或思考步驟,那為什麼不做一個 LLM 來專門生成 CoT?
ChatGPT o1 和 Gemini DeepResearch(?)、Claude 3.5 Sonnet 就是這類代表。只是因為他們是封閉模型,所以大家一時半刻不知道它們那些神奇的思考推理怎麼做出來的。
從 R1 的論文中,最重要的就是在 Cold Start 階段「找人類針對特定任務寫大量的 CoT 資料集」。做法是先找人類寫出 少量模版進行提示生成,再透過模型生成詳細答案和反思,接著用人工做後處理確保 CoT 的品質,並專注於不同任務推理出 CoT。
DeepSeek-R1 的最重要的貢獻應該是揭開 ChatGPT o1 和 Claude 3.5 Sonnet (可能的)祕密。(我個人是覺得八九不離十)
.
我不是這方面的專家,上述也只是 兩篇論文 搭配 Claude 服用得到的結論。主要是我自己要做功課掌握一些方向,順便分享給大家。閒聊閒聊。
.
可能是文字的圖像

沒有留言: