DeepSeek的崛起之路
從「炒股神器」到人工智慧明星
MEAGHAN TOBIN, 孟建國, 艾莎 17:17
DeepSeek高度重視研究,其母公司是一家利用人工智慧在中國股市下注的對沖基金,它並不依靠生產面向消費者的產品獲取收入。但突然走紅可能帶來監管挑戰。
DeepSeek意味著美國政策的失敗?
ANA SWANSON, MEAGHAN TOBIN 10:00
美國政府近年來一直試圖限制中國獲取尖端計算機晶片的能力,但DeepSeek的成功讓人們對美國技術出口管制的效果提出質疑。
DeepSeek如何回答「敏感」問題?
王月眉 10:11
在某些方面,DeepSeek受到的審查遠少於中國的大多數平台。但在回答一些敏感問題時,DeepSeek會自我審查並刪除答案。
中共會控制干預DeepSeek嗎?
DAVID PIERSON, BERRY WANG
DeepSeek的成功體現了習近平在技術領域的雄心壯志,但AI技術可能產生顛覆性影響,威脅到中共的利益和對權力的控制。
新新世界
DeepSeek在中國社群媒體掀起熱潮
袁莉
在社群媒體帖子和官方新聞媒體上,DeepSeek成為中國創新能力的證明,尤其是在美國限制中國獲得最先進技術的情況下。
For AI to transform society, it needs to be cheap, ubiquitous and out of the control of any one country or company. The events of last week suggest that such a world is imaginable

economist.com
DeepSeek may have panicked investors. But it is good for AI users
Seek and ye shall find
所有心情:22
洪士灝
關注DeepSeek
過年期間,看著這幾天來我的臉書被DeepSeek相關的文章和報導洗版,覺得非常有趣 — 曾幾何時,有這麼多人在同一時刻如此關心大型語言模型(LLM,以下簡稱大模型)的技術?比起關注DeepSeek本身,更有趣的是觀察眾人對DeepSeek的反應

不過我沒想浪費我寶貴的年假寫這些,因為我又不炒股票,該做的研究已經在做,擔心的話的早就說了,不差這幾天。
以上我在一句話中以「引號」標示出的九個關鍵詞,每個都可以寫一長篇,可見這個議題之有趣與複雜,很難以些許文字講清楚。我想在年假結束之際,簡單點評一下這九個關鍵詞,作為對現況的整理,給我實驗室同學做參考,也作為今年開工之前的熱身:
一、中國公司:
對中國而言,發展高效能計算(HPC)和人工智慧(AI)是國家戰略上極為重要的佈局,因此過去多年來均以國家力量投入技術研發,培育許多人才;加上中國大量地蒐集和運用數據,累積相當多的實務經驗,已威脅到美國的霸主地位,所以美國幾年前決定要採取一些箝制的措施,包括限制高效能處理機晶片的輸入至中國,限制中國的高階晶片研製能力等,但中國仍然設法透過各種管道取得資源。
此次DeepSeek或許讓某些人意識到,至今的箝制的措施,或許仍不足以減緩中國在AI技術的發展,但我想這點則見仁見智。好比中國在1950-60年代,也是在相當困難的情況下研發出核子彈,為的也是國家的戰略佈局,在整體的科技層次上,仍然與當時的先進國家有段距離。不過如今已非吳下阿蒙,DeepSeek對美國透露出的警訊,應不能等閒視之。
至於中國製造的AI模型和服務是否可信賴,是否有資訊安全的顧慮,那又是另一個複雜的議題。市面上已經有很多中國製造的產品,用戶心中也已經有一把尺,但AI牽涉的層面更深更廣,涉及意識形態、國家安全,該如何掌控尺度,仍有待釐清。因應DeepSeek的崛起,相關者必須迅速作出決定,但必須先搞清楚,DeepSeek既是一個雲端AI服務,也是一個可公開下載的AI模型,二者固然相關,但影響層面不同。
二、相對少量的GPU:
有人很驚訝,覺得美國都已經限制高效能處理機晶片輸入至中國,怎麼還有辦法以相對少量的GPU與美國大公司爭鋒呢?其實使用大量GPU來訓練模型原本就是相對暴力的作法,但不見得是有效率(cost effective )的方法。誰說GPU比較少、較為低階,就訓練不出好模型?要知道,超多的GPU,當然有利於探索型的研究,但過程中有很多的算力是浪費掉了;一旦有了明確的方向,就不見得需要那麼多的算力。尤其是站在前人的基礎上做研發,專心致志於某個方向,有很大的機會能後來居上。
DeepSeek官方宣稱,僅使用2048塊H800 GPU即成功完成了6710億(671B)參數模型的訓練,但大家不要過度解讀了。首先,這講的是最終的訓練過程,並非說他們只有兩千多張GPU。其次,那個671B參數的模型實際上是一個混合專家(Mixture-of-Experts,MoE)模型,遠較單一的Dense模型容易訓練;而且推理能力所用到的思維鏈(chain-of-thoughts,CoT)模型,採用強化式學習,在使用已存在的模型(例如OpenAI的o1)作為參考的情況下,可能更省事。堆疊上述以及更多節約省事的技法,這個打6折,那個打4折,用了一堆之後理論上就有可能降到百分之一以下,但這仍有待釐清。
不過呢,投入的資源還是要夠,頂尖的研究人才非常重要,算力還是不能太少。如果連現有的大模型都跑不動,那還做什麼先進研發?DeepSeek v3 671B的大模型,BF16版本光是存參數就需要671*2=1342GB的記憶體,而16顆H800合起來也只有1280GB的記憶體。放眼台灣的產學界,有多少高階GPU可用呢?我不想多抱怨,只能說巧婦難爲無米之炊。
三、投機取巧的訓練方法:
由於成本低到有些人覺得匪夷所思,於是有人質疑DeepSeek使用了一些投機取巧(抄襲)的的方法打造模型,但如同上述,的確有不少技法是可以節省訓練成本的,因此我在沒有進一步瞭解細節之前,不大想對這點多加評論。
不過我想提出一點,以標竿測試(Benchmarks)成績論英雄,並不見得合宜。關於LLM的效能評比,我在去年12/9有篇文章,有興趣的同學可以參考。我在文中說道,「我們長年做效能分析的人,對於這類測試都會有一個疑慮,那就是新產品往往會針對測試做優化,以拿到更好的成績。訓練AI模型的過程中如果拿考古題來特訓,自然會拿高分,但這種高分真的代表學習成效或智力嗎?如同考試,這些測試標竿應該經常更新、與時俱進才好。」
換句話說,你要從零開始,從各種課程和社團活動上廣泛學習未來職場上可能有用的技能,還是只看參考書的重點摘要、採用前人傳下來的應考秘笈,接受補教名師的指點,積極針對考題做準備?如果智力程度差不多,後者應該會考高分吧?但還是要看實際的應用情境,才能在實用性上做較完整的評估。
四、推理能力:
DeepSeek最亮眼(拿高分)的強項在於推理能力,因此對標的是OpenAI的o1,都用上了思維鏈(chain-of-thoughts,CoT),基本上是透過大量考古題以及強化式學習來產生一系列的解題步驟。但這數學題考高分,是否意味著推理能力就一定比一般人強呢?倒也未必如此。我在去年7月有篇貼文「大型語言模型 (LLM) 是否真的具備推理能力呢?」,可供同學參考。
雖然我還需要進一步測試和分析才好評論DeepSeek的個案,但我想,由於採用了強化式學習,如果可以拿OpenAI的o1作為參考,當然比起從零開始要快許多。還記得AlphaGo嗎?Google剛開始花了很多時間和算力訓練AlphaGo,接下來讓AlphaGo彼此對弈,以強化式學習增長棋力,於是進步神速。
有趣的是,相較於不願提供思維鏈細節的OpenAI,DeepSeek倒是把整個解題步驟秀出來,對於想確認答案的正確性或是學習解題的使用者,這是非常有用的資訊,有興趣的人可以看看。
五、更強更便宜:
AI真正決勝的主戰場在於推論服務,關鍵在於誰的模型產出的結果最精準優秀,或是性價比最高。對最先進、最競爭的場合而言,可以不計成本追求強大的AI,但對於普羅大眾而言,大部分在乎的還是性價比。因此在大模型推論服務普及化的過程中,具競爭力的性價比,是商業成功的重要關鍵。至於要如何做到,那就得靠軟硬體的優化了。
671B的DeepSeek V3模型,如上所述,光是存放參數就要16顆H800/H100,這樣所費不貲。把參數都放在GPU上,推論速度最快,但也是暴力(燒錢)的作法。實際上,DeepSeek V3模型雖然擁有671B的參數,但它MoE的架構每次推論所使用的參數只有大約37B,因此只有1/18的參數被用到。另外,DeepSeek還有,DeepSeek近日釋出6個蒸餾版( distilled)的小型化版本的R1模型,參數量從1.5B、7B到70B,提供多樣的選擇,對單純希望以小搏大、追求性價比的用戶是件好事。
我們實驗室這兩年來實際探討LLM的軟硬體架構,知道大模型的性價比一直都在提升。一方面硬體速度持續提高,在張量計算單元中加入低精準度計算的支援,提高記憶體容量和跨GPU的傳輸速度;另一方面則是在軟體效能和在模型架構上有所改良,例如我去年底邀請Byron演講的Liger Kernel,以及我們最感興趣的MoE模型,性價比往往高於LLAMA那種dense模型。顧名思義,MoE就是把一群較小但各有專長的模型組織起來,根據用戶的提問性質,彙整其中的某幾個專家的意見作為輸出。除了性價比好之外,還容易訓練,俗語說「三個臭皮匠勝過諸葛亮」,有這樣的意涵。面對算力資源不足的情況,我們也唯有如此對應。
六、商用開源模型:
我要各位關注開源模型,因為它除了方便學習、做研究之外,也有其商業價值。Meta的LLAMA模型,是最知名的開源模型之一,從2023/02釋出第一版,到現在的第三版,有長足的進步。尤其到了第三版之後,每個版本更新也都有明顯的增幅。去年底釋出的Llama3.3,小小的70B模型的答題正確率逼近餐數量6倍多的Llama3.1 405B模型,讓我得以在128GB共享記憶體的MacBook Pro上使用GPU以堪用的5 tokens/s的速度運行int8版本,不用擔心因為使用雲端AI服務而洩漏了機敏資料。(有興趣的同學,可以參考我去年12/17的臉書文。)
實驗室也研究過DBRX、Mistral等開源MoE模型,探索如何以分散式計算與系統優化的方法提升這些模型的性價比,或是串連數台比較小的電腦,有效率地一起跑單一電腦跑不動的大模型。參與這些研究對於大家實際了解大模型的軟硬體架構特性是很有用的,不只是下載人家建好的模型來用而已,提高性價比的關鍵在於對系統的理解、對軟硬體互動的深入觀察,以及效能工具的使用,要打敗的魔鬼都藏在細節裡。
此外還有相當多的開源模型,可以公開下載使用,但能否供商業使用,則有不同的授權條款。DeepSeek採用的MIT 開源授權,可供商業使用,以它所標榜的高性價比,自然受到極大的矚目。很多公司早已準備使用開源大模型,只是在等待時機成熟的契機,但即便契機已至,我看很多公司仍然缺乏能有效訓練和運用大模型的人類專家,因此機會是給準備好的公司。此外,除了GPU之外,硬體加速器也會因為時機成熟而普遍化,也會有很多軟硬整合的機會。
七、NVIDIA股票重挫:
NVIDIA之所以大賺其錢,主要是因為這幾年H100等級的高階GPU晶片因為大模型訓練的熱需而供不應求。如果今天不需要大量高階的GPU,也能訓練出具競爭力的大模型,那大家為什麼還要搶購NVIDIA的GPU呢?這個問題一出來,當然影響了NVIDIA的股票行情。但這真的代表NVIDIA的護城河出了裂縫嗎?我想不需要做過度的詮釋。
我想,既有的「模型大就是好、算力多就是強」的訓練手法,以及以結果論英雄的暴力美學,其實原本就有不少專家提出疑慮,而DeepSeek的故事讓大家對上述的現象多些省思。如果模型架構停滯不前、訓練資料量無法大幅增加,不能讓大模型的能力大幅進步的話,那麼性價比就成為競爭的重點,而低成本化(Cost-Down)正是中國和台灣資訊產業的強項,不少的公司原本就在研發硬體加速晶片,只是因為大模型進化太快而不敢貿然出手而已。尤其是高階的晶片,研發和製程都很燒錢,不是一般公司玩得起的,因此NVIDIA在高階市場上仍有其領先優勢。另一方面,推論服務的市場原本就在成長,NVIDIA也有其佈局和優勢,但畢竟利潤遠不如高階晶片,而且門檻較低,競爭也更加激烈。
然而,不需要高階GPU的大算力與大記憶體就能訓練出具競爭力的大模型,並且提供價廉物美的推論服務,這樣的故事的確對NVIDIA的高階GPU的市場造成影響。就整體而言,NVIDIA恐怕不能繼續以這些年慣用的高姿態宰制市場,影響比較大的是利潤,不過我還是得說,目前NVIDIA在技術和生態系上還是領先對手的,需要大算力的最先進AI研發還是需要NVIDIA晶片的。
八、美國該如何回應:
我看美國已經有很多人在討論DeepSeek,政府和公司在政治和技術上的反應也逐漸出來了,大家可以自己看,重點在於後續美國政府和公司會怎麼做,我先不在此評論,只會提兩個故事。第一個故事是,美蘇在冷戰時期,蘇聯率先發射人造衛星、把人類送上太空,讓美國顏面盡失,激發起登月計畫。第二個故事是,2000年左右電子商務鼎盛時期,又稱為網際網路泡沫(Dot-Com Bubble),後來911事件催化了許多矽谷公司的泡沫化,不過Google、Amazon這些公司仍是壯大成為大公司,後來還是有雲端服務、大數據分析以及AI的陸續出現,造就了許多高科技公司。
我想DeepSeek在某種程度上,讓美國有所檢討和反思,也不是件壞事。美中的競爭和對立或許因此而激化,至於美國是否能因此而催生出類似登月的AI計畫,就讓我們看下去。各位同學在學習技能和思考未來的過程中,可以嘗試看遠一些,不要像一些炒股票的人那樣看短線。
九、台灣怎麼辦:
日前數位部發佈訊息,以資安考量為由要求公務機關禁用DeepSeek雲端服務,這就像之前已有禁用某些中國製的資通訊設備,並不意外。不過,如前所述,DeepSeek既是雲端服務,也是開源的模型,如果僅是下載DeepSeek模型下來在本地端使用,或是放在產品之中,那麼一則並沒有洩漏資料的風險,一則恐怕是禁不勝禁的,要如何面對呢?
我在去年12/19的貼文「AI模型的意識形態」談過,AI模型提供的文字中可能夾雜著訓練方預設的意識形態,例如中國與台灣的關係,在中國訓論的模型會堅持提供中國官方認可的說法,這個是模型使用者很明確可以看到的,但有些意識形態的產出並不是那麼明顯的,反而可能默默地影響使用者和接受者,乃至於影響社會文化。
有些人希望台灣也有意識形態無虞而且具競爭力的AI模型,但要如何打造出來呢?有人說,DeepSeek能,台灣為何不能?我沒有定論,只能說做這種事要有共識、決心和方法,而且做了才知道,能不能不做則絕對不能。我常說關鍵在於人才的培育與賦能,是國家當務之急,應該投入所需的資源。如果DeepSeek的訓練成本和高性價比屬實,證明了LLM的訓練和優化並非大公司的霸權,不再遙不可及,那或許值得仿效。當然,如我以上所說的,這件事還有待進一步釐清就是了。
社群聊天室
- 一般聊天室杜邦simm老友群
群組聊天室
- 2天2天前Norbert Tai、Evelyn Su和其他11個人
- 3年3年前陳文發
- 3年3年前Facebook 用戶與蘇錦坤
建立群組聊天室
沒有留言:
張貼留言