China’s AI industry has almost caught up with America’s. The competition nipping at American companies’ heels may yet spur them to greater things https://econ.trib.al/Xl4vnFF
"中國的人工智慧產業幾乎已經追上美國。緊接著美國公司的競爭,可能會激勵他們實現更偉大的成就" ~ The Economist
|
尽管美国试图阻止中国的高科技雄心,对冲基金亿万富翁梁文锋仍然利用非常紧张的预算打造了强大的AI模型。 |
|
|
由于美国的出口限制事与愿违地激发了创新,中国的AI模型因此更加便宜高效。 |
|
|
西尔弗:博士为英国带来了巨大的价值。如果在英国没有数量合理的博士生群体,大学教学和开展研究的能力将会崩溃。 |
|
今晚美股,NVIDIA還有一串AI先進晶片概念股,都因為中國DeepSeek橫空出世重挫!中國真的突破美國卡脖子了嗎?
兩個禮拜前,我發文寫拜登卸任前的重磅消息,針對全世界AI先進晶片分三級管制。有一個小草工程師用DeepSeek來嗆我,說他就是學AI的,還說我根本不懂,然後,盛讚中國的工程能力突破美國禁令。
他的留言落落長,我封鎖他但沒隱藏留言,大家有興趣可以去看。大意就是DeepSeek證明中國AI能力已經超越美國了,連Google 前執行長施密特(Eric Schmidt)都驚艷,我憑什麼懷疑?
我問小草工程師,如果美國再封鎖中國呢?連低階AI晶片都不給呢?
事實上,拜登卸任前吞毒藥宣布殺手鐧,就是要全面封鎖中國AI晶片。
如果連晶片都要靠白手套繞道去偷買NVIDIA ,中國AI科技到底突破了什麼?
講白話文,複雜算力要靠晶片,而晶片不是手磨的,要靠先進製程and 先進封裝。
而決定算力的關鍵,晶片規格是先天優勢,其他都是後天努力。
再好的演算法、工程優化,即使在效能上取得一時的領先,比到最後,都抵不過晶片先天算力的限制。
後天努力當然有用,但如果比你聰明的人也開始努力,你就沒有優勢了。
我身邊瘋排球的年輕人Angelo ,有句口頭禪很適合拿來比喻,就是「跳得高、不如長得高」,晶片規格就是那個身高。
中國缺乏高規晶片(偷買的先不算),就苦思用各種優化工程改進效能,就跟窮人家小孩沒有資源,必須更吃苦耐勞的道理有點像。
美國公司為什麼在效能方面會落後?有錢人家小孩直接用高階晶片,就不用那麼累啊XD
美國人如果真的認真起來,同樣用演算法優化提升效能,後天努力是不會輸的。
Btw,今天傳出Deepseek有5萬顆H100,如果實際情況真的是用H100,那吹噓用低階H800搭配演算法,成功突破美國封鎖就幽默了,只會引來美國更嚴苛的封鎖吧。
還有,那個自豪低成本600萬美元的數字也是豪洨,中國說的數字能信嗎?
光是Deepseek自己宣稱,2048組低階晶片 H800繪圖晶片(GPU)的價值就要幾千萬美元了。
現在DeepSeek鬧得風風火火,不管效能提升的內情為何,川普接下來不下重手都不行。
如果美國未來真的全面執行AI晶片三級禁令,全面封鎖中國取得管道,DeepSeek可以靠演算法和優化工程突破重重封鎖嗎?
感動 2025 002 1. 晃三兄近半年:關懷群組。2徐友漁 从哲学家到北京囚徒:我对这种人生很满意 VOA。 3. A new book on sex and Christianity argues that such answers are impossible to find ; KVJ版本聖經之 故事背後的歷史 4. Aki Sato (佐藤亜紀)日本歷史小說的介紹 。 5. AI 競賽,我的看法/猜測接下來的........十三維度:震驚矽谷的杭州公司DeepSeek。牟中原: 過猶不及 為什麼DeepSeek 表現如此傑出?沈榮欽報導: 中國 DeepSeek創辦人梁文鋒 超低成本 成為今年 OSS LLM 領域最大的黑馬:基礎能力、創造性和熱愛等更重要
小說家的說法很可參考。他的不少文論,類似這則,發人深省。
這則日本歷史小說的介紹,極為有趣。有點類似近日AI界的Deep Seek的小小發現。
作者在補習日文的時候,發現日本文學界不為外文界所知道的作家與作品。這種起點,本身就是好的開始。
In my opinion, Aki Sato (佐藤亜紀)is one of the best historical fiction writers in the Japanese language.
At the same time, she is one of the most underrated cont……
查看更多
徐友漁 从哲学家到北京囚徒:我对这种人生很满意 VOA
Modern Christians often look to the Bible for clear answers to sexual questions. A new book on sex and Christianity argues that such answers are impossible to find
AI 競賽,我的看法/猜測接下來的........十三維度:震驚矽谷的杭州公司DeepSeek。牟中原: 過猶不及 為什麼DeepSeek 表現如此傑出?沈榮欽報導: 中國 DeepSeek創辦人梁文鋒 超低成本 成為今年 OSS LLM 領域最大的黑馬:基礎能力、創造性和熱愛等更重要
1. 晃三兄近半年。
紫薇之後,大家設LINE 之關懷群組
林義正讀2年前 亡兒
2. 我的看法/猜測接下來的........
1月20日,總部位於杭州的AI公司「深度求索(DeepSeek)」發布了一個推理模型DeepSeek-R1,它在數學、程式碼及推理基準測試中,匹敵甚至超越矽谷最先進的模型——以數學和推理來說,DeepSeek-R1力壓OpenAI o1,程式編寫則不相伯仲。然而最令矽谷科技龍頭大哥不安的是,R1的開發成本不到600萬美元,僅是Meta訓練Llama 3.1的十分之一。有人說,這是AI界的「偷襲珍珠港」,相信沒有誇張。
更令人嘖嘖稱奇的是,DeepSeek-R1完全開放源碼,提供免費網頁給你使用,還發表論文把所有技術細節、步驟都公之於世,沒留下「商業秘密」,作風比矽谷公司更透明。也就是說,在創新技術、成本效益和開源透明三方面,DeepSeek這家中国公司都把美國科技巨頭比下去了。
一開始,我不免懷疑當中是否有詐,因為這家公司的風格實在太不像「中国的樣子」了。但這幾天,全球業界專家對DeepSeek都好評如潮,例如微軟CEO Satya Nadella上周三說:「看到DeepSeek的新模型,印象很深刻。他們切實有效開發出一款開源模型,推理計算表現出色,且超級計算效率極高。我們必須非常非常認真對待中国這些發展。」
無可否認,DeepSeek這次的確贏了漂亮一仗,為AI發展作出實實在在的貢獻。但他們是怎麼做到呢?先來看看DeepSeek的背景。它的創辦人叫梁文鋒,是浙江大學電機工程系畢業生、通信工程碩士。2015年,他跟拍檔創辦了對沖基金「幻方量化(High-Flyer)」,迅速在中国崛起,成為第一家籌集超過1000億元人民幣的量化對沖基金。
像梁文鋒這樣的中国企業家,未到四十歲已事業有成,實現財務自由,就算不退休,多數也只會繼續吃老本,留在comfort zone。然而梁文鋒在2023年卻做了一個「另類」決定,就是轉行,由金融變科研:他將基金資源投入研究通用人工智慧,以建立自家品牌的尖端模型。當年5月,梁文鋒接受媒體採訪時說:
「幻方做大模型,跟量化和金融都沒有直接關係,我們獨建了一個名為深度求索的新公司來做這件事。我們要做的是通用人工智慧,也就是AGI,大型語言模型可能是通往AGI的必經之路,並且初步具備了AGI的特徵,所以我們會從大語言模型這裏開始。」
梁又說自己創立DeepSeek,主要出於科學好奇,而非追逐盈利,因為從商業角度看,它不值得,基礎科學研究的投資回報率都非常低。有什麼樣的創辦人,就有什麼樣的公司——DeepSeek註定跟梁文鋒一樣,是中国的「異類」。但光靠理想或好奇是不能成功的,梁的招人標準和管理方法才是關鍵。
梁文鋒的聘請原則,是只看能力,不問經驗,核心職位都由應屆和畢業一兩年的年輕人擔任。至於衡量新人的能力,除了看院校背景(主要是清華、北大生),還看競賽成績,金獎以下都不用,「只招1%的天才,去做99%中国公司做不到的事情。」所以這家只有139人的公司,可謂臥虎藏龍,人人身負絕技。
聘用的人也不一定來自電腦系。例如一名畢業於物理系的DeepSeek成員曾公開說,自己只是偶然一次自學電腦,「由於工作太前沿,幾乎沒有什麼參考資料,一切問題都是自己設計方案並實踐解決。」DeepSeek還招聘過文科人才,職位叫「資料百曉生」,提供歷史、文化、科學等相關知識來源,以協助技術人員用高質素的文字資料擴充AGI模型的能力。
DeepSeek自成立以來,一直維持「淡化職級、極為扁平」的文化。成員根據具體目標分成不同研究小組,組內成員沒上下級關係,而是「自然分工」,各自負責最擅長的部分,遇到困難就一起討論。梁文鋒說,自然分工的一個成果,就是孕育出令模型訓練成本大降的關鍵架構「MLA(多頭潛在注意力)」。原來MLA最初只是一個年輕研究員的個人興趣,大家覺得它有潛力,就調動資源發展,結果建立奇功。
DeepSeek的成功之道,說穿了,就是「無為而治」,讓一群極聰明而有共同理念的人自由發展——這正是中国普遍缺乏的環境。除此之外,可能還要感謝美國在2022年10月開始制定的出口管制。由於中国AI公司不能購入最先進的晶片,所以DeepSeek只能用那些低配版H800晶片,價錢比矽谷科技公司的晶片低一大截,無可避免壓低了成本。
硬件不如人,DeepSeek就必須想出更有效的方法來訓練模型。於是他們結合一系列工程技巧來改良模型架構,終於成功突破出口禁令下的技術瓶頸,以更少的運算資源,執行複雜的邏輯推理任務。這不但大幅節省成本,還無需使用最新晶片,完全顛覆了矽谷的既定思維。從客觀效果來看,是美國禁令引爆了這群中国天才的小宇宙,令他們無可奈何地被迫創新,實在諷刺。
中共說了多年的「多難興邦」終於有一次成真了,不過這是沒有「中国社會主義特色」的勝利。DeepSeek的成功,到底是曇花一現抑或陸續有來,在這個瞬息萬變的時代,我不敢猜測。但有一點可肯定:這是國運之戰,而AI將是戰場。
耶穌說:「一粒麥子不落在地裏死了,仍舊是一粒;若是死了,就結出許多子粒來。」
請訂閱支持十三維度Patreon:
「子貢問:『師與商也孰賢?』子曰:「師也過,商也不及。」曰:「然則師愈與?」子曰:「過猶不及。」」(論語.先進)。孔子認爲子張過度學習,而子夏太混了。
在機器學習,開發者經常遇到的兩個常見挑戰是過度擬合和不及擬合。這些問題可能會嚴重阻礙機器學習模型的效能。理解和解決這些問題對於開發強大而可靠的模型至關重要。
當機器學習模型對訓練資料的學習過於出色時,就會出現過度擬合。它將訓練資料中的雜訊和隨機波動捕獲為真實。因此,該模型在訓練資料上表現非常出色,但在看不見的資料上表現不佳。
過度擬合的原因
1.複雜的模型:過於複雜的模型,參數太多,很容易記住訓練資料。
2. 資料不足:如果訓練資料集太小,模型可能無法很好地推廣到新資料。
3. 雜訊資料:資料的高方差會導致模型將雜訊學習為模式。
識別過度擬合
• 效能指標:訓練和測試資料集之間的效能指標(如準確性)存在顯著差異。
• 學習曲線:模型的學習曲線顯示訓練資料的準確度很高,但驗證資料的準確度較差。
過度擬合的解決方案
1. 資料增強:透過引導等技術增加訓練資料集的大小。
2. 簡化模型:透過刪除層或減少神經網路中的神經元數量來降低模型的複雜性。
3. 交叉驗證:使用k倍交叉驗證等技術確保模型具有良好的泛化能力。
4. 早期停止:在模型開始過度擬合之前停止訓練過程。
當機器學習模型過於簡單而無法學習資料的底層模式時,就會出現不及擬合。模型未能捕捉到重要的規律,導致訓練和測試資料的表現都不佳。
不及擬合的原因
1. 過於簡單的模型:過於簡單的模型可能無法捕捉資料中的複雜模式。
2. 訓練不足:模型訓練時間不夠長會導致欠擬合。
3. 特徵選擇不當:輸入特徵無效或不足會阻礙模型有效學習。
如何辨識不及擬合
• 表現指標:訓練和測試資料的表現均較低。
• 學習曲線:學習曲線顯示表現較差,且通過較多的訓練並沒有顯著改善。
解決不及擬合問題
1. 增加模型複雜度:為模型增加更多參數或層可以有所幫助。
2. 特徵工程:透過分箱、歸一化或變數變換等技術改進輸入特徵。
3. 更多訓練資料:有時,提供更多資料可以幫助模型更好地學習。
4. 更長的訓練時間:讓模型有更多時間從資料中學習。
平衡過度擬合和不及擬合
在過度擬合和欠擬合之間找到適當的平衡是模型成功的關鍵。這通常被稱為模型偏差(欠擬合)和方差(過度擬合)之間的權衡。目標是開發一個具有足夠能力從數據中學習的模型,但又不會學習太多噪音和不相關的模式。
理解和解決過度擬合和欠擬合對於建立有效的機器學習模型至關重要。它涉及微妙的平衡行為和全面的策略,包括適當的模型選擇、驗證。透過掌握這些概念,從業者可以確保他們的模型穩健、準確且可靠。
下次交實驗報告時,注意一下數據擬合。做什麼事,中庸之道就好,別太拼。現在大多數的 生成式AI,比起DeepSeek 應該都是過度擬合。
牟中原通常,學習不及的學生給出來是愚蠢的答案,學習過度的學生給出的是 hallucination.
沈榮欽報導: 中國 DeepSeek創辦人梁文鋒 超低成本 成為今年 OSS LLM 領域最大的黑馬:基礎能力、創造性和熱愛等更重要
中國 DeepSeek-R1 以超低的成本,創造出在數學、程式設計和推理上和 OpenAI 的 ChatGPT-4o 十分接近的 AI,連吳恩達都對其能夠以如此低的成本訓練 AI 印象深刻。
中國 AI 圈為之振奮,本週一 DeepSeek 上線時,中國總理李強在同天特別主持研討會,邀請 DeepSeek 創辦人梁文鋒等人討論如何透過科技創新為中國創造經濟的新增長動力。
DeepSeek 的超低成本讓矽谷十分驚訝,Nvidia 的高級研究員 Jim Fan 表示:「DeepSeek 已成為今年 OSS LLM 領域最大的黑馬,這代表資源限制迫使其以驚人的方式重塑自我。」
他說的是
DeepSeek V3 的開發過程,只以 2048 塊性能較弱的 Nvidia H800 晶片(輝達因出口管制而賣給中國的晶片,性能較 H100 稍遜,頻寬和算力均較低)在兩個月內完成了訓練,花費僅 558 萬美元。
OpenAI 訓練 GPT-4 花費 7800 萬美元,Meta的Llama 3 超過 1 億美元,Gemini Ultra 近 2 億美元,DeepSeek 以不足10% 的錢,做出性能只略遜一點的產品,這是最讓矽谷驚訝之處,因爲這代表其他新創公司,也有可能挑戰這些科技巨頭。
DeepSeek-R1 依舊是具有中國特色的 AI ,會拒絕回答從天安門事件到台灣獨立等一系列問題,而且似乎有些問題在中國和國外問,會得到不同的答案。
但是這已經足以讓很多人振奮,尤其是華為。華為正試圖說服中國廠商,其開發能力較差的昇腾晶片,和 DeepSeek 相容(其實需要修改不相容處的程式),希望在中國國內,進一步取代 Nvidia 的晶片。
這也讓美國反對出口管制的人找到出口,批評正是因為美國的出口管制,讓中國找到窮則變、變則通的新方法,因此對拜登臨別秋波管制 AI 算力的方法表示不滿,有些被列為 Tier 2 的國家隨之唱和,希望川普改變拜登的管制。
DeepSeek 對台灣最大的啟示是:相信年輕人,他們缺乏經驗,但是當中有你需要的人才。
在 AI 產業,聘請經驗豐富的老將是常態,許多中國本土的 AI 新創公司更傾向於招募資深研究人員或擁有海外博士學位的人才。
然而,DeepSeek 卻反其道而行,偏愛工作經驗不豐富的年輕人。其團隊僅有 140 人,大多數是工作經驗不豐卻熱愛 AI 的年輕人。
一名曾與 DeepSeek 合作的獵人頭公司人員透露,DeepSeek 不招資深技術人員,「工作經驗在 3-5 年已經是最多的了,工作超 8 年的基本就 pass 了。」
梁文鋒在 2023 年 5 月接受《36氪》訪問時也表示,DeepSeek 的大多數開發人員要麼是應屆畢業生,要麼是畢業不久從事人工智慧職業的人。他強調:「我們的核心技術職位大多由應屆畢業生或具有一兩年工作經驗的人擔任。」
他說:「做一件長期的事,經驗其實沒那麼重要,相較之下基礎能力、創造性和熱愛等更重要。」因此「或許目前世界排名前50的頂尖AI 人才不在中國,但我們能自己打造這樣的人」。
例如在 MLA 架構研究中做出了關鍵創新的高華佐和曾旺丁。高華佐於 2017 年畢業於北京大學物理系,曾旺丁於 2021 年在北京郵電大學人工智慧研究所攻讀碩士學位。
GRPO(Group Relative Policy Optimization)則是由三位實習生完成,其中包括邵智宏和朱琪豪,當時邵智宏還是清華 CoAI 課題組博士生,研究可擴展的 AI 系統,曾參與 DeepSeek-Prover 和DeepSeek-Coder-V2 的發展。朱琪豪則是北大電腦學院博士,以深度代碼學習為研究方向,發表了 16 篇 CCF-A 類論文,並獲得多項國際會議獎項。
DeepSeek 還有一批從 V1 就開始參與的核心成員,如北大博士生戴達勱和王炳宣。戴達勱以預訓練語言模型研究獲獎,發表論文 20 餘篇,是 V1 到 V3 版本的重要推進者。而清華的趙成鋼,則以超算競賽冠軍的背景擔任訓練與推理架構工程師,支撐著 DeepSeek 大模型的硬體效能最佳化。
沒有留言:
張貼留言