針對像 ChatGPT 這類大型語言模型,一直以來我們推薦的都是,你愛用哪個用哪個。不要整天看評測報告,而對於「寫到你看不懂的東西讓你覺得很專業的」那些文章,都要持懷疑的態度。
最近 DeepSeek R1,讓我們覺得「要學 AI
真的還是要知道原理」。不然你會看到兩個不是真的懂的在那邊吵架。以下是一些我們看到的錯誤資訊,這些是真的有一些「專家」說的,不過不是他們原來的話,所以請大家專注在瞭解不要真的去看到底是誰說的。
這完全是錯誤的。因為如果沒有基礎的開源模型,比如說 Llama 等,就沒辦法做出 DeepSeek R1。DeepSeek 比較像做了一些聰明的 fine-tuning,沒有 pre-trained 模型是做不到的。
這句話自相矛盾,因為純強化學習意思是我們沒有提供訓練資料,讓電腦自己看著辦。而冷啟動是開始時給一些真人寫的範例,讓模型更能穩定訓練。DeepSeek 的論文的確說,可以用純強化學習就達成相當的效果,但是做了冷啟動,效果會更好。
這顯然有學過點東西,知道像 ChatGPT 等 LLM 用了 RLHF。但 DeepSeek 不是。如果要在外面吹牛給別人聽的話,DeepSeek 真正重要貢獻之一,在強化學習方面改了 OpenAI 的
#PPO,推出
#GRPO。雖然只知道這樣我們和其他吹牛的人一樣不懂,到至少吹牛的內容是正確,而且一樣讓別人覺得我們好厲害。真的想學習的你,也知道真的要弄清楚的東西就是
#GRPO (配合後面的結論),警語是 DeepSeek 全篇寫得最令人舒服愉悅的地方就是這裡,
#數學看起來很複雜。不過好處就是數學式子看起來很複雜,你弄懂了就狂勝一票自己都不知道自己在說什麼的專家。
這說得好像 DeepSeek 不需要用 GPU,這完全是錯的。真正重點是,你可能不用 (也買不起) 訓練基礎模型的超多高級的 GPU,可以做出一些厲害的模型。也就是不要覺得只有有錢的超級大公司才能做 AI,像 DeepSeek 許多模型都開源,基本上方法也是公開的,你喜歡可以用 DeepSeek 的方法,打造一個更符合自己需求的模型。缺點就是,DeepSeek 使用的 GPU 數量和等級,對大多數的企業還是天價的。但讓大家有新的希望,那就是說不定買少一點的 GPU,不要訓練到 DeepSeek 的程度,但非常符合自己需求是可能的。看懂這件事的就會去買沒那麼多的 NVIDIA H100,再沒錢的就買消費級的 NVIDIA RTX 5090 等等。NVIDIA GPU 可能會更難買。
【DeepSeek 真正教我們的事】
DeepSeek 真正令人振奮的地方是,你可以用類似的方法,用
#你的電腦跑得動 的小模型,打造一個
#完全符合你的需求和效能 的模型出來。DeepSeek 最聰明的地方是,把重點放在「引導 LLM 回應」的部份。他們觀察到,如果你可以寫出一個非常好的 prompt 引導,你的語言模型就可以回應得很好。
更精確的說,就是你把推理的邏輯,要注意的地方等等都告訴 LLM。於是使用者問一個問題,DeepSeek 不是馬上回答,先去產生對這個問題的思惟或是想法 (Think)。DeepSeek R1 專注在好好的生這個想法,然後送去 LLM,引導 LLM 做高品質的回應。雖然這種方法是 LLM 世界大家熟悉的 Chain-of-thought (
#CoT) 技巧,但 DeepSeek 做的是完全專注在生成高品質 <think> 這個部份。
要生成高品質的 prompt,或是我們說技術一點,思惟。如果你都是針對特定的任務,比如生成某種報告,不需要包山包海,那可以設計好仔細的「思惟方式」,直接加到 prompt 中就好了。
如果你希望你的模型更通用一點,即使都相同任務在不同的問題下也要有調整,那麼可能會需要一些 fine-tuning 的動作。這件事以前一些大公司也想到了,只是他們想到的是讓人類示範高品質的思惟,或是高品質的回應,讓 AI 去學。再來是真正的 RLHF,我們再找人來問問題,看到回應之後,告訴我們哪個好,哪個不好。於是 AI 會迎合人類往好的方向走。
這裡的問題就會是,需要有大量人產生的範例,還有需要大量的人去做標記。DeepSeek 另一個重要的想法是:「可不可以不要人類標記,不用太多人類寫的範例,就能訓練 LLM 產生良好的思惟?」這裡的重點就會在怎麼設計強化學習的 rewards,這個 rewards 需要容易到不用人就可以算,又能真的教好電腦的。
簡單的說,DeepSeek 有許多有趣的地方,也讓我們更知道怎麼用 LLM 方式,這才是真正的重點。
Yang-Chih Yin一些台灣媒體將美股大跌,認為是強大中國的DeepSeek所導致,關於這個我笑了...大笑!!
我是質疑啦,因為中國現在沒有高功能晶片,受到美國的制裁禁令,加上中國也造不出來,現在頂多7奈的良品率就很低,我看看哪一家的報導?聯合報呀~~呵呵不意外,我會建議看過這篇報導,而認為中國晶片好棒棒的,上海A股、深圳A股都可以去買看看XDDD。
我覺得如果deepseek很有影響力的話,他在1月27號發表,當天晚上造成美國大股災了,所以這根本不是主要原因,而且他需要更多的高科技晶片,以及圖形處理器GPU,因為有需求的市場但受到制裁影響之下,美股這些半導體廠商應該會大漲,怎麼會下跌呢?”
我用了deepseek兩天了,對照Chatgpt, 是還ok但在LLM運算速度上還可以加強,但號稱可以大幅度降低90%開發成本,我認為是誇大居多。阿陸仔一向1塊錢做1萬塊生意,
這次會如何?讓我們繼續看下去。下周一台積電若開盤大跌,最高興的應該是想要進場的外資法人,或者是有遠見的散戶。
上篇討論 DeepSeek R1 的 Reasoning 獲得很不錯的迴響,但大家好像對 R1 的基礎模型 DeepSeek V3 的「降本增效」更有興趣,尤其是「降本」的部分,我來簡單寫一下這究竟有什麼貓膩呢?
其實沒什麼貓膩,DeepSeek V3
能「降本」的方式是學界周知的方法,不外乎三招:混合精度訓練(Mixed Precision Training)、混合專家模型 (Mixture-of-experts Model) 和 計算-溝通重合 (Computation-Communication Overlap),但是 DeepSeek 團隊把這些概念以非常優化的方式實踐出來了,而我認為第三項才是 DeepSeek 這家公司的護城河,當然我們最想要的這一塊程式碼是沒有開源的。我們來逐一解析這三點。
「降本」關鍵一:混合精度訓練(Mixed Precision Training)
首先,讓我們理解一下深度學習模型的訓練過程。簡化來說,模型訓練就是調整大量數字參數以提升模型的性能。而這些參數是以計算機的位元 (bit) 表示的。當使用更多的位元時,數字表達的精度會提高。通常,模型的參數是用 16 位元 (FP16) 來表示的。
那麼,如果我們降低參數表示的精度,會發生什麼事呢?答案是:
1. 記憶體需求減少:低精度表示的數字佔用更少的空間。
2. 運算成本降低:數字的精度降低後,基礎運算(如加減乘除)的計算成本也會隨之下降,運算速度更快。
研究發現,在語言模型的訓練過程中,並非每個步驟都需要使用高達 16 位元精度來作計算的。相反地,在某些部分計算中,使用更低精度的表達(如 8 位元)不僅不影響成效有時反而效果更好,而卻妥妥的提升訓練效率,降低訓練成本。在硬體層次,NV也提供FP8的訓練。
DeepSeek V3 正是基於這一點,利用混合精度訓練,在適當的計算過程中切換至更低的精度,以有效降低訓練成本。
「降本」關鍵二:混合專家模型 (Mixture-of-experts Model)
在大型模型訓練中,我們常提到 Scaling Law(擴展法則),即模型性能與資源(如參數數量、訓練資料量、計算資源)之間的關係。簡單說,擴展法則告訴我們:當模型變大、資料變多、計算能力增強時,模型性能也會顯著提升。
混合專家模型(MoE)通過引入Experts選擇結構,讓擴展法則曲線更加高效與經濟。具體來說:
* 在 MoE 結構中,每層模型包含多個專家(Experts)和一個動態選擇器(Selector)。
* 選擇器的作用是根據輸入內容動態選擇部分專家參與計算,而非啟動所有專家。
* 因此,儘管參數規模龐大,但實際參與計算的參數僅占一小部分,從而顯著減少計算負擔。
舉例來說,DeepSeek V3 的每層 MoE 結構由 2 個共享專家(Shared Experts) 和 160 個路由專家(Routed Experts) 組成。在訓練過程中,對每個 token 僅啟用 6 個專家,即使專家總數龐大,但參與計算的僅是其中一小部分,達到降本效果。
我通常喜歡將這個模型結構比喻成大腦大腦的每一個腦區其實都有他大致負責的項目,所以當你在做一件事情的時候你不是用到全腦來執行這件事情,而是你只是用到了大腦的一部分,這就非常符合混合專家模型 的金水而坊間很多的說法,其實是有誤導性的會誤導民眾每一個Experts 負責一些 定義好的項目 但這不是事實事實是我們只是設計好這樣的架構讓也模型自己學到如何去分配,他就像大腦一樣
我喜歡將 MoE 模型比喻為人類大腦。大腦的每個區域都大致負責某些功能,但當你執行某項任務時,並不需要啟用整個大腦,而只會用到其中一部分,MoE 模型的設計理念與此相似。訪間很多說法其實是有誤導性的,這些Experts並非由人為定義固定其功能的,不是說這一些就負責寫作、那一些負責算數,我們無從事先得知,而是通過訓練讓模型學會自行分配。
「降本」關鍵三:計算-溝通重合 (Computation-Communication Overlap)
大型語言模型的參數數量龐大,通常需要多張 GPU 協同運算。這牽涉到兩種類型的通訊:
1. 同一節點內 GPU 之間的通訊。
2. 節點與節點之間的通訊。
硬體層面,NVIDIA 提供了高效的 NVLink 和 InfiniBand 解決方案。但在訓練過程中,仍有大量空間可供優化。例如,若 GPU 在等待通訊完成時無法運算,會產生所謂的 Bubble,導致資源閒置。
DeepSeek 團隊在這方面投入了大量精力,目標是讓計算與通訊最大化重疊,從而減少 Bubble,提升 GPU 的使用效率。這種極致優化,能讓 GPU 性能「炸乾」,大幅縮短訓練時間。
有趣的是,DeepSeek 背後的公司幻方量化是一家量化交易公司。優化大量 GPU 運算的能力,或許正是源自他們在量化交易領域的深厚技術積累。這也是 DeepSeek 的核心技術優勢與護城河所在。
以上三點就是 DeepSeek V3 得以用更低成本的訓練和運營模型的方法,也可以看見幻方量化這家公司紮實的在技術上做突破。如我之前在各個podcast或演講上所說的,我認為累積技術力比成果更重要,成果在競爭激烈之下保鮮期很短,但是實作過程所累積的經驗、資料、基礎設施、人才,甚至是法規,才是長期能產生效果的。
針對像 ChatGPT 這類大型語言模型,一直以來我們推薦的都是,你愛用哪個用哪個。不要整天看評測報告,而對於「寫到你看不懂的東西讓你覺得很專業的」那些文章,都要持懷疑的態度。
最近 DeepSeek R1,讓我們覺得「要學 AI
真的還是要知道原理」。不然你會看到兩個不是真的懂的在那邊吵架。以下是一些我們看到的錯誤資訊,這些是真的有一些「專家」說的,不過不是他們原來的話,所以請大家專注在瞭解不要真的去看到底是誰說的。
這完全是錯誤的。因為如果沒有基礎的開源模型,比如說 Llama 等,就沒辦法做出 DeepSeek R1。DeepSeek 比較像做了一些聰明的 fine-tuning,沒有 pre-trained 模型是做不到的。
這句話自相矛盾,因為純強化學習意思是我們沒有提供訓練資料,讓電腦自己看著辦。而冷啟動是開始時給一些真人寫的範例,讓模型更能穩定訓練。DeepSeek 的論文的確說,可以用純強化學習就達成相當的效果,但是做了冷啟動,效果會更好。
這顯然有學過點東西,知道像 ChatGPT 等 LLM 用了 RLHF。但 DeepSeek 不是。如果要在外面吹牛給別人聽的話,DeepSeek 真正重要貢獻之一,在強化學習方面改了 OpenAI 的
#PPO,推出
#GRPO。雖然只知道這樣我們和其他吹牛的人一樣不懂,到至少吹牛的內容是正確,而且一樣讓別人覺得我們好厲害。真的想學習的你,也知道真的要弄清楚的東西就是
#GRPO (配合後面的結論),警語是 DeepSeek 全篇寫得最令人舒服愉悅的地方就是這裡,
#數學看起來很複雜。不過好處就是數學式子看起來很複雜,你弄懂了就狂勝一票自己都不知道自己在說什麼的專家。
這說得好像 DeepSeek 不需要用 GPU,這完全是錯的。真正重點是,你可能不用 (也買不起) 訓練基礎模型的超多高級的 GPU,可以做出一些厲害的模型。也就是不要覺得只有有錢的超級大公司才能做 AI,像 DeepSeek 許多模型都開源,基本上方法也是公開的,你喜歡可以用 DeepSeek 的方法,打造一個更符合自己需求的模型。缺點就是,DeepSeek 使用的 GPU 數量和等級,對大多數的企業還是天價的。但讓大家有新的希望,那就是說不定買少一點的 GPU,不要訓練到 DeepSeek 的程度,但非常符合自己需求是可能的。看懂這件事的就會去買沒那麼多的 NVIDIA H100,再沒錢的就買消費級的 NVIDIA RTX 5090 等等。NVIDIA GPU 可能會更難買。
【DeepSeek 真正教我們的事】
DeepSeek 真正令人振奮的地方是,你可以用類似的方法,用
#你的電腦跑得動 的小模型,打造一個
#完全符合你的需求和效能 的模型出來。DeepSeek 最聰明的地方是,把重點放在「引導 LLM 回應」的部份。他們觀察到,如果你可以寫出一個非常好的 prompt 引導,你的語言模型就可以回應得很好。
更精確的說,就是你把推理的邏輯,要注意的地方等等都告訴 LLM。於是使用者問一個問題,DeepSeek 不是馬上回答,先去產生對這個問題的思惟或是想法 (Think)。DeepSeek R1 專注在好好的生這個想法,然後送去 LLM,引導 LLM 做高品質的回應。雖然這種方法是 LLM 世界大家熟悉的 Chain-of-thought (
#CoT) 技巧,但 DeepSeek 做的是完全專注在生成高品質 <think> 這個部份。
要生成高品質的 prompt,或是我們說技術一點,思惟。如果你都是針對特定的任務,比如生成某種報告,不需要包山包海,那可以設計好仔細的「思惟方式」,直接加到 prompt 中就好了。
如果你希望你的模型更通用一點,即使都相同任務在不同的問題下也要有調整,那麼可能會需要一些 fine-tuning 的動作。這件事以前一些大公司也想到了,只是他們想到的是讓人類示範高品質的思惟,或是高品質的回應,讓 AI 去學。再來是真正的 RLHF,我們再找人來問問題,看到回應之後,告訴我們哪個好,哪個不好。於是 AI 會迎合人類往好的方向走。
這裡的問題就會是,需要有大量人產生的範例,還有需要大量的人去做標記。DeepSeek 另一個重要的想法是:「可不可以不要人類標記,不用太多人類寫的範例,就能訓練 LLM 產生良好的思惟?」這裡的重點就會在怎麼設計強化學習的 rewards,這個 rewards 需要容易到不用人就可以算,又能真的教好電腦的。
簡單的說,DeepSeek 有許多有趣的地方,也讓我們更知道怎麼用 LLM 方式,這才是真正的重點。
Yang-Chih Yin一些台灣媒體將美股大跌,認為是強大中國的DeepSeek所導致,關於這個我笑了...大笑!!
我是質疑啦,因為中國現在沒有高功能晶片,受到美國的制裁禁令,加上中國也造不出來,現在頂多7奈的良品率就很低,我看看哪一家的報導?聯合報呀~~呵呵不意外,我會建議看過這篇報導,而認為中國晶片好棒棒的,上海A股、深圳A股都可以去買看看XDDD。
我覺得如果deepseek很有影響力的話,他在1月27號發表,當天晚上造成美國大股災了,所以這根本不是主要原因,而且他需要更多的高科技晶片,以及圖形處理器GPU,因為有需求的市場但受到制裁影響之下,美股這些半導體廠商應該會大漲,怎麼會下跌呢?”
我用了deepseek兩天了,對照Chatgpt, 是還ok但在LLM運算速度上還可以加強,但號稱可以大幅度降低90%開發成本,我認為是誇大居多。阿陸仔一向1塊錢做1萬塊生意,
這次會如何?讓我們繼續看下去。下周一台積電若開盤大跌,最高興的應該是想要進場的外資法人,或者是有遠見的散戶。
《經濟學人》
去年,美國雲端運算巨頭在資料中心上花費了約 1,800 億美元,比 2023 年增長了 57%。
America’s cloud-computing giants spent about $180bn on data centres last year, up by 57% from 2023. But if AI models can be trained using less computer power, will these investments pay off?
https://econ.st/42CYdrs
沒有留言:
張貼留言