2025年2月21日 星期五

NVIDIA、Cerebras & Groq在AI Inference的競爭.AI Inference和Training晶片系統的規格需求不同,

 「Elon Musk的Grok 3新模型:NVIDIA、Cerebras & Groq的晶片競賽」

Elon Musk在2/18發佈了Grok 3,到目前為止最聰明的AI模型。
Grok 3在很多測試下都比目前幾個有名的前沿AI的模型如OpenAI o3mini(high)、DeepSeekR1…….的表現還好。
不過他們使用了大量模型訓練後的Test-Time Compute來Boost模型的性能,這代表AI發展上什麼樣的變化?會對半導體市場產生什麼樣的影響?
我們今天就來聊一下這個話題。
首先複習一下我們前一篇提到AI的Scaling Law,Scaling Law從原本單純訓練AI模型的Scaling Law,延伸到訓練模型後的Post-Training & Test-Time Scaling Laws。
這代表了不管是Training用的晶片,或是主要做Inference的晶片,接下來都可以用來提升AI模型的性能。
而這樣的延伸,也代表了AI市場的發展已經進入到下一個階段,對AI晶片硬體的需求已經從主要的Training用的晶片系統,到需要更多Inference晶片系統。
▌1. 會產生什麼影響:AI Training和AI Inference晶片的規格需求差異
再來,我們可以看一下AI Training和AI Inference晶片規格需求上的主要差異。
我們可以從Meta、Microsoft….等公司分享的對於這兩類晶片的規格需求差異可以看得出來,Gen AI Training的需求注重在Model Size和Scale (更多Node數量),而Gen AI Inference晶片系統的需求更著重Memory Bandwidth和Network Latency。
AI Inference在做什麼?AI Inference基本上是在模型訓練完以後,進行模型使用完成工作的過程,因此可以說,將AI Inference整合在AI產品中並發揮效用,是AI能發揮價值的重要一步。
而Test-Time Scaling這件事情,基本上在說的是,在模型訓練完以後,我們還能再用延長Inference時間的方式,讓模型有更好的效果。
不過,AI Inferece晶片的規格配置需求和做Training的需求不一樣,因此接下來會影響到AI晶片的市場需求。
▌2. AI晶片市場的演化
AI模型+系統的發展,目前正在往Training之後的Fine Tuning和讓AI Inference做更多的Test-Time Scaling(如使用CoT: Chain of Thought的方式)。因此,我們已經看到很多公司,開始聚焦在AI Inference,提供更為Inference優化的晶片方案。
而我們前面提到,AI Inference和Training晶片系統的規格需求不同,就讓很多公司有新的機會。從市場策略的角度下,很多新的公司開始在AI Inference的市場做出差異化,如Cerebras、Groq、SambaNova……等公司,都開始主打AI Inference的系統。
因此,AI晶片市場的競爭已經演化到了下一個階段,從NVIDIA在Training晶片的獨佔,到現在Inference晶片開始有更特別的晶片設計來和NVIDIA競爭。
▌3. NVIDIA、Cerebras & Groq在AI Inference的競爭
GPU運算的重點,就是把很多工作平行化處理。而在面對比較大的AI Inference的工作時,GPU的做法也是將這些工作平行分給一堆GPU去處理。不過,在需要較快速互動的情境中,Memory Bandwidth和Latency就較容易變成整個系統的bottleneck。
也因此,GPU和GPU之間的溝通速度,就很容易變成GPU Token產出的bottleneck。
現在在AI Inference晶片上有很多挑戰者,如Cerebras和Groq。
Cerebras的做法,是將一整片Wafer做成一整個系統,這樣的系統因為Wafer內的各個die能有較快速的溝通速度,因此能有較快的Token產出速度。
Groq的作法則是反過來,把晶片設計整個簡化,拿掉大部分的控制單元用軟體來代替,把多出來的空間放進更多運算電晶體,然後把Router也做進晶片裡,加速晶片和晶片之間的溝通。
這三種晶片,雖然晶片架構很不一樣,但是可以看得出來,讓Inference Token產生速度加快的關鍵,都是在優化晶片和晶片之間的溝通速度。
從Ayar Labs的分析來看,NVIDIA要提升Token產出速度的很大的瓶頸其實是在晶片與晶片之間的傳輸速度。
因此,如果要像Grok 3這樣持續用更多的GPU&Test-Time Scaling來提升模型性能的話,Optical I/O還有CPO技術的發展將會是未來半導體產業的重點。
▌4. 對半導體產業的影響
而從前面的討論我們可以發現,在使用的AI晶片cluster還在持續增加的情況 (市場還沒有滿足於目前的AI性能!),整合運算晶片和矽光子技術 (如前述的Optical I/O還有CPO技術),就會變成一個半導體產業未來發展的重要方向。
而這邊就可以延伸出幾個重點:
I. 先進封裝將會從運算晶片互相整合的chiplet,延伸到更多跟矽光子相關的封裝技術
II. 因為AI Inference晶片的規格需求差異,我們將會在市場上看到更多針對AI Inference特化的晶片設計
III. 因為先進封裝的快速發展,原本專注在先進製程的半導體設備,也會推出更多先進封裝相關的設備 (ASML就推出了可以一次曝光兩個die size以上的新型曝光機)
所以對於半導體產業的人來說,目前AI模型的發展以及AI晶片設計的趨勢是很值得了解的。
因為AI終端市場的發展,會快速的影響目前晶片設計的趨勢,進而影響到供應鏈其他部分的需求,如矽光子和先進封裝的需求。
為了幫助大家能夠快速掌握這些最新的趨勢,我們在今年推出全新的「2025半導體關鍵技術與趨勢T2 - System Scaling」

沒有留言: