2025年2月21日 星期五

NVIDIA、Cerebras & Groq在AI Inference的競爭.AI Inference和Training晶片系統的規格需求不同,

 「Elon Musk的Grok 3新模型:NVIDIA、Cerebras & Groq的晶片競賽」

Elon Musk在2/18發佈了Grok 3,到目前為止最聰明的AI模型。
Grok 3在很多測試下都比目前幾個有名的前沿AI的模型如OpenAI o3mini(high)、DeepSeekR1…….的表現還好。
不過他們使用了大量模型訓練後的Test-Time Compute來Boost模型的性能,這代表AI發展上什麼樣的變化?會對半導體市場產生什麼樣的影響?
我們今天就來聊一下這個話題。
首先複習一下我們前一篇提到AI的Scaling Law,Scaling Law從原本單純訓練AI模型的Scaling Law,延伸到訓練模型後的Post-Training & Test-Time Scaling Laws。
這代表了不管是Training用的晶片,或是主要做Inference的晶片,接下來都可以用來提升AI模型的性能。
而這樣的延伸,也代表了AI市場的發展已經進入到下一個階段,對AI晶片硬體的需求已經從主要的Training用的晶片系統,到需要更多Inference晶片系統。
▌1. 會產生什麼影響:AI Training和AI Inference晶片的規格需求差異
再來,我們可以看一下AI Training和AI Inference晶片規格需求上的主要差異。
我們可以從Meta、Microsoft….等公司分享的對於這兩類晶片的規格需求差異可以看得出來,Gen AI Training的需求注重在Model Size和Scale (更多Node數量),而Gen AI Inference晶片系統的需求更著重Memory Bandwidth和Network Latency。
AI Inference在做什麼?AI Inference基本上是在模型訓練完以後,進行模型使用完成工作的過程,因此可以說,將AI Inference整合在AI產品中並發揮效用,是AI能發揮價值的重要一步。
而Test-Time Scaling這件事情,基本上在說的是,在模型訓練完以後,我們還能再用延長Inference時間的方式,讓模型有更好的效果。
不過,AI Inferece晶片的規格配置需求和做Training的需求不一樣,因此接下來會影響到AI晶片的市場需求。
▌2. AI晶片市場的演化
AI模型+系統的發展,目前正在往Training之後的Fine Tuning和讓AI Inference做更多的Test-Time Scaling(如使用CoT: Chain of Thought的方式)。因此,我們已經看到很多公司,開始聚焦在AI Inference,提供更為Inference優化的晶片方案。
而我們前面提到,AI Inference和Training晶片系統的規格需求不同,就讓很多公司有新的機會。從市場策略的角度下,很多新的公司開始在AI Inference的市場做出差異化,如Cerebras、Groq、SambaNova……等公司,都開始主打AI Inference的系統。
因此,AI晶片市場的競爭已經演化到了下一個階段,從NVIDIA在Training晶片的獨佔,到現在Inference晶片開始有更特別的晶片設計來和NVIDIA競爭。
▌3. NVIDIA、Cerebras & Groq在AI Inference的競爭
GPU運算的重點,就是把很多工作平行化處理。而在面對比較大的AI Inference的工作時,GPU的做法也是將這些工作平行分給一堆GPU去處理。不過,在需要較快速互動的情境中,Memory Bandwidth和Latency就較容易變成整個系統的bottleneck。
也因此,GPU和GPU之間的溝通速度,就很容易變成GPU Token產出的bottleneck。
現在在AI Inference晶片上有很多挑戰者,如Cerebras和Groq。
Cerebras的做法,是將一整片Wafer做成一整個系統,這樣的系統因為Wafer內的各個die能有較快速的溝通速度,因此能有較快的Token產出速度。
Groq的作法則是反過來,把晶片設計整個簡化,拿掉大部分的控制單元用軟體來代替,把多出來的空間放進更多運算電晶體,然後把Router也做進晶片裡,加速晶片和晶片之間的溝通。
這三種晶片,雖然晶片架構很不一樣,但是可以看得出來,讓Inference Token產生速度加快的關鍵,都是在優化晶片和晶片之間的溝通速度。
從Ayar Labs的分析來看,NVIDIA要提升Token產出速度的很大的瓶頸其實是在晶片與晶片之間的傳輸速度。
因此,如果要像Grok 3這樣持續用更多的GPU&Test-Time Scaling來提升模型性能的話,Optical I/O還有CPO技術的發展將會是未來半導體產業的重點。
▌4. 對半導體產業的影響
而從前面的討論我們可以發現,在使用的AI晶片cluster還在持續增加的情況 (市場還沒有滿足於目前的AI性能!),整合運算晶片和矽光子技術 (如前述的Optical I/O還有CPO技術),就會變成一個半導體產業未來發展的重要方向。
而這邊就可以延伸出幾個重點:
I. 先進封裝將會從運算晶片互相整合的chiplet,延伸到更多跟矽光子相關的封裝技術
II. 因為AI Inference晶片的規格需求差異,我們將會在市場上看到更多針對AI Inference特化的晶片設計
III. 因為先進封裝的快速發展,原本專注在先進製程的半導體設備,也會推出更多先進封裝相關的設備 (ASML就推出了可以一次曝光兩個die size以上的新型曝光機)
所以對於半導體產業的人來說,目前AI模型的發展以及AI晶片設計的趨勢是很值得了解的。
因為AI終端市場的發展,會快速的影響目前晶片設計的趨勢,進而影響到供應鏈其他部分的需求,如矽光子和先進封裝的需求。
為了幫助大家能夠快速掌握這些最新的趨勢,我們在今年推出全新的「2025半導體關鍵技術與趨勢T2 - System Scaling」

2025年2月19日 星期三

"Deep Research" tool by Google’s Gemini. ChatGPT. Perplexity’

 Perplexity is the latest AI chatbot to get a dedicated "Deep Research" tool.

ChatGPT got its version of the tool earlier this month, and Google’s Gemini got one in December. Much like its rivals, Perplexity’s Deep Research tool can fetch information from hundreds of sources “to autonomously deliver a comprehensive report” – and it excels at expert-level tasks in areas like finance, marketing, and technology.
At launch, Perplexity’s Deep Research tool will be free for all logged-in web users. However, only Perplexity Pro subscribers will get unlimited queries.
To get started, users can go to perplexity.ai, select Deep Research from the drop-down menu in the chat box, and drop their query. The AI tool will then review sources, refine its research plan, and develop a report in 2-4 minutes. Users can download the prepared report as a PDF/document or convert it into a shareable #Perplexity page.