Herbert A. Simon 司馬賀: 李開復差距六年到六月。定價。李飛飛：空間智能

如何務實看待 LLM 的下一步，轉發這篇文章分享我的思考。

李開復：大陸落後美國大模型差距縮小為 6 個月，瘋狂降價是雙輸

5 月 21 日，僅僅時隔一周，李開復再度露面，帶來了他的喜與憂。

喜的一面在於，在LMSYS 盲測競技場最新排名中，零一萬物的最新千億參數模型Yi-Large 總榜排名世界模型第7，大陸的大模型中第一，已經超過Llama-3-70B 、Claude 3 Sonnet；其中文分榜更是與GPT-4o 並列世界第一。除了零一萬物的 Yi-Large 之外，阿里巴巴通義千問、智譜 AI 的 GLM 亦在 TOP20 之列。

李開復表示大陸的 LLM 大模型與美國大模型的差距，從一年多前落後 7-10 年的時間，已經縮小到 6 個月，差距實現了大幅降低。

而憂的一面則是，購物節還未至，大模型已經進入了瘋狂降價時。

前有字節跳動發布豆包大模型，讓大模型價格進入“厘時代”，一元錢就能買到豆包主力模型的125 萬Tokens；緊接著阿里巴巴的通義千問官宣降價並立即生效，降價後，1 元最多=200 萬Tokens；更甚的是隨之而來的百度官宣：文心大模型兩大主力模型全面免費，立即生效。

面對著這股席捲而來的價格戰之風，有人歡喜有人愁，這個問題的核心關鍵還是在於模型的商業化。賈揚清表示，「今天站在AI 整個業界的角度，我想說，降價是個拍腦袋就可以做的簡單策略，但是真正的toB 商業成功更難。」而出門問問創始人李志飛也這樣說道：「去年四月在經過無腦狂躁後，我就意識到OpenAI 的兩種商業模式（ToC 會員和ToB API）在大陸的競爭環境下都是不可持續的。

對此，李開復這樣評價：「大陸常看到ofo 式的瘋狂降價、雙輸的打法。我覺得大模型公司不會這麼不理智，因為技術還是最重要的，如果是技術不行，就純粹靠貼錢賠錢的方式去做生意。卷，大家寧可賠光通輸也不讓你贏，那麼我們就走海外市場。

■ 大模型競技場，中文大模型嶄露頭角

前段時間，一款名為「gpt2-chatbot」的神秘模型突然現身大模型競技場LMSYS Chatbot Arena，排名直接超過了GPT-4-Turbo、Gemini 1 .5 Pro、Claude 3 0pus、Llama-3- 70b 等各家國際大廠的當家基座模型。正當AI 圈裡眾說紛紜地猜測究竟來自哪裡、是否是OpenAI 開發的GPT-4.5 時，OpenAI 揭開了其神秘面紗，正是GPT-4o 的測試版本，而OpenAI CEO Sam Altman 也在GPT-4o 發布後來親自轉帖引用LMSYS Arena 盲測擂台的測試結果。

LMSYS Org 是一個開放的研究組織，由加州大學柏克萊分校、聖地牙哥分校和卡內基美隆大學的學生與教師共同創立。其發布的 Chatbot Arena 以盲測的方式，由用戶在模型匿名的前提下對模型效果進行打分，頗受業內認可，已經成為 OpenAI、Anthropic、Google、Meta 等國際大廠的大模型競技場。

LMSYS 盲測公開網站上，在不知道具體使用哪個模型的前提下，先在聊天框裡輸入 Prompt，基於模型的回答品質滿意度進行投票，投票後會顯示出所用模型來。

LMSYS Chatbot Arena 盲測競技場公開投票位址：https://arena.lmsys.org/

在其最新榜單中，智譜GLM4、阿里Qwen Max 及Qwen 1.5、零一萬物Yi-Large 及Yi-34B-chat 都有參與盲測，在總榜之外，LMSYS 的語言類別上新增了英文、中文、法文三種語言評測，開始著重全球大模型的多樣性。 Yi-Large 的中文語言分榜上拔得頭籌，與 OpenAI 官宣才一周的地表最強 GPT4o 並列第一，Qwen-Max 和 GLM-4 在中文榜上也都表現不凡。

非常值得開發者註意的是，在程式設計能力（Coding）排行榜上，Yi-Large 的Elo 分數超過Anthropic 當家旗艦模型Claude 3 Opus，僅低於GPT-4o，與GPT-4-Turbo、GPT-4 並列第二。

對此，李開復表示，Yi-Large 是通用模型，並沒有針對 Coding 的場景專門優化。在CSDN 基於Coding 的進一步詢問中，零一萬物技術聯合創始人黃文灝補充道：「我們分析過用戶需求，Coding 並不是大家非常廣泛使用的場景，對於程式設計師而言，在實際場景中面對非常專業的Coding 問題通常會用一些專門的Coding 模型。是一個非常重要的場景，我們正在著手Coding 專門模型的開發，在代碼改寫、長代碼續寫、代碼補全等方面有著非常好的性能表現，之後我們會陸續將Coding 專項模型開放出來。

■ 差距、降價、多模態……李開復直面若干問題

Q：當前中美之間的差距是怎麼樣的，該如何追趕？

李開復：我不是特別認為我們跟全球有差距，當然如果要在頭部之間 PK 是有一定的差距，但是同時可能要考慮到人才、算力等的差異。 Google 團隊是2000 人，OpenAI 是1000 人，在我們這裡把模型和Infra 加起來也不到100 人，而且我們用GPU 算力做模型訓練不到他們的1/10，我們的模型尺寸也不到其1/10。

如果只評估千億模型，至少在 LMSYS 這個排行榜上是世界第一，這一點我們還是很自豪。在一年前我們落後 OpenAI 與 Google 開始做大模型研發的時間點有 7 到 10 年，現在我們跟他們差距在 6 個月左右，這個已經大幅降低。

這 6 個月是怎麼來的？可以回到 LMSYS 6 個月以前的榜，或者今天比我們排名在前面的幾家，幾乎都是今年發出來的模型，去年的模型還在榜單上，我們已經打敗了。

另一個角度來看，我們最新發布的模型在 5 月時可以打敗去年 11 月之前的任何模型，所以我覺得也可以科學地推理出我們落後 6 個月。

■ 6 個月的差異不是很大，這是一個不可思議的超級速度的追趕

那麼美國人才有沒有獨特的地方呢？肯定是有的，從我寫的《AI·未來》這本書之後，我一直都堅持美國是做突破性科研，有著創造力特別強的一群科學家，在這方面全世界是沒有對手的。但在同一本書裡我也說了，中國人的聰明、勤奮、努力是不容忽視的，我們把這7-10 年降低到只有6 個月，就驗證了做好一個模型絕對不只是看多能寫論文，多能發明新事物，先做或後做，做得最好才是最強的，Google 搜尋比雅虎晚做很多，但是完全無法比擬。所以我認為後發有後發的優勢，但同時我們特別尊敬美國的創造性，有很多值得學習的地方。但是比執行力，比做出很好的體驗，比產品，比商業模式，我覺得我們強於美國公司。

Q：零一萬物後續會推出更大參數的模型嗎？現在有些企業開始做小模型，您認為現在卷參數還有意義嗎？

李開復：我們的計劃是從最小到最大的模型都希望能夠做到最優最好，所以除了6B、9B、34B，未來我們可能有更小的模型發布，它們都是同樣尺寸達到業界最佳，不敢說第一，但整體來說是第一梯隊或是TOP 1/2 這樣的表現，而且在諸如代碼、中文、英文等很多方面表現都非常好。

我們相信就像一週前我講的 TC-PMF，永遠是一個蹺蹺板，要平衡需要多強的技術，付不得起技術所需的成本。業界有各種不同的應用，從最簡單的客服應用，到遊戲，一直到非常難的推理策略、科學發現等難度，我相信大尺寸的Scaling Law，最強大地往AGI 走的模型，在最難的問題上，大家又願意花錢的領域裡，絕對是有落地場景，而且是最有可能達到AGI。

同時我們也坦誠，有各種比較小的簡單應用的機會。我們的打法是一個都不放過，在每個潛在尺寸上發布我們能做到性能最高，而且推理成本最低，這個推理成本也會帶來更好的定價給開發者使用。

Q：零一萬物的 GPU 可能是 Google、微軟的 5%，算力對模型發展的限制是客觀存在的。面對 OpenAI、Google 的能力、資源均靠前的狀況，零一萬物怎麼應對？

李開復：這個更精確的應該從歷史數據來看，看在過去的一兩年他們提升了多少，我們提升了多少，我們是不是追得非常近了，這是一個客觀事實。

我不認為他們的算力更大就表示我們絕對沒有機會，當然他們的算力更大有巨大的優勢，但是我覺得客觀事實是我們能夠把同樣的一張GPU 擠出更多的價值來，這是今天我們能夠達到這些成果的一個重要理由。

另外是優化模型的效能表現，它不只是一個純粹科技和演算法的問題，其中還有資料的配比、怎麼優化，同時優化訓練和作用，還有我們的模型怎麼加入多模態等等各種方面的技術，我們其實在這方面不輸於美國。

我們算力一直遠遠落後，一年前算力也是只有 Google、OpenAI 的 5%，現在還是，如果用 5%的算力能夠把落後快速拉近，未來我們還是很期待有驚人的結果。

能不能達到第一，能不能超過，當然是一個艱難的任務，但我們是朝著這個目標在努力，今天的結果對比一周前，對比去年11 月，對比我們成立的時候，都是一個不可思議的飛躍，所以看事情要看其是在上漲還是下跌，而非今天還是落後，以後就會落後。

Q：現在大陸打起了大模型價格戰，在這個過程中零一萬物和其他新創公司如何在競爭中跑贏大廠？

李開復：我們關注到了這個現象，我們的定價還是非常合理，而且也在花很大精力希望能夠讓它再降下來，我覺得一定程度上整個行業每年降低10 倍推理成本是可以期待的，而且必然也應該發生的。今天可能處在一個比較低的點，但我覺得如果說以後大約以一年降價10 倍來看，這是一個好消息，因為今天的API 模型調用還是一個非常低的比例，如果一年降低10 倍，那眾多的人都可以用上。

我們也認為今天可以看到的模型表現零一超過其他模型，也歡迎不認同的友商來 LMSYS 打擂台，證明我是錯的。但是直到那一天發生，我們會繼續說我們是最好的模型。

對要求、需求都最高的，需要最好模型的使用者當然會使用我們。 100 萬個 token 花十幾塊還是花幾塊錢有很大差別嗎？ 100 萬的 token 對於很大、很難的應用，我們是必然之選。我們發布之後得到國內外非常高的評價，而且是可以橫跨大陸市場和海外市場的 API，都開放，我們有信心在全球範疇是一個表現很好、性價比也很合理的一個模型。

當然，我們常看到 ofo 式的瘋狂降價，雙輸的打法。我覺得大模型公司不會這麼不理智，因為技術還是最重要的，如果是技術不行，就純粹靠貼錢賠錢去做生意，我們絕對不會跟這樣的一個定價來做對標，我們對自己的模型表現是非常自豪的。

就像你如果有一輛特斯拉，它不會因為別的品牌的車比它賣的很便宜，它就覺得它要降價，我們就是特斯拉，我們的價錢是合適值得的。

如果再問以後可能大陸就是這麼卷，大家寧可賠光通輸也不讓你贏，那我們就走海外市場。

Q：GPT-4o 開始做原生多模態模型，統一文字、音訊、影像、視訊的輸入輸出的多模態大模型會是一個確定方向嗎？可否透露一下零一萬物在多模態的進展。

李開復：我們在去年一直都認可全模態模型，omni，也就是我們挑了同樣的詞已經在做這個工作，這個工作不是OpenAI 出來再跟風能夠跟得上的，我們有一定的積累，我們也相信全模態才是正確方向。從我們的發布週期來說，在今年你們可以期待一個驚喜。

Q：零一的 API 價格會不會下降？

李開復：現在沒有調整的訊息可以分享，我們收到的回饋還是非常正面的。我認為模型要看它的表現，可能有些領域，比如說一些很難收回錢的領域要看價格，反正有足夠多的在選我們，我們剛上線，有這麼多忠誠的愛好者加入了，我們先服務好他們，價錢再說。

到今天為止，我們剛宣布的性能肯定是市場性價比最高。大家可能有用千 token、百萬 token，可以自己計算。

Q：零一萬物在產品化方面未來有沒有一些規劃？

李開復：有，上週發布的產品基本上是我們的方向，一方面我們已經推出了一些非常成功的海外產品，已經在海外取得非常好的成功，今年預期會有大概1 萬億的收入，而且不是燒錢模式燒出來的。

另外還有幾個其他產品在國內外測試中，當然萬知我們也會繼續努力把它越做越好，尤其我們對PPT 的功能得到非常正面的回饋，因為這是一個跟其他大模型很大的差異點，這是我們面對消費者產品的分享。

在企業級方面也正在進行中，但現在初步用戶在國外，國外用戶的付費意願或付費金額比本土高出很多，所以雖然我們也非常期望服務用戶，但按照現在ToB 卷的情況，幾十萬做POC，幾百萬做一單，做一單賠一單的生意，我們早期在AI 1.0 時代太多了，投入多了，我們堅決不做。

文章來自微信公眾號「AI科技評論」。

Herbert A. Simon 司馬賀

2024年5月24日星期五

李開復差距六年到六月。定價。李飛飛：空間智能

沒有留言:

網誌存檔

2024年5月24日 星期五

李開復 差距六年到六月。定價。李飛飛：空間智能

沒有留言:

2024年5月24日星期五

李開復差距六年到六月。定價。李飛飛：空間智能