如何務實看待 LLM 的下一步,轉發這篇文章分享我的思考。
李開復:大陸落後美國大模型差距縮小為 6 個月,瘋狂降價是雙輸
5 月 21 日,僅僅時隔一周,李開復再度露面,帶來了他的喜與憂。
喜的一面在於,在LMSYS 盲測競技場最新排名中,零一萬物的最新千億參數模型Yi-Large 總榜排名世界模型第7,大陸的大模型中第一,已經超過Llama-3-70B 、Claude 3 Sonnet;其中文分榜更是與GPT-4o 並列世界第一。 除了零一萬物的 Yi-Large 之外,阿里巴巴通義千問、智譜 AI 的 GLM 亦在 TOP20 之列。
李開復表示大陸的 LLM 大模型與美國大模型的差距,從一年多前落後 7-10 年的時間,已經縮小到 6 個月,差距實現了大幅降低。
而憂的一面則是,購物節還未至,大模型已經進入了瘋狂降價時。
前有字節跳動發布豆包大模型,讓大模型價格進入“厘時代”,一元錢就能買到豆包主力模型的125 萬Tokens;緊接著阿里巴巴的通義千問官宣降價並立即生效, 降價後,1 元最多=200 萬Tokens;更甚的是隨之而來的百度官宣:文心大模型兩大主力模型全面免費,立即生效。
面對著這股席捲而來的價格戰之風,有人歡喜有人愁,這個問題的核心關鍵還是在於模型的商業化。 賈揚清表示,「今天站在AI 整個業界的角度,我想說,降價是個拍腦袋就可以做的簡單策略,但是真正的toB 商業成功更難。」而出門問問創始人李志飛也這樣說道:「 去年四月在經過無腦狂躁後,我就意識到OpenAI 的兩種商業模式(ToC 會員和ToB API)在大陸的競爭環境下都是不可持續的。
對此,李開復這樣評價:「大陸常看到ofo 式的瘋狂降價、雙輸的打法。我覺得大模型公司不會這麼不理智,因為技術還是最重要的,如果是技術不行,就純粹 靠貼錢賠錢的方式去做生意。 卷,大家寧可賠光通輸也不讓你贏,那麼我們就走海外市場。
■ 大模型競技場,中文大模型嶄露頭角
前段時間,一款名為「gpt2-chatbot」的神秘模型突然現身大模型競技場LMSYS Chatbot Arena,排名直接超過了GPT-4-Turbo、Gemini 1 .5 Pro、Claude 3 0pus、Llama-3- 70b 等各家國際大廠的當家基座模型。 正當AI 圈裡眾說紛紜地猜測究竟來自哪裡、是否是OpenAI 開發的GPT-4.5 時,OpenAI 揭開了其神秘面紗,正是GPT-4o 的測試版本,而OpenAI CEO Sam Altman 也在GPT-4o 發布 後來親自轉帖引用LMSYS Arena 盲測擂台的測試結果。
LMSYS Org 是一個開放的研究組織,由加州大學柏克萊分校、聖地牙哥分校和卡內基美隆大學的學生與教師共同創立。 其發布的 Chatbot Arena 以盲測的方式,由用戶在模型匿名的前提下對模型效果進行打分,頗受業內認可,已經成為 OpenAI、Anthropic、Google、Meta 等國際大廠的大模型競技場。
LMSYS 盲測公開網站上,在不知道具體使用哪個模型的前提下,先在聊天框裡輸入 Prompt,基於模型的回答品質滿意度進行投票,投票後會顯示出所用模型來。
LMSYS Chatbot Arena 盲測競技場公開投票位址:https://arena.lmsys.org/
在其最新榜單中,智譜GLM4、阿里Qwen Max 及Qwen 1.5、零一萬物Yi-Large 及Yi-34B-chat 都有參與盲測,在總榜之外,LMSYS 的語言類別上新增 了英文、中文、法文三種語言評測,開始著重全球大模型的多樣性。 Yi-Large 的中文語言分榜上拔得頭籌,與 OpenAI 官宣才一周的地表最強 GPT4o 並列第一,Qwen-Max 和 GLM-4 在中文榜上也都表現不凡。
非常值得開發者註意的是,在程式設計能力(Coding)排行榜上,Yi-Large 的Elo 分數超過Anthropic 當家旗艦模型Claude 3 Opus,僅低於GPT-4o,與GPT-4-Turbo、GPT-4 並列第二。
對此,李開復表示,Yi-Large 是通用模型,並沒有針對 Coding 的場景專門優化。 在CSDN 基於Coding 的進一步詢問中,零一萬物技術聯合創始人黃文灝補充道:「我們分析過用戶需求,Coding 並不是大家非常廣泛使用的場景,對於程式設計師而言,在實際場景中 面對非常專業的Coding 問題通常會用一些專門的Coding 模型。 是一個非常重要的場景,我們正在著手Coding 專門模型的開發,在代碼改寫、長代碼續寫、代碼補全等方面有著非常好的性能表現,之後我們會陸續將Coding 專項模型開放出來。
■ 差距、降價、多模態……李開復直面若干問題
Q:當前中美之間的差距是怎麼樣的,該如何追趕?
李開復:我不是特別認為我們跟全球有差距,當然如果要在頭部之間 PK 是有一定的差距,但是同時可能要考慮到人才、算力等的差異。 Google 團隊是2000 人,OpenAI 是1000 人,在我們這裡把模型和Infra 加起來也不到100 人,而且我們用GPU 算力做模型訓練不到他們的1/10,我們的模型尺寸也不到 其1/10。
如果只評估千億模型,至少在 LMSYS 這個排行榜上是世界第一,這一點我們還是很自豪。 在一年前我們落後 OpenAI 與 Google 開始做大模型研發的時間點有 7 到 10 年,現在我們跟他們差距在 6 個月左右,這個已經大幅降低。
這 6 個月是怎麼來的? 可以回到 LMSYS 6 個月以前的榜,或者今天比我們排名在前面的幾家,幾乎都是今年發出來的模型,去年的模型還在榜單上,我們已經打敗了。
另一個角度來看,我們最新發布的模型在 5 月時可以打敗去年 11 月之前的任何模型,所以我覺得也可以科學地推理出我們落後 6 個月。
■ 6 個月的差異不是很大,這是一個不可思議的超級速度的追趕
那麼美國人才有沒有獨特的地方呢? 肯定是有的,從我寫的《AI·未來》這本書之後,我一直都堅持美國是做突破性科研,有著創造力特別強的一群科學家,在這方面全世界是沒有對手的。 但在同一本書裡我也說了,中國人的聰明、勤奮、努力是不容忽視的,我們把這7-10 年降低到只有6 個月,就驗證了做好一個模型絕對不只是看多 能寫論文,多能發明新事物,先做或後做,做得最好才是最強的,Google 搜尋比雅虎晚做很多,但是完全無法比擬。 所以我認為後發有後發的優勢,但同時我們特別尊敬美國的創造性,有很多值得學習的地方。 但是比執行力,比做出很好的體驗,比產品,比商業模式,我覺得我們強於美國公司。
Q:零一萬物後續會推出更大參數的模型嗎? 現在有些企業開始做小模型,您認為現在卷參數還有意義嗎?
李開復:我們的計劃是從最小到最大的模型都希望能夠做到最優最好,所以除了6B、9B、34B,未來我們可能有更小的模型發布,它們都是同樣尺寸達到業界最佳,不 敢說第一,但整體來說是第一梯隊或是TOP 1/2 這樣的表現,而且在諸如代碼、中文、英文等很多方面表現都非常好。
我們相信就像一週前我講的 TC-PMF,永遠是一個蹺蹺板,要平衡需要多強的技術,付不得起技術所需的成本。 業界有各種不同的應用,從最簡單的客服應用,到遊戲,一直到非常難的推理策略、科學發現等難度,我相信大尺寸的Scaling Law,最強大地往AGI 走的模型,在最 難的問題上,大家又願意花錢的領域裡,絕對是有落地場景,而且是最有可能達到AGI。
同時我們也坦誠,有各種比較小的簡單應用的機會。 我們的打法是一個都不放過,在每個潛在尺寸上發布我們能做到性能最高,而且推理成本最低,這個推理成本也會帶來更好的定價給開發者使用。
Q:零一萬物的 GPU 可能是 Google、微軟的 5%,算力對模型發展的限制是客觀存在的。 面對 OpenAI、Google 的能力、資源均靠前的狀況,零一萬物怎麼應對?
李開復:這個更精確的應該從歷史數據來看,看在過去的一兩年他們提升了多少,我們提升了多少,我們是不是追得非常近了,這是一個客觀事實。
我不認為他們的算力更大就表示我們絕對沒有機會,當然他們的算力更大有巨大的優勢,但是我覺得客觀事實是我們能夠把同樣的一張GPU 擠出更多的價值來, 這是今天我們能夠達到這些成果的一個重要理由。
另外是優化模型的效能表現,它不只是一個純粹科技和演算法的問題,其中還有資料的配比、怎麼優化,同時優化訓練和作用,還有我們的模型怎麼加入多模態等等各種 方面的技術,我們其實在這方面不輸於美國。
我們算力一直遠遠落後,一年前算力也是只有 Google、OpenAI 的 5%,現在還是,如果用 5%的算力能夠把落後快速拉近,未來我們還是很期待有驚人的結果。
能不能達到第一,能不能超過,當然是一個艱難的任務,但我們是朝著這個目標在努力,今天的結果對比一周前,對比去年11 月,對比我們成立的時候,都是一個不可思議的 飛躍,所以看事情要看其是在上漲還是下跌,而非今天還是落後,以後就會落後。
Q:現在大陸打起了大模型價格戰,在這個過程中零一萬物和其他新創公司如何在競爭中跑贏大廠?
李開復:我們關注到了這個現象,我們的定價還是非常合理,而且也在花很大精力希望能夠讓它再降下來,我覺得一定程度上整個行業每年降低10 倍推理成本是可以期待的,而且必然 也應該發生的。 今天可能處在一個比較低的點,但我覺得如果說以後大約以一年降價10 倍來看,這是一個好消息,因為今天的API 模型調用還是一個非常低的比例,如果一年降低10 倍,那眾多的人都可以用上。
我們也認為今天可以看到的模型表現零一超過其他模型,也歡迎不認同的友商來 LMSYS 打擂台,證明我是錯的。 但是直到那一天發生,我們會繼續說我們是最好的模型。
對要求、需求都最高的,需要最好模型的使用者當然會使用我們。 100 萬個 token 花十幾塊還是花幾塊錢有很大差別嗎? 100 萬的 token 對於很大、很難的應用,我們是必然之選。 我們發布之後得到國內外非常高的評價,而且是可以橫跨大陸市場和海外市場的 API,都開放,我們有信心在全球範疇是一個表現很好、性價比也很合理的一個模型。
當然,我們常看到 ofo 式的瘋狂降價,雙輸的打法。 我覺得大模型公司不會這麼不理智,因為技術還是最重要的,如果是技術不行,就純粹靠貼錢賠錢去做生意,我們絕對不會跟這樣的一個定價來做對標,我們對自己 的模型表現是非常自豪的。
就像你如果有一輛特斯拉,它不會因為別的品牌的車比它賣的很便宜,它就覺得它要降價,我們就是特斯拉,我們的價錢是合適值得的。
如果再問以後可能大陸就是這麼卷,大家寧可賠光通輸也不讓你贏,那我們就走海外市場。
Q:GPT-4o 開始做原生多模態模型,統一文字、音訊、影像、視訊的輸入輸出的多模態大模型會是一個確定方向嗎? 可否透露一下零一萬物在多模態的進展。
李開復:我們在去年一直都認可全模態模型,omni,也就是我們挑了同樣的詞已經在做這個工作,這個工作不是OpenAI 出來再跟風能夠跟得上的,我們有一定的積累,我們也 相信全模態才是正確方向。 從我們的發布週期來說,在今年你們可以期待一個驚喜。
Q:零一的 API 價格會不會下降?
李開復:現在沒有調整的訊息可以分享,我們收到的回饋還是非常正面的。 我認為模型要看它的表現,可能有些領域,比如說一些很難收回錢的領域要看價格,反正有足夠多的在選我們,我們剛上線,有這麼多忠誠的愛好者加入了,我們 先服務好他們,價錢再說。
到今天為止,我們剛宣布的性能肯定是市場性價比最高。 大家可能有用千 token、百萬 token,可以自己計算。
Q:零一萬物在產品化方面未來有沒有一些規劃?
李開復:有,上週發布的產品基本上是我們的方向,一方面我們已經推出了一些非常成功的海外產品,已經在海外取得非常好的成功,今年預期會有大概1 萬億的收入,而且不是 燒錢模式燒出來的。
另外還有幾個其他產品在國內外測試中,當然萬知我們也會繼續努力把它越做越好,尤其我們對PPT 的功能得到非常正面的回饋,因為這是一個跟其他大模型很大的差異點,這是我們面對消費者產品的分享。
在企業級方面也正在進行中,但現在初步用戶在國外,國外用戶的付費意願或付費金額比本土高出很多,所以雖然我們也非常期望服務用戶,但按照現在ToB 卷的情況,幾十萬 做POC,幾百萬做一單,做一單賠一單的生意,我們早期在AI 1.0 時代太多了,投入多了,我們堅決不做。
文章來自微信公眾號「AI科技評論」。
沒有留言:
張貼留言