青青青久草,四虎永久在线精品,二区免费视频,一级毛片在线直接观看,黄网在线免费观看,美女露全身永久免费网站,色婷婷六月桃花综合影院

不斷有人在問，這個中國模型到底有什么魔力？

硅星人

2025-02-08 16:23:27

作者｜ Yoky

郵箱｜ yokyliu@pingwest.com

DeepSeek、李飛飛、LIMO，全球的AI界近期幾乎都被這幾個名詞環(huán)繞，而這一切的背后，都要從一個“大隱隱于市”的高手談起。

2月3日，李飛飛和斯坦福大學等團隊在arXiv上發(fā)表了一篇名為《s1: Simple test-time scaling》的論文，僅在16塊H100上微調26分鐘，以不到50美元的價格訓練出的新模型s1-32B，數(shù)學及編程能力與OpenAI o1及DeepSeek R1等尖端推理模型效果相當。

幾乎同一時間，來自上海交大的本科生Yixin Ye與團隊訓練出的LIMO新模型，用1%的數(shù)據(jù)量，訓練出MATH測試準確率高達94.8%的新模型。

一般認為，低成本訓練強勁性能模型的方法，基本上始于DeepSeek推出R1模型時順手做的蒸餾示范。這一系列工作涌現(xiàn)，海外AI社區(qū)驚奇地發(fā)現(xiàn)，他們采用的基座模型，居然都是Qwen——這位真正的幕后高手。

中國人更熟悉的名字是，通義千問，阿里云自研并開源的大模型Qwen系列。

加拿大滑鐵盧大學助理教授陳文虎更是直言，他們也在別的模型上作了嘗試，同樣的訓練數(shù)據(jù)卻完全不奏效，他總結稱：“Qwen模型里頭一定有一些magical的東西！”

那么，這些充滿魔力的東西到底是什么？

1從研究到實踐，他們?yōu)楹味歼x擇Qwen?

李飛飛團隊在這篇論文里提到，性能優(yōu)化的核心技術是s1K 數(shù)據(jù)集和預算強制法（budget forcing）。

s1K的數(shù)據(jù)集包含1000個精心挑選的問題，李飛飛團隊還使用谷歌的 Gemini Flash Thinking 模型生成每個問題的推理軌跡（reasoning traces）和答案。預算強制方法的特點，則是在模型終結思考時添加“wait”，鼓勵探索更多答案。

最后，李飛飛團隊對開源的 Qwen2.5-32B-Instruct 進行 s1K 的監(jiān)督微調并應用預算強制后，得到模型 s1-32B。也就是在 16 個 H100 GPU 上訓練26 分鐘、花費50美元的階段。

首先應該破除的迷思是，這絕不僅僅是只花50美元就能辦到的事情。李飛飛的新方法，并不是從零訓練一個模型，而是基于Qwen模型做的微調。公開數(shù)據(jù)顯示，Qwen2.5模型系列，僅預訓練就用了18萬億tokens，可以想見是怎樣一筆支出。

陳文虎在X上的留言，更是一語道破天機，絕非所有模型微調后都能有這樣的效果。

上海交大團隊的LIMO，幾乎是對同樣技術的探討，使用了更少的817 個精選訓練樣本，通過構建更高質量的推理鏈，結合推理時計算擴展和微調，就在極具挑戰(zhàn)性的 AIME 基準測試中從6.5%的準確率提升到57.1% ，在MATH 基準測試中更是達到了 94.8% 的準確率。

這一數(shù)據(jù)規(guī)模，僅占經(jīng)典方法能達到模型水平所需數(shù)據(jù)量的1%左右。

在X上，即將成為MIT助理教授、現(xiàn)Databricks的研究科學家Omar Khattab評價LIMO稱，此類的論文更像是關于Qwen的研究成果而非推理。

前三星研究院科學家Rakshit Shukla也表示，這些新成果印證了基礎模型（也即Qwen）的性能之強。

事實上，國際開源社區(qū)對Qwen非常熟識，從Qwen2到Qwen2.5，不同代際的開源Qwen模型，屢屢登上HuggingFace的Open LLM Leaderboard、Chatbot Arena大模型盲測榜單，多次斬獲“全球開源冠軍”，性能強勁毋庸置疑。

更重要的是，Qwen推出了不同尺寸的開源模型，小到0.5B，大到110B，可以更好滿足千行百業(yè)的需求，開發(fā)者用腳投票，紛紛來下載Qwen模型。這在HuggingFace平臺上，僅Qwen的一款小型模型就占據(jù)了去年所有模型下載量的26.6%。

HuggingFace官方供圖

全球火爆出圈的DeepSeek，同樣選擇了Qwen。

在發(fā)布R1時，DeepSeek官方透露，打樣蒸餾R1的能力給到6個模型，其中4個模型就是Qwen，分別選擇了1.5B、7B、14B和32B四個尺寸，其中基于Qwen-32B的蒸餾模型，在多項能力上實現(xiàn)了與OpenAI o1-mini 相當?shù)男Ч?/p>

全球越來越多的開發(fā)者和企業(yè)選擇了Qwen，也將他們研發(fā)出的Qwen衍生模型貢獻于開源社區(qū)。目前，開發(fā)者二創(chuàng)的Qwen衍生模型數(shù)量已經(jīng)突破了9萬，成為全球最大的AI模型族群。

或許，這是李飛飛、Yixin Ye乃至DeepSeek選擇Qwen的又一原因，畢竟從學術界到產(chǎn)業(yè)界都用的Qwen，是最容易被對比的性能標桿基座模型。

2不止是最佳開源模型，更強的Qwen2.5-Max來了

正當大家為性能出色的開源Qwen模型歡呼時，大年初一，阿里云在凌晨1點半又放出了新年第一彈：Qwen2.5-Max。

在與業(yè)界領先的所有模型對比中，Qwen2.5-Max 依然展現(xiàn)出極強的性能。

在測試大學水平知識的 MMLU-Pro、評估編程能力的 LiveCodeBench、全面評估綜合能力的 LiveBench，以及近似人類偏好的 Arena-Hard等主流測評中，Qwen2.5-Max比肩Claude-3.5-Sonnet，并幾乎全面超越了GPT-4o、DeepSeek-V3及Llama-3.1-405B。

而就在這兩天，Qwen的新模型又再次以超強性能沖上主流大模型評測榜單全球前十：

2月4日，業(yè)界最知名的三方評測榜單——Chatbot Arena 大模型盲測榜單放榜。Qwen2.5-Max以1332分，超過DeepSeek V3、o1-mini和Claude-3.5-Sonnet等國內(nèi)外強手，獲得全球第七名，并且獲得數(shù)學和編程的單項第一。

2月6日，在Meta楊立昆牽頭的LiveBench最新榜單中，Qwen2.5-Max也闖進全球前十，領先于DeepSeek-V3、Gemini-2.0-flash-lite等諸多好手。

Qwen團隊關于Qwen2.5-Max的技術博客里最后一段提到，“持續(xù)提升數(shù)據(jù)規(guī)模和模型參數(shù)規(guī)模能夠有效提升模型的智能水平?！?/p>

這等同于解答了這個超大規(guī)模MoE模型里的秘密：Scaling Law，基于MoE（混合專家）架構開發(fā)，持續(xù)擴大參數(shù)規(guī)模，不斷改進訓練方案。Scaling Law，既是觀念，也是實踐。

在預訓練數(shù)據(jù)規(guī)模上，Qwen2.5-Max模型基于高達20萬億tokens的數(shù)據(jù)進行預訓練，規(guī)模比訓練Qwen2.5的18萬億Tokens還要多。Qwen2.5-Max的預訓練數(shù)據(jù)覆蓋領域廣泛，且知識密度高，同時通過精心設計的數(shù)據(jù)過濾及配比，保證了數(shù)據(jù)的數(shù)量與質量。此外，全面優(yōu)化的后訓練數(shù)據(jù)及強化學習方法讓 Qwen2.5-Max 產(chǎn)出的內(nèi)容也更符合廣大用戶的偏好。

而在訓練技術層面，Qwen團隊在今年1月提交的這篇名為《魔鬼在細節(jié)》（Demons in the Detail: On Implementing Load Balancing Loss for Training Specialized Mixture-of-Expert Models）的論文中，著重解釋了MoE模型訓練改進的方法。

在DeepSeek訓練V3的技術報告中，就曾在小規(guī)模上討論了基于全局均衡來優(yōu)化專家選擇的效果。而Qwen更進一步，通過輕量的通信代價實現(xiàn)了全局均衡，在大規(guī)模上系統(tǒng)驗證了這種方法的有效性，使得MoE 模型的性能和專家特異性都得到了顯著的提升。

也正因這些關鍵改進，在模型裸性能也即基座模型的11項評測對比中，Qwen2.5-Max 與業(yè)界領先的 MoE 模型 DeepSeek V3、最大的開源稠密模型 Llama-3.1-405B以及同系列的 Qwen2.5-72B 比拼中，全面領先。

3不是從DeepSeek到Qwen，而是從Qwen到開源世界

當不少人為Qwen2.5-Max性能超越DeepSeek-V3、再度為中國大模型歡呼時，實際上忽略了一個重要的事實：在DeepSeek爆火之前，海外大模型圈，早就熟知了Qwen這一名字。

在我們此前對硅谷的數(shù)次探訪中，每當談及中國大模型，不少CEO、開發(fā)者蹦出來的第一個名字，是Alibaba's Qwen。

過去兩年來，Qwen的確是開源最多、最深入的中國大模型代表。Qwen模型性能強勁，開源尺寸多樣化，并且擁有全球最大的衍生模型群，成為學術界到產(chǎn)業(yè)界都廣受歡迎的最重要的開源模型系列。

從2023年8月首個開源模型Qwen-7B的發(fā)布開始，Qwen就陸續(xù)開源了覆蓋不同參數(shù)規(guī)模、不同模態(tài)、不同應用場景的數(shù)十款模型。這些模型不僅包括通用大語言模型，還涵蓋了多模態(tài)、對話、代碼生成等專業(yè)領域的特化版本。

在GitHub社區(qū)，Qwen收獲了來自全球開發(fā)者的好評。特別是2024年9月發(fā)布的Qwen2.5系列模型，在代碼生成和調試任務中表現(xiàn)卓越。有開發(fā)者成功通過本地部署Qwen2.5-32B模型并配合VS Code擴展工具，完全替代了此前依賴的ChatGPT和Claude 3.5 Sonnet的編程輔助功能。

圖源X截圖

僅僅在過去的3個月，Qwen就陸續(xù)開源了推理模型QwQ、多模態(tài)推理模型QVQ、數(shù)學推理過程獎勵模型Qwen2.5-Math-PRM、支持100萬Tokens的長文本模型Qwen2.5-1M以及最新一代視覺理解模型Qwen2.5-VL。

以視覺理解模型為例，阿里云曾開源Qwen-VL及Qwen2-VL兩代模型，全球總下載量突破3200萬次，是開源社區(qū)里最受歡迎、性能最強的視覺理解模型，開發(fā)者用它來理解難以辨認的手寫稿，解答書本上艱深的數(shù)學物理題，甚至嘗試去探索月球和銀河的秘密。

也正因此，Qwen2.5-VL一開源發(fā)布，就引發(fā)了大波的海外Qwen粉絲們的狂歡，開源社區(qū)大佬VB一句話總結：它持續(xù)變得越來越好了。

一個業(yè)界的共識是，Qwen最早扛起了中國AI大模型開源的大旗，也帶起了一波開源的浪潮，孕育起一個AI生態(tài)。阿里云牽頭建設的魔搭社區(qū)，已經(jīng)上架了4萬多個AI模型，服務超過1000萬名開發(fā)者。

李飛飛這樣的學術大咖選擇Qwen，Yixin Ye這樣的年輕本科生基于Qwen探索新技術，甚至DeepSeek這樣現(xiàn)象級的創(chuàng)業(yè)公司也用Qwen模型做蒸餾。更多來自阿拉伯語、法語、日語、西班牙語地區(qū)的開發(fā)者，因為Qwen的強勁語言能力而第一次擁有了性能超群的本國語言大模型。

Qwen讓AI技術從杭州走向了世界。

4「神秘東方力量」的公開秘密

人往往高估一年的變化，但會低估五年的變化。

不到一年前，還有大佬認為閉源才是AI大模型發(fā)展的主流，現(xiàn)在，全世界的開發(fā)者都在為開源的中國AI技術挑戰(zhàn)傳統(tǒng)霸權而歡呼。

今天，當我們談中國大模型集體崛起，我們會談論DeepSeek，談它背后充足的量化資本以及追求AGI的純粹初心；我們也會談通義千問Qwen，談孕育它的阿里云和更龐大的阿里巴巴生態(tài)。

巧的是，這兩個揚名海外的中國大模型，都來自杭州，因此也有人稱之為開源世界里的杭州「內(nèi)戰(zhàn)」，甚至一度傳出阿里要入股DeepSeek的謠言。一個不爭的事實是，在DeepSeek最需要算力支持的時候，阿里云官宣支持部署DeepSeek-V3和R1模型。

AI不是零和博弈，最后勝利也不會只屬于某一家公司。在這樣一個激動人心的大時代，齊頭并進或許是個最優(yōu)解。

當然，時間會考驗所有人，而一切才剛剛開始。

上一篇：Meta啟動PARTNR計劃，研究人類與機器人如何協(xié)作做家務

下一篇：研究：電動汽車可靠性大增，使用壽命已與燃油車相當

最新推薦

閱讀排行榜

欄目索引

相關內(nèi)容