青青青久草,四虎永久在线精品,二区免费视频,一级毛片在线直接观看,黄网在线免费观看,美女露全身永久免费网站,色婷婷六月桃花综合影院

不斷有人在問(wèn),這個(gè)中國(guó)模型到底有什么魔力?

作者 | Yoky

郵箱 | yokyliu@pingwest.com

DeepSeek、李飛飛、LIMO,全球的AI界近期幾乎都被這幾個(gè)名詞環(huán)繞,而這一切的背后,都要從一個(gè)“大隱隱于市”的高手談起。

2月3日,李飛飛和斯坦福大學(xué)等團(tuán)隊(duì)在arXiv上發(fā)表了一篇名為《s1: Simple test-time scaling》的論文,僅在16塊H100上微調(diào)26分鐘,以不到50美元的價(jià)格訓(xùn)練出的新模型s1-32B,數(shù)學(xué)及編程能力與OpenAI o1及DeepSeek R1等尖端推理模型效果相當(dāng)。

幾乎同一時(shí)間,來(lái)自上海交大的本科生Yixin Ye與團(tuán)隊(duì)訓(xùn)練出的LIMO新模型,用1%的數(shù)據(jù)量,訓(xùn)練出MATH測(cè)試準(zhǔn)確率高達(dá)94.8%的新模型。

一般認(rèn)為,低成本訓(xùn)練強(qiáng)勁性能模型的方法,基本上始于DeepSeek推出R1模型時(shí)順手做的蒸餾示范。這一系列工作涌現(xiàn),海外AI社區(qū)驚奇地發(fā)現(xiàn),他們采用的基座模型,居然都是Qwen——這位真正的幕后高手。

中國(guó)人更熟悉的名字是,通義千問(wèn),阿里云自研并開(kāi)源的大模型Qwen系列。

加拿大滑鐵盧大學(xué)助理教授陳文虎更是直言,他們也在別的模型上作了嘗試,同樣的訓(xùn)練數(shù)據(jù)卻完全不奏效,他總結(jié)稱:“Qwen模型里頭一定有一些magical的東西!”

那么,這些充滿魔力的東西到底是什么?

1從研究到實(shí)踐,他們?yōu)楹味歼x擇Qwen?

李飛飛團(tuán)隊(duì)在這篇論文里提到,性能優(yōu)化的核心技術(shù)是s1K 數(shù)據(jù)集和預(yù)算強(qiáng)制法(budget forcing)。

s1K的數(shù)據(jù)集包含1000個(gè)精心挑選的問(wèn)題,李飛飛團(tuán)隊(duì)還使用谷歌的 Gemini Flash Thinking 模型生成每個(gè)問(wèn)題的推理軌跡(reasoning traces)和答案。預(yù)算強(qiáng)制方法的特點(diǎn),則是在模型終結(jié)思考時(shí)添加“wait”,鼓勵(lì)探索更多答案。

最后,李飛飛團(tuán)隊(duì)對(duì)開(kāi)源的 Qwen2.5-32B-Instruct 進(jìn)行 s1K 的監(jiān)督微調(diào)并應(yīng)用預(yù)算強(qiáng)制后,得到模型 s1-32B。也就是在 16 個(gè) H100 GPU 上訓(xùn)練26 分鐘、花費(fèi)50美元的階段。

首先應(yīng)該破除的迷思是,這絕不僅僅是只花50美元就能辦到的事情。李飛飛的新方法,并不是從零訓(xùn)練一個(gè)模型,而是基于Qwen模型做的微調(diào)。公開(kāi)數(shù)據(jù)顯示,Qwen2.5模型系列,僅預(yù)訓(xùn)練就用了18萬(wàn)億tokens,可以想見(jiàn)是怎樣一筆支出。

陳文虎在X上的留言,更是一語(yǔ)道破天機(jī),絕非所有模型微調(diào)后都能有這樣的效果。

上海交大團(tuán)隊(duì)的LIMO,幾乎是對(duì)同樣技術(shù)的探討,使用了更少的817 個(gè)精選訓(xùn)練樣本,通過(guò)構(gòu)建更高質(zhì)量的推理鏈,結(jié)合推理時(shí)計(jì)算擴(kuò)展和微調(diào),就在極具挑戰(zhàn)性的 AIME 基準(zhǔn)測(cè)試中從6.5%的準(zhǔn)確率提升到57.1% ,在MATH 基準(zhǔn)測(cè)試中更是達(dá)到了 94.8% 的準(zhǔn)確率。

這一數(shù)據(jù)規(guī)模,僅占經(jīng)典方法能達(dá)到模型水平所需數(shù)據(jù)量的1%左右。

在X上,即將成為MIT助理教授、現(xiàn)Databricks的研究科學(xué)家Omar Khattab評(píng)價(jià)LIMO稱,此類的論文更像是關(guān)于Qwen的研究成果而非推理。

前三星研究院科學(xué)家Rakshit Shukla也表示,這些新成果印證了基礎(chǔ)模型(也即Qwen)的性能之強(qiáng)。

事實(shí)上,國(guó)際開(kāi)源社區(qū)對(duì)Qwen非常熟識(shí),從Qwen2到Qwen2.5,不同代際的開(kāi)源Qwen模型,屢屢登上HuggingFace的Open LLM Leaderboard、Chatbot Arena大模型盲測(cè)榜單,多次斬獲“全球開(kāi)源冠軍”,性能強(qiáng)勁毋庸置疑。

更重要的是,Qwen推出了不同尺寸的開(kāi)源模型,小到0.5B,大到110B,可以更好滿足千行百業(yè)的需求,開(kāi)發(fā)者用腳投票,紛紛來(lái)下載Qwen模型。這在HuggingFace平臺(tái)上,僅Qwen的一款小型模型就占據(jù)了去年所有模型下載量的26.6%。

HuggingFace官方供圖

全球火爆出圈的DeepSeek,同樣選擇了Qwen。

在發(fā)布R1時(shí),DeepSeek官方透露,打樣蒸餾R1的能力給到6個(gè)模型,其中4個(gè)模型就是Qwen,分別選擇了1.5B、7B、14B和32B四個(gè)尺寸,其中基于Qwen-32B的蒸餾模型,在多項(xiàng)能力上實(shí)現(xiàn)了與OpenAI o1-mini 相當(dāng)?shù)男Ч?/p>

全球越來(lái)越多的開(kāi)發(fā)者和企業(yè)選擇了Qwen,也將他們研發(fā)出的Qwen衍生模型貢獻(xiàn)于開(kāi)源社區(qū)。目前,開(kāi)發(fā)者二創(chuàng)的Qwen衍生模型數(shù)量已經(jīng)突破了9萬(wàn),成為全球最大的AI模型族群。

或許,這是李飛飛、Yixin Ye乃至DeepSeek選擇Qwen的又一原因,畢竟從學(xué)術(shù)界到產(chǎn)業(yè)界都用的Qwen,是最容易被對(duì)比的性能標(biāo)桿基座模型。

2不止是最佳開(kāi)源模型,更強(qiáng)的Qwen2.5-Max來(lái)了

正當(dāng)大家為性能出色的開(kāi)源Qwen模型歡呼時(shí),大年初一,阿里云在凌晨1點(diǎn)半又放出了新年第一彈:Qwen2.5-Max。

在與業(yè)界領(lǐng)先的所有模型對(duì)比中,Qwen2.5-Max 依然展現(xiàn)出極強(qiáng)的性能。

在測(cè)試大學(xué)水平知識(shí)的 MMLU-Pro、評(píng)估編程能力的 LiveCodeBench、全面評(píng)估綜合能力的 LiveBench,以及近似人類偏好的 Arena-Hard等主流測(cè)評(píng)中,Qwen2.5-Max比肩Claude-3.5-Sonnet,并幾乎全面超越了GPT-4o、DeepSeek-V3及Llama-3.1-405B。

而就在這兩天,Qwen的新模型又再次以超強(qiáng)性能沖上主流大模型評(píng)測(cè)榜單全球前十:

2月4日, 業(yè)界最知名的三方評(píng)測(cè)榜單——Chatbot Arena 大模型盲測(cè)榜單放榜。Qwen2.5-Max以1332分,超過(guò)DeepSeek V3、o1-mini和Claude-3.5-Sonnet等國(guó)內(nèi)外強(qiáng)手,獲得全球第七名,并且獲得數(shù)學(xué)和編程的單項(xiàng)第一。

2月6日,在Meta楊立昆牽頭的LiveBench最新榜單中,Qwen2.5-Max也闖進(jìn)全球前十,領(lǐng)先于DeepSeek-V3、Gemini-2.0-flash-lite等諸多好手。

Qwen團(tuán)隊(duì)關(guān)于Qwen2.5-Max的技術(shù)博客里最后一段提到,“持續(xù)提升數(shù)據(jù)規(guī)模和模型參數(shù)規(guī)模能夠有效提升模型的智能水平?!?/p>

這等同于解答了這個(gè)超大規(guī)模MoE模型里的秘密:Scaling Law,基于MoE(混合專家)架構(gòu)開(kāi)發(fā),持續(xù)擴(kuò)大參數(shù)規(guī)模,不斷改進(jìn)訓(xùn)練方案。Scaling Law,既是觀念,也是實(shí)踐。

在預(yù)訓(xùn)練數(shù)據(jù)規(guī)模上,Qwen2.5-Max模型基于高達(dá)20萬(wàn)億tokens的數(shù)據(jù)進(jìn)行預(yù)訓(xùn)練,規(guī)模比訓(xùn)練Qwen2.5的18萬(wàn)億Tokens還要多。Qwen2.5-Max的預(yù)訓(xùn)練數(shù)據(jù)覆蓋領(lǐng)域廣泛,且知識(shí)密度高,同時(shí)通過(guò)精心設(shè)計(jì)的數(shù)據(jù)過(guò)濾及配比,保證了數(shù)據(jù)的數(shù)量與質(zhì)量。此外,全面優(yōu)化的后訓(xùn)練數(shù)據(jù)及強(qiáng)化學(xué)習(xí)方法讓 Qwen2.5-Max 產(chǎn)出的內(nèi)容也更符合廣大用戶的偏好。

而在訓(xùn)練技術(shù)層面,Qwen團(tuán)隊(duì)在今年1月提交的這篇名為《魔鬼在細(xì)節(jié)》(Demons in the Detail: On Implementing Load Balancing Loss for Training Specialized Mixture-of-Expert Models)的論文中,著重解釋了MoE模型訓(xùn)練改進(jìn)的方法。

在DeepSeek訓(xùn)練V3的技術(shù)報(bào)告中,就曾在小規(guī)模上討論了基于全局均衡來(lái)優(yōu)化專家選擇的效果。而Qwen更進(jìn)一步,通過(guò)輕量的通信代價(jià)實(shí)現(xiàn)了全局均衡,在大規(guī)模上系統(tǒng)驗(yàn)證了這種方法的有效性,使得MoE 模型的性能和專家特異性都得到了顯著的提升。

也正因這些關(guān)鍵改進(jìn),在模型裸性能也即基座模型的11項(xiàng)評(píng)測(cè)對(duì)比中,Qwen2.5-Max 與業(yè)界領(lǐng)先的 MoE 模型 DeepSeek V3、最大的開(kāi)源稠密模型 Llama-3.1-405B以及同系列的 Qwen2.5-72B 比拼中,全面領(lǐng)先。

3不是從DeepSeek到Qwen,而是從Qwen到開(kāi)源世界

當(dāng)不少人為Qwen2.5-Max性能超越DeepSeek-V3、再度為中國(guó)大模型歡呼時(shí),實(shí)際上忽略了一個(gè)重要的事實(shí):在DeepSeek爆火之前,海外大模型圈,早就熟知了Qwen這一名字。

在我們此前對(duì)硅谷的數(shù)次探訪中,每當(dāng)談及中國(guó)大模型,不少CEO、開(kāi)發(fā)者蹦出來(lái)的第一個(gè)名字,是Alibaba's Qwen。

過(guò)去兩年來(lái),Qwen的確是開(kāi)源最多、最深入的中國(guó)大模型代表。Qwen模型性能強(qiáng)勁,開(kāi)源尺寸多樣化,并且擁有全球最大的衍生模型群,成為學(xué)術(shù)界到產(chǎn)業(yè)界都廣受歡迎的最重要的開(kāi)源模型系列。

從2023年8月首個(gè)開(kāi)源模型Qwen-7B的發(fā)布開(kāi)始,Qwen就陸續(xù)開(kāi)源了覆蓋不同參數(shù)規(guī)模、不同模態(tài)、不同應(yīng)用場(chǎng)景的數(shù)十款模型。這些模型不僅包括通用大語(yǔ)言模型,還涵蓋了多模態(tài)、對(duì)話、代碼生成等專業(yè)領(lǐng)域的特化版本。

在GitHub社區(qū),Qwen收獲了來(lái)自全球開(kāi)發(fā)者的好評(píng)。特別是2024年9月發(fā)布的Qwen2.5系列模型,在代碼生成和調(diào)試任務(wù)中表現(xiàn)卓越。有開(kāi)發(fā)者成功通過(guò)本地部署Qwen2.5-32B模型并配合VS Code擴(kuò)展工具,完全替代了此前依賴的ChatGPT和Claude 3.5 Sonnet的編程輔助功能。

圖源X截圖

僅僅在過(guò)去的3個(gè)月,Qwen就陸續(xù)開(kāi)源了推理模型QwQ、多模態(tài)推理模型QVQ、數(shù)學(xué)推理過(guò)程獎(jiǎng)勵(lì)模型Qwen2.5-Math-PRM、支持100萬(wàn)Tokens的長(zhǎng)文本模型Qwen2.5-1M以及最新一代視覺(jué)理解模型Qwen2.5-VL。

以視覺(jué)理解模型為例,阿里云曾開(kāi)源Qwen-VL及Qwen2-VL兩代模型,全球總下載量突破3200萬(wàn)次,是開(kāi)源社區(qū)里最受歡迎、性能最強(qiáng)的視覺(jué)理解模型,開(kāi)發(fā)者用它來(lái)理解難以辨認(rèn)的手寫(xiě)稿,解答書(shū)本上艱深的數(shù)學(xué)物理題,甚至嘗試去探索月球和銀河的秘密。

也正因此,Qwen2.5-VL一開(kāi)源發(fā)布,就引發(fā)了大波的海外Qwen粉絲們的狂歡,開(kāi)源社區(qū)大佬VB一句話總結(jié):它持續(xù)變得越來(lái)越好了。

一個(gè)業(yè)界的共識(shí)是,Qwen最早扛起了中國(guó)AI大模型開(kāi)源的大旗,也帶起了一波開(kāi)源的浪潮,孕育起一個(gè)AI生態(tài)。阿里云牽頭建設(shè)的魔搭社區(qū),已經(jīng)上架了4萬(wàn)多個(gè)AI模型,服務(wù)超過(guò)1000萬(wàn)名開(kāi)發(fā)者。

李飛飛這樣的學(xué)術(shù)大咖選擇Qwen,Yixin Ye這樣的年輕本科生基于Qwen探索新技術(shù),甚至DeepSeek這樣現(xiàn)象級(jí)的創(chuàng)業(yè)公司也用Qwen模型做蒸餾。更多來(lái)自阿拉伯語(yǔ)、法語(yǔ)、日語(yǔ)、西班牙語(yǔ)地區(qū)的開(kāi)發(fā)者,因?yàn)镼wen的強(qiáng)勁語(yǔ)言能力而第一次擁有了性能超群的本國(guó)語(yǔ)言大模型。

Qwen讓AI技術(shù)從杭州走向了世界。

4「神秘東方力量」的公開(kāi)秘密

人往往高估一年的變化,但會(huì)低估五年的變化。

不到一年前,還有大佬認(rèn)為閉源才是AI大模型發(fā)展的主流,現(xiàn)在,全世界的開(kāi)發(fā)者都在為開(kāi)源的中國(guó)AI技術(shù)挑戰(zhàn)傳統(tǒng)霸權(quán)而歡呼。

今天,當(dāng)我們談中國(guó)大模型集體崛起,我們會(huì)談?wù)揇eepSeek,談它背后充足的量化資本以及追求AGI的純粹初心;我們也會(huì)談通義千問(wèn)Qwen,談孕育它的阿里云和更龐大的阿里巴巴生態(tài)。

巧的是,這兩個(gè)揚(yáng)名海外的中國(guó)大模型,都來(lái)自杭州,因此也有人稱之為開(kāi)源世界里的杭州「內(nèi)戰(zhàn)」,甚至一度傳出阿里要入股DeepSeek的謠言。一個(gè)不爭(zhēng)的事實(shí)是,在DeepSeek最需要算力支持的時(shí)候,阿里云官宣支持部署DeepSeek-V3和R1模型。

AI不是零和博弈,最后勝利也不會(huì)只屬于某一家公司。在這樣一個(gè)激動(dòng)人心的大時(shí)代,齊頭并進(jìn)或許是個(gè)最優(yōu)解。

當(dāng)然,時(shí)間會(huì)考驗(yàn)所有人,而一切才剛剛開(kāi)始。


相關(guān)內(nèi)容