昨晚,DeepSeek無(wú)預(yù)警發(fā)布DeepSeek-V3-0324模型,此次更新雖被官方低調(diào)地稱為“小版本迭代”,但實(shí)測(cè)表現(xiàn)遠(yuǎn)超預(yù)期。
該模型尤其在代碼生成、前端開(kāi)發(fā)等方面顯著提升,甚至部分能力比肩Claude 3.7 Sonnet,引發(fā)全球AI社區(qū)熱議。
在大模型競(jìng)技場(chǎng)測(cè)試KCORES中,DeepSeek-V3-0324代碼能力得分328.3分,超越普通版 Claude 3.7 Sonnet( 322.3 分 ),接近Claude 3.7 Sonnet的思維鏈版本(334.8分 )。
在Aider LLM Leaderboard排行榜中,DeepSeek-V3-0324在多語(yǔ)言基準(zhǔn)測(cè)試中得分為 55%,比V3有顯著提升,比R1略低一些。在非思考/推理模型中,它排名第二,僅次于 Claude Sonnet 3.7 。
測(cè)試數(shù)據(jù)還表明,在表現(xiàn)良好的模型中,DeepSeek-V3-0324花費(fèi)是最低的,比R1還低很多,只需大約1/5,擁有高到令人發(fā)指的性價(jià)比。
另外,Claude Sonnet 3.7 Thinking的花費(fèi)是DeepSeek-V3-0324的33 倍,o1是 DeepSeek-V3-0324的167倍。
目前在DeepSeek官網(wǎng),只需要關(guān)閉“深度思考”選項(xiàng)即可使用新模型。
Hugging Face上也提供了開(kāi)源下載,下載地址:
https://huggingface.co/deepseek-ai/DeepSeek-V3-0324/tree/main
DeepSeek-V3-0324包含685B參數(shù),較前代V3小幅增加,采用MoE( 專家混合 )架構(gòu),激活參數(shù)370億。網(wǎng)友實(shí)測(cè)DeepSeek-V3-0324支持4-bit量化,可在512GB M3 Ultra Mac上以20+token/s速度運(yùn)行,磁盤(pán)占用僅352GB。 新模型采用與DeepSeek-R1相同的MIT許可,允許自由修改、商用及模型蒸餾,比上一版V3更開(kāi)放。
從測(cè)評(píng)結(jié)果來(lái)看,DeepSeek-V3-0324前端開(kāi)發(fā)表現(xiàn)突出,媲美頂級(jí)商業(yè)模型。
X博主Deepanshu Sharma僅用簡(jiǎn)單提示詞(“用 HTML/CSS/JS制作現(xiàn)代化登錄頁(yè)面” ),就能讓新版V3一鍵生成800+行代碼,且無(wú)錯(cuò)誤運(yùn)行,效果媲美Claude 3.7 Sonnet 。
在經(jīng)典彈跳小球測(cè)試中,DeepSeek V3-0324不僅比R1表現(xiàn)更好,博主Deepanshu Sharma還認(rèn)為它生成了最流暢的動(dòng)作。
在測(cè)試中o3-mini最初表現(xiàn)看起來(lái)不錯(cuò),但并沒(méi)有正確遵循物理原理,尤其是在視頻中間,球?qū)χ亓](méi)有做出正確的反應(yīng)。
Deepanshu Sharma評(píng)價(jià)DeepSeek V3-0324“表現(xiàn)得像唯一排名第一的非推理模型”。
據(jù)X網(wǎng)友karminski-牙醫(yī)介紹,在升級(jí)版的20小球物理模擬測(cè)試中,DeepSeek V3-0324 相比V3也表現(xiàn)更優(yōu)。
而新版V3與頭部推理模型的比較情況如下:
在火星任務(wù)測(cè)試中,DeepSeek-V3-0324提升巨大,星球、圖例渲染正確,發(fā)射和返回的窗口計(jì)算也有很大進(jìn)步。
結(jié)合UI設(shè)計(jì)和物理模擬,X網(wǎng)友Parul Pandey還用DeepSeek-V3-0324生成了一個(gè)可交互物理模擬界面,通過(guò)AnyChat使用DeepSeek-V3-0324模擬水分子。
實(shí)際運(yùn)行中,可以通過(guò)溫度滑塊提升溫度,讓分子呈現(xiàn)越來(lái)越快的前進(jìn)和碰撞反彈運(yùn)動(dòng)。
提示詞:創(chuàng)建一個(gè)交互式模擬,顯示水分子形成和斷裂氫鍵的過(guò)程,同時(shí)顯示溫度滑塊。
對(duì)于本次升級(jí)的技術(shù)難度,有Reddit網(wǎng)友pigeon57434給出了比較中立的解讀:不用太驚嘆本次V3升級(jí)的幅度,因?yàn)镽L ( 強(qiáng)化學(xué)習(xí),Reinforcement Learning )潛力極大。以QwQ-32B為例,盡管它實(shí)際上小了20倍,但它在某些方面的表現(xiàn)幾乎與R1一樣好,甚至比R1更好。它能那么強(qiáng),只是因?yàn)閿U(kuò)展推理模型還有很大空間,甚至不需要新的基礎(chǔ)模型。我敢打賭,使用更復(fù)雜的技術(shù),可以輕松獲得基于DeepSeek-V2.5的推理模型來(lái)?yè)魯1,更不用說(shuō)這個(gè)新版本的V3了。
總的來(lái)說(shuō),這樣的免費(fèi)+高性能的組合將對(duì)OpenAI、Anthropic等閉源商業(yè)模型形成越來(lái)越大的壓力。
DeepSeek此次更新再次證明開(kāi)源模型的爆發(fā)力,不僅技術(shù)指標(biāo)逼近頂級(jí)商業(yè)AI,更以低成本、高自由度推動(dòng)行業(yè)變革。
可以合理推測(cè),此次更新有可能是R2的前置版本,類似去年V3( 24.12.16 )→R1 ( 25.01.20 ) 的發(fā)布節(jié)奏,或許幾周內(nèi)我們可能迎來(lái)更強(qiáng)的推理模型R2。
隨著R2的臨近,全球AI競(jìng)爭(zhēng)格局或?qū)⒂瓉?lái)新一輪洗牌。