青青青久草,四虎永久在线精品,二区免费视频,一级毛片在线直接观看,黄网在线免费观看,美女露全身永久免费网站,色婷婷六月桃花综合影院

一周五連發(fā) AI大模型卷出新高度:阿里豆包谷歌哪家強(qiáng)?

大模型又卷起來了。

3 月 28 日,阿里和字節(jié)不約而同地發(fā)布了各自大模型的重磅升級(jí):一邊是能看圖、讀視頻、還會(huì)解數(shù)學(xué)題的視覺推理模型 QVQ-Max;另一邊是豆包開啟測(cè)試能邊想邊搜的新版「深度思考」。

圖/ Qwen

圖/ Qwen

同一天,兩大國產(chǎn)大模型都按下了新一輪大模型更新的啟動(dòng)鍵,或許并非巧合。就在本周,各家主流大模型都發(fā)布了一輪更新:

DeepSeek 發(fā)布 V3-0324 新版本,推理、寫作、編碼能力再提升;Google 也推出了 Gemini-2.5-Pro,幾乎獲得了全方位的能力提升,還在 LMArena 榜單上打出了 40 分的絕對(duì)領(lǐng)先優(yōu)勢(shì);OpenAI 也升級(jí)了 GPT-4o 圖像生成功能,可控性和質(zhì)量大幅進(jìn)化。

各家基礎(chǔ)模型又卷了起來。

從圖像生成到視覺推理,從多模態(tài)到超長上下文,這一輪更新更像是一場(chǎng)全方位能力升級(jí)的排位賽——不僅卷功能、卷質(zhì)量,還在卷「智能體時(shí)代」誰能提供更好的基礎(chǔ)模型。

五大模型集體上新,到底在卷什么?

1、阿里 QVQ-Max:視覺推理能力全開。

圖/ 阿里

圖/ 阿里

對(duì)于視覺推理模型,阿里的野心和意圖都非常明顯。早在去年 12 月,阿里 Qwen 團(tuán)隊(duì)就探索性地推出了 QVQ-72B-Preview 視覺推理模型。到了今年 1 月,又為雷鳥創(chuàng)新打造了用于雷鳥 V3 AI 眼鏡的定制模型。

而 QVQ-Max 則是一次全面的升級(jí),不僅能「看懂」圖表、照片、甚至對(duì)視頻內(nèi)容進(jìn)行理解,結(jié)合這些信息進(jìn)行分析、推理,給出解決方案。比如,它能「看」出一組幾何圖形之間的角度關(guān)系,或是預(yù)測(cè)視頻中下一秒可能發(fā)生的行為,在多模態(tài)基準(zhǔn)測(cè)試上表現(xiàn)出色。

簡單來說,QVQ-Max 對(duì)圖片的解析能力非常強(qiáng),無論是復(fù)雜的圖表還是日常生活中隨手拍的照片,它都能快速識(shí)別出關(guān)鍵元素,同時(shí) QVQ-Max 還能進(jìn)一步分析這些信息,并結(jié)合背景知識(shí)得出結(jié)論。

圖/ Qwen

圖/ Qwen

另外值得一提,QVQ-Max 目前已經(jīng)上線了 Qwen Chat(https://chat.qwen.ai),簡單上手體驗(yàn)了下,對(duì)于照片的分析明顯強(qiáng)于Qwen2.5-Max,甚至可以根據(jù)「左上角logo是中國銀行」的提醒對(duì)應(yīng)到照片中。

2、豆包新版「深度思考」,主打一個(gè)推理進(jìn)階。

幾乎在同一時(shí)間,字節(jié)豆包也測(cè)試上線了新版「深度思考」能力,支持在思維鏈條展開的同時(shí)動(dòng)態(tài)發(fā)起搜索,實(shí)現(xiàn)「邊想邊搜」。實(shí)際體驗(yàn)中,豆包會(huì)在思考過程中搜索資料,不斷通過搜索補(bǔ)充信息再思考。

簡單來說,用戶提問如果涉及時(shí)間、地點(diǎn)、上下文變化或需要跨知識(shí)鏈的信息整合,豆包將不再「一次性搜一堆」,而是會(huì)在推理過程中多次觸發(fā)搜索節(jié)點(diǎn),不斷修正和豐富自身的思維路徑。

了解 QVQ-Max 的思考過程,圖/豆包

了解 QVQ-Max 的思考過程,圖/豆包

比如我就嘗試了讓豆包深入了解下 QVQ-Max 模型,它就進(jìn)行了兩次搜索:第一次找到 16 篇參考資料,考慮到部分信息的缺失又進(jìn)行了第二次搜索,找到 8 篇參考資料。

與 DeepSeek-R1、GPT 系列此前的工具調(diào)度能力相比,豆包此次升級(jí)雖并非開創(chuàng)性,但顯然補(bǔ)上了此前在復(fù)雜問題求解方面的短板。

3、DeepSeek-V3 小版本升級(jí),每一點(diǎn)都強(qiáng)了點(diǎn)。

圖/ DeepSeek

圖/ DeepSeek

DeepSeek-V3 最新發(fā)布的 0324 小版本升級(jí),依舊延續(xù)了「小體積+大能力」的路線,主要借鑒了 DeepSeek-R1 在模型訓(xùn)練中使用的強(qiáng)化學(xué)習(xí)技術(shù),針對(duì)推理、寫作、編程能力做了進(jìn)一步優(yōu)化。

在前端開發(fā)能力上,新版模型能生成更具現(xiàn)代設(shè)計(jì)感的網(wǎng)頁結(jié)構(gòu),在代碼生成、轉(zhuǎn)換和編輯能力上也更為穩(wěn)定;寫作方面則明顯提升了中文中長篇文本的邏輯性和通順度,更適合小說、劇本等內(nèi)容創(chuàng)作。

4、Gemini 2.5 Pro:谷歌最強(qiáng)通用模型來了。

相比 DeepSeek-V3 ,Google 本周推出的 Gemini 2.5 Pro 是一次真正意義上的「大升級(jí)」,在編碼、數(shù)學(xué)、視覺推理、搜索調(diào)度等能力上都得到了全面增強(qiáng)。簡而言之,它正在將「大語言模型」推向「高可信度、多輪決策型智能體」的方向演進(jìn)。

作為 Google 首個(gè)「全能型智能體底座」模型,Gemini 2.5 Pro 在對(duì)話能力上可以說是技?jí)喝盒郏?span style="font-weight: 700;">在機(jī)制相對(duì)比較合理的大模型競(jìng)技場(chǎng) ChatBot Arena 上坐到了第一,并且大幅領(lǐng)先其他一眾頂級(jí)大模型,包括 Grok-3、GPT-4.5、DeepSeek-R1。

圖/ Chatbot Arena

圖/ Chatbot Arena

編碼方面也就是 Agentic Coding(智能體編碼)弱于 Claude-3.7-Sonnet,但在 SWE-Bench Verified 編程測(cè)試中遙遙領(lǐng)先,尤其擅長創(chuàng)建復(fù)雜 web 應(yīng)用程序和代理工具鏈。圖像生成方面,Gemini 2.5 Pro 也有了巨大的進(jìn)步,在 GPT-4o 升級(jí)圖像生成能力之前也驚艷了不少人。

5、GPT-4o 原生圖片生成,效果震撼全球網(wǎng)友。

單從熱度上,GPT-4o(0326)的更新無疑是這一輪集體升級(jí)中最大的贏家。本周,OpenAI 為 GPT-4o 推出新一輪的升級(jí),不僅提高了解決復(fù)雜技術(shù)和編碼問題的能力,最出圈的可能還是原生的圖像生成功能。

上線之后,無數(shù)網(wǎng)友在嘗試新版本的圖像生成功能,尤其是讓 GPT-4o 用「吉卜力風(fēng)格」重畫更是塞滿了我的社交媒體時(shí)間線。按照 OpenAI CEO 山姆?奧爾特曼(Sam Altman)的說法,GPT-4o 更新之后文生圖需求劇增,甚至造成了 GPU 超負(fù)荷。

ChatGPT 4o 根據(jù)照片生成,原始照片為嗶哩嗶哩在AWE2025的展臺(tái)

ChatGPT 4o 根據(jù)照片生成,原始照片為嗶哩嗶哩在AWE2025的展臺(tái)

相比之前,此次更新顯著提升了對(duì)復(fù)雜指令的理解能力和圖文混排渲染的可控性,尤其是在生成圖像中的文字內(nèi)容上,準(zhǔn)確率大幅提升。更重要的是,新版 GPT-4o 支持多輪對(duì)話過程中連續(xù)地修改圖像風(fēng)格與構(gòu)圖元素,可以逐步調(diào)優(yōu),視覺一致性也更強(qiáng),用戶交互體驗(yàn)也提升了一個(gè)維度。

智能體時(shí)代逼近,大模型不約而同拼內(nèi)功

如果說此前幾個(gè)月大模型的更新節(jié)奏還略顯零散,那么這次幾乎同步到來的集體升級(jí),已經(jīng)清晰地釋放出一個(gè)信號(hào):大模型正在全方位補(bǔ)齊能力,并為智能體的爆發(fā)做準(zhǔn)備。

過去一年,大模型行業(yè)主旋律是「多模態(tài)」和「高性能」,但這一輪更新之后可以發(fā)現(xiàn),大廠們開始集體聚焦于三個(gè)方向:更強(qiáng)的推理鏈條、更高質(zhì)量的內(nèi)容生成、更接近智能體形態(tài)的系統(tǒng)調(diào)度能力。

推理能力,毫無疑問是重中之重。 QVQ-Max 通過強(qiáng)化視覺推理打開了多模態(tài)理解的深層能力,豆包則借助「邊想邊搜」補(bǔ)上復(fù)雜問題處理的弱項(xiàng),而 DeepSeek 和 Gemini 更是通過 RLHF(強(qiáng)化學(xué)習(xí))強(qiáng)化了多輪決策和長期規(guī)劃。

這些動(dòng)作都指向一個(gè)目標(biāo):讓大模型不止于「答題機(jī)器」,而是能夠真正參與復(fù)雜任務(wù)和流程執(zhí)行。

圖/ Google

圖/ Google

與此同時(shí),內(nèi)容生成的質(zhì)量也普遍得到了提升。GPT-4o 升級(jí)圖像生成功能背后,實(shí)則是文本到圖像再到排版的全流程可控性提升;DeepSeek V3 新版也在強(qiáng)調(diào)從代碼到長文本,內(nèi)容生成質(zhì)量的提高。

無論是圖像生成、代碼生成還是小說生成,今天的模型更強(qiáng)調(diào)「結(jié)構(gòu)正確、風(fēng)格統(tǒng)一、過程透明」,簡言之就是大模型基礎(chǔ)能力的夯實(shí)。

而在推理和基礎(chǔ)能力之外,大模型還在快速補(bǔ)齊智能體所需的基礎(chǔ)能力,就比如工具調(diào)用。不管是豆包「動(dòng)態(tài)搜索」的工具調(diào)用能力,還是 Gemini 在 SWE-Bench 中構(gòu)建多步驟程序的能力,本質(zhì)上都是在為「模型能自主執(zhí)行任務(wù)」做準(zhǔn)備。

從這輪更新看,大模型的「智能體化」正在成為下一場(chǎng)大競(jìng)賽的起點(diǎn),而基礎(chǔ)能力的全方位補(bǔ)齊,正在讓這場(chǎng)競(jìng)賽變得越來越像是「拼內(nèi)功」的長期戰(zhàn)役。

而且確信的是,ChatBot 不是大模型的終點(diǎn),而是 AI 代理,或者說 AI 智能體才是大模型真正無處不在的入口。


相關(guān)內(nèi)容