青青青久草,四虎永久在线精品,二区免费视频,一级毛片在线直接观看,黄网在线免费观看,美女露全身永久免费网站,色婷婷六月桃花综合影院

OpenAI發(fā)布全新o1模型:它會(huì)像人類一樣“深思熟慮”

作者|蘇霍伊

沒(méi)有一點(diǎn)點(diǎn)防備,OpenAI造勢(shì)已久的“草莓”(Strawberry)模型,就這樣發(fā)布了。

o1模型的介紹切片,來(lái)源:OpenAI

o1模型的介紹切片,來(lái)源:OpenAI

北京時(shí)間今天凌晨,OpenAI發(fā)布了名為OpenAI o1的新模型,也是之前所傳的“Strawberry”,但最初o1的代號(hào)為“Q*”。OpenAI的CEO薩姆·奧爾特曼(Sam Altman)則稱它為“新范式的開(kāi)始”。

從OpenAI的官方信息看下來(lái),總結(jié)o1的特點(diǎn)就是:更大、更強(qiáng)、更慢、更貴。

經(jīng)過(guò)強(qiáng)化學(xué)習(xí)(Reinforcement Learning),OpenAI o1在推理能力方面取得了重大進(jìn)展。研發(fā)團(tuán)隊(duì)觀察到,隨著訓(xùn)練時(shí)間(強(qiáng)化學(xué)習(xí)的增加)和思考時(shí)間(測(cè)試時(shí)的計(jì)算)的延長(zhǎng),o1模型的表現(xiàn)逐漸提升。這種方法的擴(kuò)展所面臨的挑戰(zhàn)與大型語(yǔ)言模型(LLM)的預(yù)訓(xùn)練限制截然不同。

o1性能隨著訓(xùn)練時(shí)間和測(cè)試時(shí)間計(jì)算而平穩(wěn)提升,來(lái)源:OpenAI

o1性能隨著訓(xùn)練時(shí)間和測(cè)試時(shí)間計(jì)算而平穩(wěn)提升,來(lái)源:OpenAI

關(guān)于市面上所傳“o1模型能夠自主為用戶執(zhí)行瀏覽器或系統(tǒng)操作級(jí)別的任務(wù)”,目前的公開(kāi)信息并未提及這一功能。

OpenAI官方表示:“雖然這款初期模型還沒(méi)有像網(wǎng)上搜索信息、上傳文件和圖片這樣的功能,但它在解決復(fù)雜推理問(wèn)題上有了顯著進(jìn)步,這代表了人工智能技術(shù)的新水平。所以我們決定給這個(gè)系列一個(gè)新的起點(diǎn),將其命名為OpenAI o1?!庇纱丝梢?jiàn),o1的主要應(yīng)用還是集中在通過(guò)文本交互進(jìn)行問(wèn)題解答和分析,而不是直接控制瀏覽器或操作系統(tǒng)。

與早期版本不同,o1模型在作出回答之前會(huì)像人類一樣“深思熟慮”,用時(shí)約10—20秒,產(chǎn)生一個(gè)長(zhǎng)長(zhǎng)的內(nèi)部思路鏈,并能夠嘗試不同的策略并識(shí)別自身的錯(cuò)誤。

這種強(qiáng)大推理能力使o1在多個(gè)行業(yè)中具有廣泛的應(yīng)用潛力,尤其是復(fù)雜的科學(xué)、數(shù)學(xué)和編程任務(wù)。在處理物理、化學(xué)和生物問(wèn)題時(shí),o1的表現(xiàn)甚至和該領(lǐng)域的博士生水平不相上下。在國(guó)際數(shù)學(xué)奧林匹克的資格考試(AIME)中,o1的正確率為83%,成功進(jìn)入了美國(guó)前500名學(xué)生的行列,而GPT-4o模型的正確率僅為13%。

奧爾特曼也在X上分享了o1,來(lái)源:X

奧爾特曼也在X上分享了o1,來(lái)源:X

OpenAI提供了一些具體的使用案例,比如醫(yī)療研究人員可利o1來(lái)標(biāo)注細(xì)胞測(cè)序數(shù)據(jù);物理學(xué)家可用o1生成量子光學(xué)所需的復(fù)雜數(shù)學(xué)公式;軟件開(kāi)發(fā)者則可以借助它來(lái)構(gòu)建和執(zhí)行復(fù)雜的多步驟工作流程等。

o1系列分包含三款模型,OpenAI o1、OpenAI o1-preview和OpenAI o1-mini。這兩款模型從今天開(kāi)始對(duì)用戶開(kāi)放使用:

OpenAI o1:高級(jí)推理模型,暫不對(duì)外開(kāi)放。

OpenAI o1-preview:這個(gè)版本更注重深度推理處理,每周可以使用30次。

OpenAI o1-mini:這個(gè)版本更高效、劃算,適用于編碼任務(wù),每周可以使用50次。

開(kāi)發(fā)者和研究人員現(xiàn)在可以通過(guò)ChatGPT和應(yīng)用程序編程接口訪問(wèn)這些模型。

至于價(jià)格,早先The information曾爆料,OpenAI高管正在討論其即將推出的全新大模型“草莓”(Strawberry)和“獵戶座”(Orion)的擬定在2000美元一個(gè)月,引發(fā)一眾吐槽和聲討。但今日有人發(fā)現(xiàn),ChatGPT Pro會(huì)員已經(jīng)上線了,售價(jià)200美元/月。從2000美元到200美元的落差,很難讓人不產(chǎn)生一種“占便宜”的感覺(jué),價(jià)格心理戰(zhàn)被OpenAI玩轉(zhuǎn)得明明白白。

今年5月,奧爾特曼在于麻省理工學(xué)院校長(zhǎng)莎莉·科恩布魯斯(Sally Kornbluth)爐邊談話中曾提到,GPT-5或?qū)?shù)據(jù)與推理引擎分離。

“GPT-5或GPT-6可以成為最佳的推理引擎,目前而言,能達(dá)到最佳引擎的唯一路徑就是訓(xùn)練大量的數(shù)據(jù)?!眾W爾特曼認(rèn)為,但實(shí)際上,模型在處理數(shù)據(jù)時(shí)浪費(fèi)了許多數(shù)據(jù)資源。比如GPT-4。它也能像數(shù)據(jù)庫(kù)一樣工作,只是推理速度慢、成本高昂且效果“不盡如人意”。這些問(wèn)題本質(zhì)上是因?yàn)槟P偷脑O(shè)計(jì)和訓(xùn)練方式導(dǎo)致的資源浪費(fèi)。

“不可避免的,這是我們制作推理引擎模型的唯一方法的副作用?!彼茴A(yù)見(jiàn)未來(lái)的新方法,就是將模型的推理能力與對(duì)大數(shù)據(jù)的需求性剝離。

但在今天的發(fā)布中,GPT-5沒(méi)有出現(xiàn),數(shù)據(jù)與推理引擎分離這一設(shè)想也不見(jiàn)蹤影。

至于價(jià)格,早先The information曾爆料,OpenAI高管擬將推出的全新大模型“草莓”(Strawberry)和“獵戶座”(Orion)的價(jià)格定在2000美元/月,這引發(fā)一眾吐槽和聲討。但今日有人發(fā)現(xiàn),ChatGPT Pro會(huì)員已經(jīng)上線了,售價(jià)為200美元/月。

從2000美元到200美元的落差,很難不讓用戶產(chǎn)生一種“占便宜”的感覺(jué),價(jià)格心理戰(zhàn)實(shí)屬被OpenAI玩轉(zhuǎn)得明明白白。

2.打磨“思維鏈”

大模型一直因其“不會(huì)數(shù)數(shù)”而被詬病。究其根本,是因?yàn)榇竽P腿狈Y(jié)構(gòu)化推理的能力。

推理是人類智能的核心能力之一。而大模型主要通過(guò)非結(jié)構(gòu)化的文本數(shù)據(jù)進(jìn)行訓(xùn)練,這種數(shù)據(jù)通常包括新聞文章、書(shū)籍、網(wǎng)頁(yè)文本等。文本是自然語(yǔ)言形式,不遵循嚴(yán)格的邏輯或結(jié)構(gòu)化規(guī)則,所以模型學(xué)到的也主要是如何根據(jù)上下文生成語(yǔ)言,而不是如何邏輯推理或遵循固定的規(guī)則處理信息。

但許多復(fù)雜推理任務(wù)都是結(jié)構(gòu)化的。

比如邏輯推斷、數(shù)學(xué)問(wèn)題解決或編程等。如果我們想要走出一個(gè)迷宮,就需要遵循一系列邏輯和空間規(guī)則才能找到出口。這類問(wèn)題要求模型能夠理解并應(yīng)用一系列固定的步驟或規(guī)則,但這正是大部分大模型所缺乏的。

所以,像ChatGPT、BARD等模型雖能根據(jù)訓(xùn)練數(shù)據(jù)生成看似合理的回答,其實(shí)更像是“隨即鸚鵡”(stochastic parroting),它們往往無(wú)法真正理解背后的復(fù)雜邏輯或執(zhí)行高級(jí)推理任務(wù)。

要知道,大模型在處理非結(jié)構(gòu)化的自然語(yǔ)言文本時(shí)表現(xiàn)出色,原于這正是訓(xùn)練數(shù)據(jù)的側(cè)重點(diǎn)。但當(dāng)涉及到需要結(jié)構(gòu)化邏輯推理的任務(wù)時(shí),它們往往難以表現(xiàn)得像人類一樣精確。

為解決這一難題,OpenAI想到了用思維鏈(Chain of Thought, CoT)來(lái)“破局”。

思維鏈?zhǔn)且环N幫助AI模型進(jìn)行推理的技術(shù)。它通過(guò)讓模型在回答復(fù)雜問(wèn)題時(shí),逐步解釋每一步的推理過(guò)程,而不是直接給出答案。因此模型在回答問(wèn)題時(shí)就像是人類在解題時(shí)那樣,先思考每一步的邏輯,再逐步推導(dǎo)出最終的結(jié)果。

但在AI訓(xùn)練的過(guò)程中,人工標(biāo)注思維鏈耗時(shí)又昂貴,在scaling law主導(dǎo)下所需的數(shù)據(jù)量對(duì)人工而言基本是一項(xiàng)不可能完成的任務(wù)。

這時(shí),強(qiáng)化學(xué)習(xí)就成了更實(shí)用的替代方案。

強(qiáng)化學(xué)習(xí)可以讓模型通過(guò)實(shí)踐和試錯(cuò)自己學(xué)習(xí),它不需要人工標(biāo)注具體每一步怎么走,而是通過(guò)不斷的實(shí)驗(yàn)和反饋來(lái)優(yōu)化解決問(wèn)題的方法。

具體來(lái)說(shuō),就是模型在嘗試解決問(wèn)題的過(guò)程中,根據(jù)所采取行動(dòng)的結(jié)果(好的或壞的)來(lái)調(diào)整自己的行為。這樣,模型能夠自主探索多種可能的解決方案,并通過(guò)不斷試錯(cuò)找到最有效的方法。比如在游戲或模擬環(huán)境中,AI可以通過(guò)自我對(duì)弈不斷優(yōu)化策略,最終學(xué)會(huì)如何精確執(zhí)行復(fù)雜任務(wù),而無(wú)需人工逐一指導(dǎo)每一步。

比如2016年橫掃圍棋界的AlphaGo,它就是結(jié)合了深度學(xué)習(xí)和強(qiáng)化學(xué)習(xí)的方法,通過(guò)大量的自我對(duì)弈來(lái)不斷優(yōu)化其決策模型,最終能夠戰(zhàn)勝世界頂級(jí)的圍棋選手李世石。

o1模型就是用和AlphaGo“同門(mén)”的方法逐步處理問(wèn)題。

在這個(gè)過(guò)程中,o1通過(guò)強(qiáng)化學(xué)習(xí)不斷完善自己的思考過(guò)程,學(xué)會(huì)識(shí)別和糾正錯(cuò)誤,將復(fù)雜步驟分解為更簡(jiǎn)單的部分,并在遇到障礙時(shí)嘗試新的方法。這種訓(xùn)練方式顯著提升了o1的推理能力,讓o1能夠更有效地解決問(wèn)題。

OpenAI的聯(lián)合創(chuàng)始人之一格雷格·布羅克曼(Greg Brockman)對(duì)此感到“十分自豪”,“這是我們首次使用強(qiáng)化學(xué)習(xí)訓(xùn)練的模型。”他說(shuō)道。

布羅克曼的推文切片,來(lái)源:X

布羅克曼的推文切片,來(lái)源:X

布羅克曼介紹,OpenAI的模型原先進(jìn)行的是系統(tǒng)一型思維(快速、直觀的決策)而思維鏈技術(shù)則啟動(dòng)了系統(tǒng)二型思維(慎重、分析性的思考)。

系統(tǒng)一型思維適合快速應(yīng)對(duì),而系統(tǒng)二型思維則通過(guò)“思維鏈”技術(shù),讓模型能夠逐步推理解決問(wèn)題。實(shí)踐表明,通過(guò)持續(xù)的試錯(cuò),從頭到尾完整訓(xùn)練模型(如在圍棋或Dota等游戲中應(yīng)用),可以極大提升模型的表現(xiàn)。

此外,o1技術(shù)雖然仍在開(kāi)發(fā)初期,但已在安全性方面表現(xiàn)良好。如通過(guò)增強(qiáng)模型對(duì)策略進(jìn)行深入推理來(lái)提高其對(duì)抗攻擊的魯棒性和降低幻覺(jué)現(xiàn)象的風(fēng)險(xiǎn)。這種深層次的推理能力已經(jīng)開(kāi)始在安全性評(píng)估中顯示出積極的效果。

“我們基于o1模型開(kāi)發(fā)了一個(gè)新的模型,讓它參加了2024年國(guó)際信息學(xué)奧林匹克(IOI)比賽,并在49%的排名中得到了213分?!監(jiān)penAI方表示。

它在與人類參賽者相同的條件下參賽,解決六個(gè)算法問(wèn)題,每個(gè)問(wèn)題有50次提交機(jī)會(huì)。通過(guò)篩選多個(gè)候選方案并根據(jù)公開(kāi)測(cè)試用例、模型生成的測(cè)試用例和評(píng)分函數(shù)來(lái)選擇提交方案,證明了其選擇策略的有效性,平均得分高于隨機(jī)提交的分?jǐn)?shù)。

在提交次數(shù)放寬到每題10,000次時(shí),模型表現(xiàn)得更好,得分超過(guò)了金牌標(biāo)準(zhǔn)。最后,這個(gè)模型在模擬的Codeforces編程比賽中展示了“令人驚嘆”的編碼能力。GPT-4o的Elo等級(jí)為808,位于人類競(jìng)爭(zhēng)者的第11百分位。而我們的新模型Elo等級(jí)為1807,表現(xiàn)優(yōu)于93%的競(jìng)爭(zhēng)者。

在編程競(jìng)賽中進(jìn)一步的微調(diào)提升了o1模型的表現(xiàn),來(lái)源:OpenAI

在編程競(jìng)賽中進(jìn)一步的微調(diào)提升了o1模型的表現(xiàn),來(lái)源:OpenAI

2.“多事之秋”的OpenAI

在o1發(fā)布前,OpenAI一直深陷公司核心高層變動(dòng)的陰云中。

今年2月,OpenAI的創(chuàng)始成員、研究科學(xué)家安德烈·卡帕斯(Andrej Karpathy)在X上宣布,他已離開(kāi)這家公司??ㄅ了贡硎?,他友好地離開(kāi)了OpenAI,“不是因?yàn)槿魏翁囟ǖ氖录?、?wèn)題或戲劇性事件”。

前首席科學(xué)家、聯(lián)合創(chuàng)始人伊利亞·蘇茨克維(Ilya Sutskever)則在5月宣告離職,超級(jí)對(duì)齊團(tuán)隊(duì)也隨之解散,業(yè)內(nèi)認(rèn)為這是OpenAI在追求技術(shù)突破和確保AI安全之間平衡的失敗嘗試。

右起分別是伊利亞·蘇茨克維、格雷格·布洛克曼 (Greg Brockman)、山姆·奧爾特曼和米拉·穆拉蒂。來(lái)源:紐約時(shí)報(bào)

右起分別是伊利亞·蘇茨克維、格雷格·布洛克曼 (Greg Brockman)、山姆·奧爾特曼和米拉·穆拉蒂。來(lái)源:紐約時(shí)報(bào)

在伊利亞發(fā)布通告的數(shù)小時(shí)后,RLHF發(fā)明者之一、超級(jí)對(duì)齊團(tuán)隊(duì)的共同主管簡(jiǎn)·雷克(Jan Leike)也追隨他的腳步一起離開(kāi),再次給OpenAI的未來(lái)增加了更多的不確定性。

8月,OpenAI聯(lián)合創(chuàng)始人、研究科學(xué)家約翰·舒爾曼(John Schulman)透露了自己的離職,并加入Anthropic專注于AI對(duì)齊的深入研究。他解釋說(shuō),離職是為了聚焦于AI對(duì)齊和技術(shù)工作,并非因?yàn)镺penAI不支持對(duì)齊研究。舒爾曼感謝了在OpenAI的同事,并對(duì)它未來(lái)的發(fā)展“充滿信心”。

而Anthropic正是由2020年離職的OpenAI的研究副總裁達(dá)里奧·阿莫蒂(Dario Amodei) ,和時(shí)任安全與政策副總裁丹妮拉·阿莫蒂(Daniela Amodei)兄妹創(chuàng)辦的。

布羅克曼也在同月宣布休假一年,這是他自9年前共同創(chuàng)立OpenAI以來(lái)的“第一次長(zhǎng)假”。

9月10日,領(lǐng)導(dǎo)OpenAI GPT-4o和GPT-5模型音頻交互研究的亞歷西斯·克努亞(Alexis Conneau)宣布離職并創(chuàng)業(yè),克努亞的研究致力于實(shí)現(xiàn)電影《Her》中展示的那種自然語(yǔ)音交互體驗(yàn),但相關(guān)產(chǎn)品的發(fā)布卻一再延遲。

OpenAI自成立以來(lái),就因其非營(yíng)利和商業(yè)化的雙重身份而備受關(guān)注。隨著商業(yè)化化進(jìn)程的加速,內(nèi)部關(guān)于其非營(yíng)利使命的緊張關(guān)系日益明顯,這也是團(tuán)隊(duì)成員流失的一個(gè)原因。同時(shí)埃隆·馬斯克(Elon Musk)最近的一起訴訟可能也與人員流失有關(guān)。

OpenAI研究員丹尼爾·科科塔洛(Daniel Kokotajlo)在離職后接受媒體專訪時(shí)表示,去年發(fā)生的“宮斗”事件中,奧爾特曼被短暫解雇后迅速?gòu)?fù)職,專注于AGI安全的三名董事會(huì)成員被撤換。“這使得奧爾特曼和布羅克曼進(jìn)一步鞏固了權(quán)力,而主要關(guān)注AGI安全的人被邊緣化。(奧爾特曼)他們背離了公司在2022年制定的計(jì)劃”。

此外,OpenAI面臨高達(dá)50億美元的預(yù)計(jì)虧損,運(yùn)營(yíng)成本高達(dá)85億美元,其中大部分為服務(wù)器租用和訓(xùn)練成本。為應(yīng)對(duì)高昂的運(yùn)營(yíng)壓力,OpenAI正在謀求新一輪融資,估值可能超過(guò)1000億美元,微軟、蘋(píng)果和英偉達(dá)等潛在投資者表達(dá)了興趣。公司高管正在全球范圍內(nèi)尋求投資以支持其快速發(fā)展的資金需求。

為了緩解財(cái)務(wù)壓力,OpenAI正在尋求新一輪的融資,據(jù)《紐約時(shí)報(bào)》11日?qǐng)?bào)道,OpenAI上周還希望以1000億美元估值融資大約10億美元。但因構(gòu)建大型AI系統(tǒng)所需算力將導(dǎo)致更大開(kāi)支,該公司近日決定調(diào)高融資額度到65億美元。

但有外媒援引知情人士以及未公開(kāi)的內(nèi)部財(cái)務(wù)數(shù)據(jù)分析稱,OpenAI今年可能面臨高達(dá)50億美元的巨額虧損,總運(yùn)營(yíng)成本預(yù)計(jì)達(dá)到85億美元。其中向微軟租用服務(wù)器的費(fèi)用高達(dá)40億美元,數(shù)據(jù)訓(xùn)練成本則是30億美元。由于更先進(jìn)的模型如Strawberry和Orion的運(yùn)行成本更高,公司的經(jīng)濟(jì)壓力進(jìn)一步加大。

(封面圖來(lái)源:OpenAI)


相關(guān)內(nèi)容