青青青久草,四虎永久在线精品,二区免费视频,一级毛片在线直接观看,黄网在线免费观看,美女露全身永久免费网站,色婷婷六月桃花综合影院

<ol id="bftjg"></ol>

OpenAI發(fā)布全新o1模型：它會(huì)像人類一樣“深思熟慮”

甲子光年

2024-09-13 09:13:23

作者｜蘇霍伊

沒有一點(diǎn)點(diǎn)防備，OpenAI造勢(shì)已久的“草莓”（Strawberry）模型，就這樣發(fā)布了。

o1模型的介紹切片，來源：OpenAI

o1模型的介紹切片，來源：OpenAI

北京時(shí)間今天凌晨，OpenAI發(fā)布了名為OpenAI o1的新模型，也是之前所傳的“Strawberry”，但最初o1的代號(hào)為“Q*”。OpenAI的CEO薩姆·奧爾特曼（Sam Altman）則稱它為“新范式的開始”。

從OpenAI的官方信息看下來，總結(jié)o1的特點(diǎn)就是：更大、更強(qiáng)、更慢、更貴。

經(jīng)過強(qiáng)化學(xué)習(xí)（Reinforcement Learning），OpenAI o1在推理能力方面取得了重大進(jìn)展。研發(fā)團(tuán)隊(duì)觀察到，隨著訓(xùn)練時(shí)間（強(qiáng)化學(xué)習(xí)的增加）和思考時(shí)間（測(cè)試時(shí)的計(jì)算）的延長(zhǎng)，o1模型的表現(xiàn)逐漸提升。這種方法的擴(kuò)展所面臨的挑戰(zhàn)與大型語言模型（LLM）的預(yù)訓(xùn)練限制截然不同。

o1性能隨著訓(xùn)練時(shí)間和測(cè)試時(shí)間計(jì)算而平穩(wěn)提升，來源：OpenAI

o1性能隨著訓(xùn)練時(shí)間和測(cè)試時(shí)間計(jì)算而平穩(wěn)提升，來源：OpenAI

關(guān)于市面上所傳“o1模型能夠自主為用戶執(zhí)行瀏覽器或系統(tǒng)操作級(jí)別的任務(wù)”，目前的公開信息并未提及這一功能。

OpenAI官方表示：“雖然這款初期模型還沒有像網(wǎng)上搜索信息、上傳文件和圖片這樣的功能，但它在解決復(fù)雜推理問題上有了顯著進(jìn)步，這代表了人工智能技術(shù)的新水平。所以我們決定給這個(gè)系列一個(gè)新的起點(diǎn)，將其命名為OpenAI o1?！庇纱丝梢?，o1的主要應(yīng)用還是集中在通過文本交互進(jìn)行問題解答和分析，而不是直接控制瀏覽器或操作系統(tǒng)。

與早期版本不同，o1模型在作出回答之前會(huì)像人類一樣“深思熟慮”，用時(shí)約10—20秒，產(chǎn)生一個(gè)長(zhǎng)長(zhǎng)的內(nèi)部思路鏈，并能夠嘗試不同的策略并識(shí)別自身的錯(cuò)誤。

這種強(qiáng)大推理能力使o1在多個(gè)行業(yè)中具有廣泛的應(yīng)用潛力，尤其是復(fù)雜的科學(xué)、數(shù)學(xué)和編程任務(wù)。在處理物理、化學(xué)和生物問題時(shí)，o1的表現(xiàn)甚至和該領(lǐng)域的博士生水平不相上下。在國(guó)際數(shù)學(xué)奧林匹克的資格考試（AIME）中，o1的正確率為83%，成功進(jìn)入了美國(guó)前500名學(xué)生的行列，而GPT-4o模型的正確率僅為13%。

奧爾特曼也在X上分享了o1，來源：X

奧爾特曼也在X上分享了o1，來源：X

OpenAI提供了一些具體的使用案例，比如醫(yī)療研究人員可利o1來標(biāo)注細(xì)胞測(cè)序數(shù)據(jù)；物理學(xué)家可用o1生成量子光學(xué)所需的復(fù)雜數(shù)學(xué)公式；軟件開發(fā)者則可以借助它來構(gòu)建和執(zhí)行復(fù)雜的多步驟工作流程等。

o1系列分包含三款模型，OpenAI o1、OpenAI o1-preview和OpenAI o1-mini。這兩款模型從今天開始對(duì)用戶開放使用：

OpenAI o1：高級(jí)推理模型，暫不對(duì)外開放。

OpenAI o1-preview：這個(gè)版本更注重深度推理處理，每周可以使用30次。

OpenAI o1-mini：這個(gè)版本更高效、劃算，適用于編碼任務(wù)，每周可以使用50次。

開發(fā)者和研究人員現(xiàn)在可以通過ChatGPT和應(yīng)用程序編程接口訪問這些模型。

至于價(jià)格，早先The information曾爆料，OpenAI高管正在討論其即將推出的全新大模型“草莓”（Strawberry）和“獵戶座”（Orion）的擬定在2000美元一個(gè)月，引發(fā)一眾吐槽和聲討。但今日有人發(fā)現(xiàn)，ChatGPT Pro會(huì)員已經(jīng)上線了，售價(jià)200美元/月。從2000美元到200美元的落差，很難讓人不產(chǎn)生一種“占便宜”的感覺，價(jià)格心理戰(zhàn)被OpenAI玩轉(zhuǎn)得明明白白。

今年5月，奧爾特曼在于麻省理工學(xué)院校長(zhǎng)莎莉·科恩布魯斯（Sally Kornbluth）爐邊談話中曾提到，GPT-5或?qū)?shù)據(jù)與推理引擎分離。

“GPT-5或GPT-6可以成為最佳的推理引擎，目前而言，能達(dá)到最佳引擎的唯一路徑就是訓(xùn)練大量的數(shù)據(jù)?！眾W爾特曼認(rèn)為，但實(shí)際上，模型在處理數(shù)據(jù)時(shí)浪費(fèi)了許多數(shù)據(jù)資源。比如GPT-4。它也能像數(shù)據(jù)庫一樣工作，只是推理速度慢、成本高昂且效果“不盡如人意”。這些問題本質(zhì)上是因?yàn)槟Ｐ偷脑O(shè)計(jì)和訓(xùn)練方式導(dǎo)致的資源浪費(fèi)。

“不可避免的，這是我們制作推理引擎模型的唯一方法的副作用?！彼茴A(yù)見未來的新方法，就是將模型的推理能力與對(duì)大數(shù)據(jù)的需求性剝離。

但在今天的發(fā)布中，GPT-5沒有出現(xiàn)，數(shù)據(jù)與推理引擎分離這一設(shè)想也不見蹤影。

至于價(jià)格，早先The information曾爆料，OpenAI高管擬將推出的全新大模型“草莓”（Strawberry）和“獵戶座”（Orion）的價(jià)格定在2000美元/月，這引發(fā)一眾吐槽和聲討。但今日有人發(fā)現(xiàn)，ChatGPT Pro會(huì)員已經(jīng)上線了，售價(jià)為200美元/月。

從2000美元到200美元的落差，很難不讓用戶產(chǎn)生一種“占便宜”的感覺，價(jià)格心理戰(zhàn)實(shí)屬被OpenAI玩轉(zhuǎn)得明明白白。

2.打磨“思維鏈”

大模型一直因其“不會(huì)數(shù)數(shù)”而被詬病。究其根本，是因?yàn)榇竽Ｐ腿狈Y(jié)構(gòu)化推理的能力。

推理是人類智能的核心能力之一。而大模型主要通過非結(jié)構(gòu)化的文本數(shù)據(jù)進(jìn)行訓(xùn)練，這種數(shù)據(jù)通常包括新聞文章、書籍、網(wǎng)頁文本等。文本是自然語言形式，不遵循嚴(yán)格的邏輯或結(jié)構(gòu)化規(guī)則，所以模型學(xué)到的也主要是如何根據(jù)上下文生成語言，而不是如何邏輯推理或遵循固定的規(guī)則處理信息。

但許多復(fù)雜推理任務(wù)都是結(jié)構(gòu)化的。

比如邏輯推斷、數(shù)學(xué)問題解決或編程等。如果我們想要走出一個(gè)迷宮，就需要遵循一系列邏輯和空間規(guī)則才能找到出口。這類問題要求模型能夠理解并應(yīng)用一系列固定的步驟或規(guī)則，但這正是大部分大模型所缺乏的。

所以，像ChatGPT、BARD等模型雖能根據(jù)訓(xùn)練數(shù)據(jù)生成看似合理的回答，其實(shí)更像是“隨即鸚鵡”（stochastic parroting），它們往往無法真正理解背后的復(fù)雜邏輯或執(zhí)行高級(jí)推理任務(wù)。

要知道，大模型在處理非結(jié)構(gòu)化的自然語言文本時(shí)表現(xiàn)出色，原于這正是訓(xùn)練數(shù)據(jù)的側(cè)重點(diǎn)。但當(dāng)涉及到需要結(jié)構(gòu)化邏輯推理的任務(wù)時(shí)，它們往往難以表現(xiàn)得像人類一樣精確。

為解決這一難題，OpenAI想到了用思維鏈（Chain of Thought, CoT）來“破局”。

思維鏈?zhǔn)且环N幫助AI模型進(jìn)行推理的技術(shù)。它通過讓模型在回答復(fù)雜問題時(shí)，逐步解釋每一步的推理過程，而不是直接給出答案。因此模型在回答問題時(shí)就像是人類在解題時(shí)那樣，先思考每一步的邏輯，再逐步推導(dǎo)出最終的結(jié)果。

但在AI訓(xùn)練的過程中，人工標(biāo)注思維鏈耗時(shí)又昂貴，在scaling law主導(dǎo)下所需的數(shù)據(jù)量對(duì)人工而言基本是一項(xiàng)不可能完成的任務(wù)。

這時(shí)，強(qiáng)化學(xué)習(xí)就成了更實(shí)用的替代方案。

強(qiáng)化學(xué)習(xí)可以讓模型通過實(shí)踐和試錯(cuò)自己學(xué)習(xí)，它不需要人工標(biāo)注具體每一步怎么走，而是通過不斷的實(shí)驗(yàn)和反饋來優(yōu)化解決問題的方法。

具體來說，就是模型在嘗試解決問題的過程中，根據(jù)所采取行動(dòng)的結(jié)果（好的或壞的）來調(diào)整自己的行為。這樣，模型能夠自主探索多種可能的解決方案，并通過不斷試錯(cuò)找到最有效的方法。比如在游戲或模擬環(huán)境中，AI可以通過自我對(duì)弈不斷優(yōu)化策略，最終學(xué)會(huì)如何精確執(zhí)行復(fù)雜任務(wù)，而無需人工逐一指導(dǎo)每一步。

比如2016年橫掃圍棋界的AlphaGo，它就是結(jié)合了深度學(xué)習(xí)和強(qiáng)化學(xué)習(xí)的方法，通過大量的自我對(duì)弈來不斷優(yōu)化其決策模型，最終能夠戰(zhàn)勝世界頂級(jí)的圍棋選手李世石。

o1模型就是用和AlphaGo“同門”的方法逐步處理問題。

在這個(gè)過程中，o1通過強(qiáng)化學(xué)習(xí)不斷完善自己的思考過程，學(xué)會(huì)識(shí)別和糾正錯(cuò)誤，將復(fù)雜步驟分解為更簡(jiǎn)單的部分，并在遇到障礙時(shí)嘗試新的方法。這種訓(xùn)練方式顯著提升了o1的推理能力，讓o1能夠更有效地解決問題。

OpenAI的聯(lián)合創(chuàng)始人之一格雷格·布羅克曼（Greg Brockman）對(duì)此感到“十分自豪”，“這是我們首次使用強(qiáng)化學(xué)習(xí)訓(xùn)練的模型。”他說道。

布羅克曼的推文切片，來源：X

布羅克曼的推文切片，來源：X

布羅克曼介紹，OpenAI的模型原先進(jìn)行的是系統(tǒng)一型思維（快速、直觀的決策）而思維鏈技術(shù)則啟動(dòng)了系統(tǒng)二型思維（慎重、分析性的思考）。

系統(tǒng)一型思維適合快速應(yīng)對(duì)，而系統(tǒng)二型思維則通過“思維鏈”技術(shù)，讓模型能夠逐步推理解決問題。實(shí)踐表明，通過持續(xù)的試錯(cuò)，從頭到尾完整訓(xùn)練模型（如在圍棋或Dota等游戲中應(yīng)用），可以極大提升模型的表現(xiàn)。

此外，o1技術(shù)雖然仍在開發(fā)初期，但已在安全性方面表現(xiàn)良好。如通過增強(qiáng)模型對(duì)策略進(jìn)行深入推理來提高其對(duì)抗攻擊的魯棒性和降低幻覺現(xiàn)象的風(fēng)險(xiǎn)。這種深層次的推理能力已經(jīng)開始在安全性評(píng)估中顯示出積極的效果。

“我們基于o1模型開發(fā)了一個(gè)新的模型，讓它參加了2024年國(guó)際信息學(xué)奧林匹克(IOI)比賽，并在49%的排名中得到了213分?！監(jiān)penAI方表示。

它在與人類參賽者相同的條件下參賽，解決六個(gè)算法問題，每個(gè)問題有50次提交機(jī)會(huì)。通過篩選多個(gè)候選方案并根據(jù)公開測(cè)試用例、模型生成的測(cè)試用例和評(píng)分函數(shù)來選擇提交方案，證明了其選擇策略的有效性，平均得分高于隨機(jī)提交的分?jǐn)?shù)。

在提交次數(shù)放寬到每題10,000次時(shí)，模型表現(xiàn)得更好，得分超過了金牌標(biāo)準(zhǔn)。最后，這個(gè)模型在模擬的Codeforces編程比賽中展示了“令人驚嘆”的編碼能力。GPT-4o的Elo等級(jí)為808，位于人類競(jìng)爭(zhēng)者的第11百分位。而我們的新模型Elo等級(jí)為1807，表現(xiàn)優(yōu)于93%的競(jìng)爭(zhēng)者。

在編程競(jìng)賽中進(jìn)一步的微調(diào)提升了o1模型的表現(xiàn)，來源：OpenAI

在編程競(jìng)賽中進(jìn)一步的微調(diào)提升了o1模型的表現(xiàn)，來源：OpenAI

2.“多事之秋”的OpenAI

在o1發(fā)布前，OpenAI一直深陷公司核心高層變動(dòng)的陰云中。

今年2月，OpenAI的創(chuàng)始成員、研究科學(xué)家安德烈·卡帕斯（Andrej Karpathy）在X上宣布，他已離開這家公司?？ㄅ了贡硎?，他友好地離開了OpenAI，“不是因?yàn)槿魏翁囟ǖ氖录?、問題或戲劇性事件”。

前首席科學(xué)家、聯(lián)合創(chuàng)始人伊利亞·蘇茨克維（Ilya Sutskever）則在5月宣告離職，超級(jí)對(duì)齊團(tuán)隊(duì)也隨之解散，業(yè)內(nèi)認(rèn)為這是OpenAI在追求技術(shù)突破和確保AI安全之間平衡的失敗嘗試。

右起分別是伊利亞·蘇茨克維、格雷格·布洛克曼 (Greg Brockman)、山姆·奧爾特曼和米拉·穆拉蒂。來源：紐約時(shí)報(bào)

右起分別是伊利亞·蘇茨克維、格雷格·布洛克曼 (Greg Brockman)、山姆·奧爾特曼和米拉·穆拉蒂。來源：紐約時(shí)報(bào)

在伊利亞發(fā)布通告的數(shù)小時(shí)后，RLHF發(fā)明者之一、超級(jí)對(duì)齊團(tuán)隊(duì)的共同主管簡(jiǎn)·雷克（Jan Leike）也追隨他的腳步一起離開，再次給OpenAI的未來增加了更多的不確定性。

8月，OpenAI聯(lián)合創(chuàng)始人、研究科學(xué)家約翰·舒爾曼（John Schulman）透露了自己的離職，并加入Anthropic專注于AI對(duì)齊的深入研究。他解釋說，離職是為了聚焦于AI對(duì)齊和技術(shù)工作，并非因?yàn)镺penAI不支持對(duì)齊研究。舒爾曼感謝了在OpenAI的同事，并對(duì)它未來的發(fā)展“充滿信心”。

而Anthropic正是由2020年離職的OpenAI的研究副總裁達(dá)里奧·阿莫蒂（Dario Amodei），和時(shí)任安全與政策副總裁丹妮拉·阿莫蒂（Daniela Amodei）兄妹創(chuàng)辦的。

布羅克曼也在同月宣布休假一年，這是他自9年前共同創(chuàng)立OpenAI以來的“第一次長(zhǎng)假”。

9月10日，領(lǐng)導(dǎo)OpenAI GPT-4o和GPT-5模型音頻交互研究的亞歷西斯·克努亞（Alexis Conneau）宣布離職并創(chuàng)業(yè)，克努亞的研究致力于實(shí)現(xiàn)電影《Her》中展示的那種自然語音交互體驗(yàn)，但相關(guān)產(chǎn)品的發(fā)布卻一再延遲。

OpenAI自成立以來，就因其非營(yíng)利和商業(yè)化的雙重身份而備受關(guān)注。隨著商業(yè)化化進(jìn)程的加速，內(nèi)部關(guān)于其非營(yíng)利使命的緊張關(guān)系日益明顯，這也是團(tuán)隊(duì)成員流失的一個(gè)原因。同時(shí)埃隆·馬斯克（Elon Musk）最近的一起訴訟可能也與人員流失有關(guān)。

OpenAI研究員丹尼爾·科科塔洛（Daniel Kokotajlo）在離職后接受媒體專訪時(shí)表示，去年發(fā)生的“宮斗”事件中，奧爾特曼被短暫解雇后迅速?gòu)?fù)職，專注于AGI安全的三名董事會(huì)成員被撤換?！斑@使得奧爾特曼和布羅克曼進(jìn)一步鞏固了權(quán)力，而主要關(guān)注AGI安全的人被邊緣化。（奧爾特曼）他們背離了公司在2022年制定的計(jì)劃”。

此外，OpenAI面臨高達(dá)50億美元的預(yù)計(jì)虧損，運(yùn)營(yíng)成本高達(dá)85億美元，其中大部分為服務(wù)器租用和訓(xùn)練成本。為應(yīng)對(duì)高昂的運(yùn)營(yíng)壓力，OpenAI正在謀求新一輪融資，估值可能超過1000億美元，微軟、蘋果和英偉達(dá)等潛在投資者表達(dá)了興趣。公司高管正在全球范圍內(nèi)尋求投資以支持其快速發(fā)展的資金需求。

為了緩解財(cái)務(wù)壓力，OpenAI正在尋求新一輪的融資，據(jù)《紐約時(shí)報(bào)》11日?qǐng)?bào)道，OpenAI上周還希望以1000億美元估值融資大約10億美元。但因構(gòu)建大型AI系統(tǒng)所需算力將導(dǎo)致更大開支，該公司近日決定調(diào)高融資額度到65億美元。

但有外媒援引知情人士以及未公開的內(nèi)部財(cái)務(wù)數(shù)據(jù)分析稱，OpenAI今年可能面臨高達(dá)50億美元的巨額虧損，總運(yùn)營(yíng)成本預(yù)計(jì)達(dá)到85億美元。其中向微軟租用服務(wù)器的費(fèi)用高達(dá)40億美元，數(shù)據(jù)訓(xùn)練成本則是30億美元。由于更先進(jìn)的模型如Strawberry和Orion的運(yùn)行成本更高，公司的經(jīng)濟(jì)壓力進(jìn)一步加大。

（封面圖來源：OpenAI）

上一篇：“龍”飛船即將展開太空行走任務(wù)，由2名非職業(yè)宇航員完成

下一篇：OpenAI草莓模型深夜突襲！理化生達(dá)博士生水平，比GPT-4o強(qiáng)多了，ChatGPT可用

最新推薦

閱讀排行榜

欄目索引

相關(guān)內(nèi)容