作者 | 陳巍博士團(tuán)隊(duì)
引言:本文將以2萬字介紹GPT-4的核心技術(shù)要點(diǎn)、技術(shù)架構(gòu)、訓(xùn)練流程、算力、局限與產(chǎn)業(yè)未來。作者陳巍博士為AI/存算一體專家,曾擔(dān)任華為系自然語言處理企業(yè)的首席科學(xué)家。(深度技術(shù)科普與解讀文章,不涉及過多技術(shù)名詞或公式)
之前我們一直說自然語言處理是人工智能王冠上最大的那顆珍珠,但如今用世俗的珍珠或者王冠形容已經(jīng)不合適了。多模態(tài)大模型帶給人類世界的震撼,就如人工智能企業(yè)Hugging Face(因提供開源預(yù)訓(xùn)練模型庫而聞名)的聯(lián)合創(chuàng)始人Thomas Wolf所述:“在過去的幾年里,好的多模態(tài)模型一直是許多大型技術(shù)實(shí)驗(yàn)室的圣杯。“其中多模態(tài)指的是融合文本、圖像、視頻或音頻等多種模態(tài)作為輸入或輸出。
作為“圣杯”的代表之一,GPT-4這個標(biāo)簽代表第4代生成式預(yù)訓(xùn)練變換模型(Generative Pre-trained Transformer 4),是OpenAI在2023年3月14日公開的一種多模態(tài)模型,是對前幾個月發(fā)布的ChatGPT的多模態(tài)升級。GPT-4模型可對圖文多模態(tài)輸入生成應(yīng)答文字,以及對視覺元素的分類、分析和隱含語義提取,并表現(xiàn)出優(yōu)秀的應(yīng)答能力。業(yè)內(nèi)文章大多從側(cè)面宣傳GPT-4的優(yōu)秀,卻很少觸及其核心技術(shù)內(nèi)核。
OpenAI的相關(guān)信息
本文將通過OpenAI和其他AI巨頭已發(fā)表的大語言模型或多模態(tài)論文來詳細(xì)闡述和分析與GPT-4相關(guān)核心技術(shù)要點(diǎn)、技術(shù)架構(gòu)、訓(xùn)練流程、算力、局限與產(chǎn)業(yè)未來,告訴大家為何我們的下一代會從“內(nèi)卷”過渡到“人機(jī)互卷”。
01 .
GPT-4核心技術(shù)有哪些?
1.1 理論基礎(chǔ)——多模態(tài)涌現(xiàn)能力
講到大語言模型的優(yōu)勢,一般首先要提到這類模型的涌現(xiàn)能力和思維鏈。這兩者是大語言模型不斷接近人類的關(guān)鍵特征。
我們之所以認(rèn)為GPT-4會是具有里程碑意義的一代,正是因?yàn)槎嗄B(tài)的GPT-4會從視覺角度和視覺-文字語義融合方面涌現(xiàn)出更多的能力。2022-2023年,我們可以認(rèn)為AI是第一次睜開雙眼理解這個世界。
在大型語言模型(LLM)中,涌現(xiàn)能力(Emergent Abilities)是指模型具有從原始訓(xùn)練數(shù)據(jù)中自動學(xué)習(xí)并發(fā)現(xiàn)新的、更高層次的特征和模式的能力。就中文釋義而言,涌現(xiàn)能力也指大語言模型涌現(xiàn)出來的新能力。這有點(diǎn)類似于去超市遇到買二贈一,贈品的質(zhì)量居然還出乎意料。
與大語言模型(LLM)相比,多模態(tài)大語言模型(Multi-modal Large Language Model,MLLM)可實(shí)現(xiàn)更好的常識推理性能,跨模態(tài)遷移更有利于知識獲取,產(chǎn)生更多新的能力,加速了能力的涌現(xiàn)。這些獨(dú)立模態(tài)或跨模態(tài)新特征、能力或模式通常不是通過目的明確的編程或訓(xùn)練獲得的,而是模型在大量多模態(tài)數(shù)據(jù)中自然而然的學(xué)習(xí)到的。
縮放定律(參數(shù)增加后精度損失連續(xù)減少)V.S. 涌現(xiàn)能力(1010-1011參數(shù)后新能力的涌現(xiàn))(來源:OpenAI)
在語言模型發(fā)展的早期,通過在更多數(shù)據(jù)上訓(xùn)練更大的模型,可獲得近似連續(xù)的精確度提升。(可稱為縮放定律/Scaling Laws)到了2015年左右,隨著深度學(xué)習(xí)技術(shù)的發(fā)展和語料庫的增大,模型達(dá)到一定的臨界規(guī)模后,NLP開發(fā)者們發(fā)現(xiàn),大語言模型(包括GPT-3、GLaM、LaMDA和Megatron-Turing NLG等)開始表現(xiàn)出一些開發(fā)者最開始未能預(yù)測的、更復(fù)雜的能力和特性,這些新能力和新特性被認(rèn)為是涌現(xiàn)能力的體現(xiàn)。
當(dāng)模型尺寸增加到一定大小后,新能力涌現(xiàn)(來源:Google/Deepmind)
我們在研究GPT-4時,發(fā)現(xiàn)GPT-4具備了OpenAI在預(yù)訓(xùn)練時和發(fā)表的技術(shù)報(bào)告中并未明確的能力。這些能力都屬于涌現(xiàn)出來的能力。
涌現(xiàn)能力是基于深度學(xué)習(xí)模型的分層結(jié)構(gòu)和權(quán)重學(xué)習(xí)機(jī)制實(shí)現(xiàn)的。涌現(xiàn)出來的能力可以是基于文本的,也可以是多模態(tài)的。我們可以將GPT-4這類大模型的訓(xùn)練視為解方程,每一層神經(jīng)元(可視為變量組合)的輸出都作為下一層神經(jīng)元的輸入,并且模型的每個權(quán)重(Weight)都通過強(qiáng)化學(xué)習(xí)算法進(jìn)行學(xué)習(xí)和更新。這種分層的結(jié)構(gòu)和權(quán)重學(xué)習(xí)機(jī)制使得深度學(xué)習(xí)模型能夠自動的學(xué)習(xí)到從原始數(shù)據(jù)中提取隱含的特征和模式,從而實(shí)現(xiàn)涌現(xiàn)能力。
當(dāng)大語言模型被訓(xùn)練時,通過學(xué)習(xí)大量的多模態(tài)訓(xùn)練數(shù)據(jù),并且根據(jù)數(shù)據(jù)中的統(tǒng)計(jì)規(guī)律和模式自適應(yīng)的調(diào)整其內(nèi)部參數(shù)和結(jié)構(gòu),從而表現(xiàn)出一些新的能力和特性。這類似于咱們常說的量變引發(fā)質(zhì)變。
涌現(xiàn)能力是大語言模型的重要特性,也是現(xiàn)在火爆的大模型各種能力的理論基礎(chǔ)。涌現(xiàn)能力使得GPT-4能夠在無需人工干預(yù)的情況下,從原始的多模態(tài)數(shù)據(jù)中自動學(xué)習(xí)到復(fù)雜的特征和模式,從而實(shí)現(xiàn)更準(zhǔn)確和更高效的預(yù)測和決策。
涌現(xiàn)能力的另一個重要表現(xiàn)是模型的泛化能力。在沒有專門訓(xùn)練過的情況,GPT-4也可以泛化到新的、未知的多模態(tài)數(shù)據(jù)樣本上。這種泛化能力取決于模型的結(jié)構(gòu)和訓(xùn)練過程,以及數(shù)據(jù)的數(shù)量和多樣性。如果模型具有足夠的復(fù)雜性和泛化能力,就可以從原始數(shù)據(jù)中發(fā)現(xiàn)新的、未知的特征和模式。
當(dāng)然,GPT-4涌現(xiàn)出的新能力可能仍有局限性,例如:模型可能產(chǎn)生錯誤的回答,對某些問題缺乏理解,容易受到輸入干擾等。目前認(rèn)為GPT-4的幻覺與其涌現(xiàn)能力具有相關(guān)性。
1.2 核心優(yōu)勢——多模態(tài)思維鏈
思維鏈(Chain of Thought)可視為大語言模型涌現(xiàn)出來的核心能力之一。之所以現(xiàn)在各類GPT研究火爆,也與模型訓(xùn)練出的思維鏈可進(jìn)入實(shí)用有密切關(guān)系。
思維鏈形成機(jī)制可以解釋為模型通過學(xué)習(xí)大量的語言數(shù)據(jù)來構(gòu)建一個關(guān)于語言結(jié)構(gòu)和意義的內(nèi)在表示,通過一系列中間自然語言推理步驟來完成最終輸出。思維鏈?zhǔn)荂hatGPT和GPT-4能讓大眾感覺到語言模型“像人”的關(guān)鍵特性。
雖然GPT-4這些模型并非具備真正的意識或思考能力,但用類似于人的推理方式的思維鏈來提示語言模型,極大的提高了GPT-4在推理任務(wù)上的表現(xiàn),打破了精調(diào)(Fine-tune)的平坦曲線。具備了多模態(tài)思維鏈能力的GPT-4模型具有一定邏輯分析能力,已經(jīng)不是傳統(tǒng)意義上的詞匯概率逼近模型。
當(dāng)然思維鏈的訓(xùn)練可能并不容易。盡管現(xiàn)在有大量團(tuán)隊(duì)進(jìn)入大語言模型訓(xùn)練領(lǐng)域,但若干年內(nèi)能找到訓(xùn)練訣竅并完成思維鏈訓(xùn)練的團(tuán)隊(duì)可能不多。對創(chuàng)企來說,完成思維鏈的訓(xùn)練,才算真正拿到了這波大模型AI競技的入場券。
思維鏈提示的示例(來源:Google)
通過多模態(tài)思維鏈技術(shù),GPT-4將一個多步驟的問題(例如圖表推理)分解為可以單獨(dú)解決的中間步驟。在解決多步驟推理問題時,模型生成的思維鏈會模仿人類思維過程。這意味著額外的計(jì)算資源被分配給需要更多推理步驟的問題,可以進(jìn)一步增強(qiáng)GPT-4的表達(dá)和推理能力。
當(dāng)模型尺度增加到一定規(guī)模,思維鏈能力出現(xiàn)(來源:Google)
一般認(rèn)為模型的思維推理能力與模型參數(shù)大小有正相關(guān)趨勢,一般是突破一個臨界規(guī)模(大概62B,B代表10億),模型才能通過思維鏈提示的訓(xùn)練獲得相應(yīng)的能力。如果在6B以下,那很可能還只是GPT-2級別的初級模型。另外也有研究表明,在語言訓(xùn)練集中加入編程語言(例如Python編程代碼)可提升模型邏輯推理能力。具有思維鏈推理能力的GPT-4模型可用于簡單數(shù)學(xué)問題、符號操作和常識推理等任務(wù)。
多模態(tài)思維鏈框架(來源:微軟)
GPT-4的多模態(tài)思維鏈?zhǔn)峭ㄟ^觀察大量的多模態(tài)數(shù)據(jù)來學(xué)習(xí)內(nèi)在表示,然后利用這個表示來生成連續(xù)的語言輸出的機(jī)制。這個過程是通過模型的訓(xùn)練、內(nèi)在表示的構(gòu)建和語言輸出的生成三個步驟來實(shí)現(xiàn)的。
1.3 編程范式——多模態(tài)提示工程
多模態(tài)大模型(如GPT-4)的提示工程(Prompt Engineering)是指根據(jù)特定的目標(biāo)和語境設(shè)計(jì)出一系列問題或任務(wù),以便使用大模型生成有關(guān)主題或主題領(lǐng)域的連貫和有意義的文本。提示工程的目標(biāo)是通過精心設(shè)計(jì)提示以從模型中引出所需的響應(yīng),來提高生成文本的質(zhì)量和相關(guān)性。提示工程與思維鏈的產(chǎn)生密不可分,也是目前自然語言編程的理論基礎(chǔ)。
語言模型的4種研究范式(來源:卡內(nèi)基梅隆大學(xué))
大概在2017-2019年間,語言模型的研究重心逐漸從傳統(tǒng)特定領(lǐng)域的有監(jiān)督學(xué)習(xí)模式(基于非神經(jīng)網(wǎng)絡(luò)或神經(jīng)網(wǎng)絡(luò))轉(zhuǎn)移到預(yù)訓(xùn)練模型上。在那時,基于預(yù)訓(xùn)練語言模型的研究范式通常是“預(yù)訓(xùn)練+精調(diào)”(Pre-train+Fine-tune),即在精調(diào)階段,根據(jù)下游任務(wù)對預(yù)訓(xùn)練模型進(jìn)行微調(diào),以獲得更好效果。
但是由于模型越來越大,以及預(yù)訓(xùn)練階段和下游任務(wù)之間的差距可能很大,對各個細(xì)分領(lǐng)域Fine-tune的計(jì)算資源要求、訓(xùn)練數(shù)據(jù)需求和時間成本也在快速上漲。大量爆發(fā)的下游任務(wù)也使得175B這個級別模型預(yù)訓(xùn)練和精調(diào)變得異常復(fù)雜。在這種背景下,隨著GPT-3的發(fā)布,提示工程成為了預(yù)訓(xùn)練模型的新方向。形象的說,提示有點(diǎn)類似于老師在學(xué)生回答問題時指點(diǎn)回答方向。
提示方法(來源:卡內(nèi)基梅隆大學(xué))
GPT-4/GPT-3模型中提示的新范式可歸納為“預(yù)訓(xùn)練+提示+預(yù)測”(Pre-train+Prompt+Predict)。在這一范式中,各種下游任務(wù)被調(diào)整為類似預(yù)訓(xùn)練任務(wù)的形式。通過選取合適的提示,使用者可以控制模型預(yù)測輸出,從而一個完全預(yù)訓(xùn)練模型可以被用來解決多樣的下游任務(wù)。
這里舉一個填充提示的簡單例子。(上圖)我們從輸入x(比如電影評論)開始,然后輸出期望值y。其中一個任務(wù)是使用提示函數(shù)重新模板化此輸入,其輸出表示為x'。此時語言模型的任務(wù)僅僅是預(yù)測z值(句子中的一個詞)來代替占位符Z。然后對于Z被答案填充的提示,我們將其稱為填充提示。通過這一提示方式,在對應(yīng)細(xì)分場景下,語言模型將原來的問題的期望值y(一句話)簡化為答案z(一個詞)的計(jì)算,明顯降低了應(yīng)答的復(fù)雜度。
提示工程使得GPT-3模型在訓(xùn)練樣本較少時獲得了更高精度(來源:OpenAI)
而GPT-4則針對多模態(tài)數(shù)據(jù)集,設(shè)計(jì)了對應(yīng)的提示。GPT-4的提示工程涉及幾個步驟,包括選擇合適的模型架構(gòu)和參數(shù)、設(shè)計(jì)提示格式和結(jié)構(gòu)、選擇合適的任務(wù)和訓(xùn)練數(shù)據(jù),以及使用選定的提示和數(shù)據(jù)微調(diào)模型。更多GPT-4的提示細(xì)節(jié)還需等待OpenAI發(fā)布。
多模態(tài)提示示例(來源:微軟)
提示工程同時也提高了語言模型“可操縱性”,即模型根據(jù)用戶要求更改其行為的能力。例如,用戶可以命令GPT-4以不同的風(fēng)格、語氣或內(nèi)容特征來回答。例如“你是一個嘮叨的數(shù)據(jù)專家”或“你是一個言簡意賅的數(shù)據(jù)專家”來開始提示,讓模型解釋一個數(shù)據(jù)科學(xué)概念。這里“嘮叨”和“言簡意賅”操縱了模型回答的語言量。
1.4 關(guān)鍵技術(shù)——人類反饋強(qiáng)化學(xué)習(xí)
GPT-4/ChatGPT與GPT-3.5的主要區(qū)別在于,新加入了被稱為RLHF(Reinforcement
Learning from Human Feedback,人類反饋強(qiáng)化學(xué)習(xí))的技術(shù)。這一訓(xùn)練范式增強(qiáng)了人類對模型輸出結(jié)果意向(Intent)的調(diào)節(jié),并且對結(jié)果進(jìn)行了更具理解性的排序。
OpenAI在其早期的學(xué)術(shù)報(bào)告中公開表示,與人類偏好保持一致,是許多領(lǐng)域人工智能研究和部署的核心組成部分。OpenAI希望通過RLHF技術(shù),模型能傾向出高質(zhì)量回答,確保模型輸出對人類有益,進(jìn)而保證模型的安全性。就筆者團(tuán)隊(duì)分析來看,RLHF也是保持多輪對話不偏離主題的關(guān)鍵保障。
GPT-4/ChatGPT最初引入人類標(biāo)記員的主要目的是加快訓(xùn)練速度和質(zhì)量。盡管強(qiáng)化學(xué)習(xí)技術(shù)在很多領(lǐng)域有突出表現(xiàn),但是仍然存在著許多不足,例如訓(xùn)練收斂速度慢,訓(xùn)練成本高等特點(diǎn)。特別是現(xiàn)實(shí)世界中,許多任務(wù)的探索成本或數(shù)據(jù)獲取成本很高。如何加快訓(xùn)練效率,是如今強(qiáng)化學(xué)習(xí)任務(wù)待解決的重要問題之一。
TAMER架構(gòu)在強(qiáng)化學(xué)習(xí)中的應(yīng)用
這里以TAMER(Training an Agent Manually via Evaluative Reinforcement,評估式強(qiáng)化人工訓(xùn)練代理)框架為例。該框架將人類標(biāo)記員引入到模型代理(Agents)的學(xué)習(xí)循環(huán)中,可以通過人類向代理提供獎勵反饋(即指導(dǎo)Agents進(jìn)行訓(xùn)練),從而快速達(dá)到訓(xùn)練任務(wù)目標(biāo)。
GPT-4的多模態(tài)獎勵模型(RM)是小號的有監(jiān)督精調(diào)模型(SFT),但在頂部添加了一個新的線性層來預(yù)測獎勵。獎勵模型的輸入是原始輸入加上SFT模型生成的輸出。
在具體實(shí)現(xiàn)上,人類標(biāo)記員扮演對話的用戶和人工智能助手,提供多模態(tài)對話樣本,讓模型生成一些回復(fù),然后標(biāo)記者會對回復(fù)選項(xiàng)打分排名,將更好的結(jié)果反饋回模型中。代理(Agents)同時從兩種反饋模式中學(xué)習(xí)——人類強(qiáng)化和馬爾可夫決策過程獎勵作為一個整合的系統(tǒng),通過獎勵策略對模型進(jìn)行微調(diào)并持續(xù)迭代。
獎勵模型的過擬合導(dǎo)致模型性能下降(來源:OpenAI)
因?yàn)槟P蛢H僅從狹窄分布的訓(xùn)練數(shù)據(jù)中學(xué)習(xí),所以GPT-4中獎勵模型只是人類偏好的部分表征(管中窺豹),過度的訓(xùn)練反而可能導(dǎo)致獎勵模型過擬合(以偏見代替整體),并導(dǎo)致模型訓(xùn)練效果的下降。另一方面,模型的人類標(biāo)注員可能也無法代表用戶所在地區(qū)人群的總體偏好。
1.5 安全技術(shù)——基于規(guī)則的獎勵模型
安全是大模型商用的關(guān)鍵要素,OpenAI也投入了大量資源來提高GPT-4的安全性和一致性。包括引入領(lǐng)域?qū)<疫M(jìn)行對抗性測試和紅隊(duì)測試,模型輔助的安全流水線以及安全指標(biāo)的改進(jìn)。OpenAI引入的領(lǐng)域安全專家達(dá)到了50多人,覆蓋AI一致性風(fēng)險(xiǎn)、網(wǎng)絡(luò)安全、生物風(fēng)險(xiǎn)等領(lǐng)域。
與ChatGPT一樣,GPT-4也使用了強(qiáng)化學(xué)習(xí)和人類反饋(RLHF)來微調(diào)模型的行為,以產(chǎn)生更符合用戶意圖的響應(yīng)。但當(dāng)給定不安全的輸入時,模型可能會生成不良內(nèi)容,例如提供有關(guān)犯罪的建議。另外,模型也可能對安全輸入變得過于謹(jǐn)慎,拒絕無害的請求。
GPT-4的安全流水線包括兩個主要部分:一組額外的安全相關(guān)RLHF訓(xùn)練提示,以及基于規(guī)則的獎勵模型。
基于規(guī)則的獎勵模型(Rule-based Reward Model,RBRM)是一組zero-shot迷你GPT-4分類器,根據(jù)預(yù)定義的規(guī)則為特定動作或事件分配獎勵。在這種模型中,獎勵是根據(jù)事先定義的一組規(guī)則確定的,而不是從數(shù)據(jù)中學(xué)習(xí)得到的。這些分類器在RLHF微調(diào)期間為GPT-4策略模型提供額外的獎勵信號,以正確的輸出行為為目標(biāo)進(jìn)行訓(xùn)練,例如拒絕生成有害內(nèi)容或不拒絕無害的請求。
基于規(guī)則的獎勵模型(來源:日本國立信息學(xué)研究所)
很多早期的NLP模型和軟件就是基于規(guī)則的(包括各種早期的智能音箱/”人工智障”),但這類模型在泛化場景下表現(xiàn)不佳,只能回答相對固定的問題,并不具備現(xiàn)在的大語言模型的涌現(xiàn)能力。
GPT-4中使用RBRM的目的是充分借助其優(yōu)勢,即模型中使用的規(guī)則可以簡單實(shí)用一些,建立成本低于常規(guī)獎勵模型。例如,在象棋等游戲中,規(guī)則可能很簡單。在更復(fù)雜的情況下,規(guī)則可能相對復(fù)雜,例如為實(shí)現(xiàn)特定目標(biāo)或達(dá)到一定的性能水平授予獎勵,但總體來說比構(gòu)建獎勵模型的訓(xùn)練數(shù)據(jù)集成本更低。
規(guī)則獎勵模型通常用于強(qiáng)化學(xué)習(xí),其中代理被訓(xùn)練為采取最大化獎勵信號的行動。在這種情況下,規(guī)則獎勵模型基于代理是否遵循特定規(guī)則或?qū)崿F(xiàn)特定目標(biāo),為代理分配獎勵。
規(guī)則獎勵模型的優(yōu)點(diǎn)允許更多地控制學(xué)習(xí)過程。通過事先指定規(guī)則,開發(fā)人員可以引導(dǎo)學(xué)習(xí)過程,使其專注于特定的行為或結(jié)果。
基于規(guī)則的獎勵模型在樣本較少情況下表現(xiàn)出較好性能(來源:Meta AI)
基于規(guī)則的獎勵模型的主要特點(diǎn)如下:
1、規(guī)則的可定義性:根據(jù)預(yù)先定義的規(guī)則來為模型的輸出分配獎勵。這些規(guī)則通常由領(lǐng)域?qū)<一蚋哔|(zhì)量的人類標(biāo)注員制定,以確保獎勵與任務(wù)目標(biāo)和期望行為保持一致。
2、規(guī)則的可解釋性:獎勵模型依賴于明確的規(guī)則,這些一般具有較高的可讀性和可解釋性。以方便開發(fā)人員解讀和調(diào)試模型。
3、規(guī)則的可調(diào)整性:通過修改或添加新的規(guī)則,可以相對容易地調(diào)整獎勵函數(shù),以適應(yīng)不同的任務(wù)和環(huán)境或更復(fù)雜的規(guī)則。
基于規(guī)則的獎勵模型也存在一些局限性,包括:
1、缺乏場景泛化能力:因?yàn)榛谝?guī)則的獎勵模型嚴(yán)重依賴于預(yù)先定義的規(guī)則,可能在未知或新的情況下泛化能力較弱,這可能導(dǎo)致模型在面對新的情況時出現(xiàn)幻覺現(xiàn)象或無法做出合適的應(yīng)答。
2、規(guī)則設(shè)計(jì)的復(fù)雜性:例如對于復(fù)雜任務(wù),設(shè)計(jì)適當(dāng)?shù)囊?guī)則有可能非常耗時。此外,如果規(guī)則過于復(fù)雜或內(nèi)部自相矛盾,可能導(dǎo)致模型訓(xùn)練不出有效的策略。
3、規(guī)則的學(xué)習(xí)效率有下降可能:由于模型需要在給定的規(guī)則集合中探索最佳策略,在規(guī)則設(shè)計(jì)不理想的情況下,基于規(guī)則的獎勵模型可能導(dǎo)致較低的學(xué)習(xí)效率或過擬合。
1.6 優(yōu)化技術(shù)——近端策略優(yōu)化(PPO)算法
GPT-4/ChatGPT中的近端策略優(yōu)化(Proximal Policy Optimization,PPO)算法是一種高效的強(qiáng)化學(xué)習(xí)優(yōu)化策略算法,由OpenAI的John Schulman等人于2017年提出。在GPT-4/ChatGPT里的使用應(yīng)該算是新瓶裝舊酒。
PPO的前輩TRPO(Trust Region Policy Optimization)相對復(fù)雜,并且與包含噪聲(例如Dropout)或參數(shù)共享(在策略和價(jià)值函數(shù)之間,或輔助任務(wù))的架構(gòu)不兼容。PPO算法試圖解決上述問題,以及計(jì)算復(fù)雜性和難以調(diào)整的超參數(shù)。PPO通過簡化優(yōu)化問題并限制策略更新的幅度,實(shí)現(xiàn)了更高效、更穩(wěn)定的學(xué)習(xí)過程,具有實(shí)現(xiàn)簡單、能同時處理離散\連續(xù)動作空間問題、可大規(guī)模訓(xùn)練等優(yōu)勢。
PPO算法與同類其他算法的比較(來源:OpenAI)
PPO算法衍生于早期的策略梯度(Policy Gradient)算法,但通過一些技巧改進(jìn)了其性能和穩(wěn)定性,能夠處理連續(xù)動作空間的問題。PPO在策略更新時限制新策略與舊策略之間的差異,從而確保策略改進(jìn)的穩(wěn)定性。這通過在目標(biāo)函數(shù)中引入一個“代理”目標(biāo)函數(shù)來實(shí)現(xiàn),該代理目標(biāo)函數(shù)限制了新策略和舊策略之間的KL散度。
PPO算法的核心思想是在每次迭代中,通過一種稱為近端策略優(yōu)化(Proximal Policy Optimization)的方法來更新策略參數(shù),以最大化預(yù)期收益。具體來說,PPO算法采用兩個神經(jīng)網(wǎng)絡(luò)來表示模型的策略:一個執(zhí)行動作(Actor),另一個處理獎勵(Critic)。在每次迭代中,PPO算法會從環(huán)境中采樣一批經(jīng)驗(yàn)數(shù)據(jù),并使用這些數(shù)據(jù)來更新策略參數(shù)和價(jià)值參數(shù)。更新的策略將被ε-clip到一個小區(qū)域,以防止可能具有不可恢復(fù)危害的巨大更新。換句話說,優(yōu)化的步伐不能太大也不能過小。
PPO算法的主要特點(diǎn)如下:
1)裁剪的目標(biāo)函數(shù):PPO通過裁剪策略比率(新策略概率與舊策略概率之比)來限制更新幅度。這種裁剪保證了新策略在舊策略的附近,使得更新更加穩(wěn)定。
2)重要度采樣:PPO利用重要度采樣來估計(jì)策略梯度,從而可以重復(fù)使用之前的經(jīng)驗(yàn)來更新策略。這使得PPO在數(shù)據(jù)效率上更具優(yōu)勢。
3)多次更新:PPO算法在每次收集一批數(shù)據(jù)后,對策略進(jìn)行多次更新。這可以提高算法的收斂速度和穩(wěn)定性。
4)簡化的優(yōu)化問題:相比于其他方法,如TRPO,PPO算法將優(yōu)化問題簡化為一階優(yōu)化問題,這大大減少了計(jì)算復(fù)雜性。
1.7 安全技術(shù)——多模態(tài)幻覺檢測
大型語言模型(Large Language Model,LLM)的幻覺(Hallucination)指的是模型生成的輸出包含一些與輸入不符合的信息,這些信息可能是錯誤的、無關(guān)的或者荒謬的。與人類直覺相反,隨著模型變得更加以假亂真,幻覺會變得更加危險(xiǎn)。GPT-4等模型的這種幻覺可能會出現(xiàn)在各種類型的任務(wù)中,比如文本生成、圖文分析和問答系統(tǒng)等。
由于大模型(包括GPT-4)本質(zhì)上可以視為訓(xùn)練集(人類知識/語言)的有損壓縮,因此在模型運(yùn)行時無法完整復(fù)現(xiàn)或者應(yīng)答原始知識,從而模型的幻覺來自于信息壓縮的偏差。多模態(tài)幻覺的本質(zhì)是這種有損壓縮偏差的體現(xiàn),也是通過數(shù)學(xué)逼近人類語言的必然代價(jià)。(類似于壓縮后的圖像邊緣出現(xiàn)不正常的條紋)。
大語言模型可視為知識/語言的有損壓縮
幻覺包括以下幾類:
1、含義相關(guān)性(Semantic Relatedness)的幻覺:模型生成的輸出可能包含與輸入語境無關(guān)或不相關(guān)的單詞或短語,這些單詞或短語通常是通過模型之前接觸過的文本來學(xué)習(xí)的。
2、語義擴(kuò)張(Semantic Expansion)的幻覺:模型生成的輸出可能包含與輸入語境相關(guān)但是過于具體或者過于抽象的內(nèi)容,這些內(nèi)容也可能是通過模型之前接觸過的文本來學(xué)習(xí)的。
3、結(jié)構(gòu)錯誤(Structural Errors)的幻覺:模型生成的輸出可能不符合正確的語言表達(dá)或句子結(jié)構(gòu),這些錯誤可能是由于模型在生成時遺漏了某些信息,或者將不相關(guān)的信息結(jié)合在一起導(dǎo)致的。
為了降低幻覺出現(xiàn)的概率,改善模型質(zhì)量,Meta AI提出一種幻覺內(nèi)容檢測機(jī)制。通過檢測生成內(nèi)容中的幻覺令牌/單詞,對生成內(nèi)容的真實(shí)度進(jìn)行評估,以減少模型幻覺出現(xiàn)的概率。從GPT-4的幻覺減少比率來看,猜測類似該技術(shù)的方法或已應(yīng)用在GPT-4中。
通過幻覺單詞檢測器減少幻覺(來源:Meta AI)
幻覺是GPT-4等大型語言模型中一個重要的問題,通過不斷的優(yōu)化模型和改進(jìn)訓(xùn)練方法,或增加多模態(tài)幻覺語義檢測器,研究人員可以逐步提高模型的準(zhǔn)確性和穩(wěn)定性,從而更好地滿足各種自然語言處理任務(wù)的需求。
1.8 模型信息——關(guān)于模型大小
目前OpenAI還沒有發(fā)布GPT-4模型大小和結(jié)構(gòu)的具體信息。GPT-4的技術(shù)報(bào)告也沒有透露這些技術(shù)細(xì)節(jié),訓(xùn)練數(shù)據(jù)或訓(xùn)練方法也沒有相關(guān)信息釋放出來。大模型的商業(yè)化競爭正愈演愈烈。
Bing反饋的GPT-4模型大小
GPT-3是目前最大的知名語言模型之一,包含了1750億(175B)個參數(shù)。在GPT-3發(fā)布之前,最大的語言模型是微軟的Turing NLG模型,大小為17億(1.7B)個參數(shù)。在GPT-3發(fā)布后不久,OpenAI團(tuán)隊(duì)就曾表示他們計(jì)劃在未來幾年內(nèi)研發(fā)更大的模型。而隨著技術(shù)和算法的不斷發(fā)展,GPT-4模型似乎也應(yīng)朝著更大的尺寸發(fā)展。
另外,GPT-4的上下文窗口尺寸也較GPT-3.5和GPT-3增大了不少。2020年發(fā)布的GPT-3模型上下文窗口為2049個令牌。在GPT-3.5中,窗口增加到4096個令牌(約3頁單行英文文本)。GPT-4有兩種尺寸。其中一個(GPT-4-8K)的上下文窗口大小為8192個令牌,另一個(GPT-4-32K)可以處理多達(dá)32768個令牌,大約50頁文本。
有傳言說GPT-4模型大概是GPT-3的100倍或1000倍。從訓(xùn)練的角度看,這么大的模型膨脹可能會消耗更多的訓(xùn)練資源和訓(xùn)練周期的過度延長。
GPT-4與GPT-3.5的執(zhí)行速度對比(來源:ARK投資)
根據(jù)ARK的分析,GPT-4的執(zhí)行時間大概是GPT-3.5的3.7倍。由此我們初步估算GPT-4的文本語言部分的大小大約是62B-650B之間。根據(jù)目前GPT模型性能的發(fā)展趨勢,以及多模態(tài)技術(shù)的加持,預(yù)計(jì)GPT-4的模型參數(shù)大概為62B-1500B之間。
02 .
GPT-4的原理是什么?
GPT-4這一代,是嚴(yán)格意義上的多模態(tài)模型,可以支持圖像和文字兩類信息的同時輸入。之前的ChatGPT多模態(tài)感知是實(shí)現(xiàn)通用人工智能的必要條件,無論是知識/能力獲取還是與現(xiàn)實(shí)物理世界的交互。之前的ChatGPT就像AI蒙上雙眼在那里盲答,而多模態(tài)就是AI一邊看一邊思考。多模態(tài)技術(shù)將語言模型的應(yīng)用拓寬了到更多高價(jià)值領(lǐng)域,例如多模態(tài)人機(jī)交互、文檔處理和機(jī)器人交互技術(shù)。
在GPT-4中,多模態(tài)輸入的圖像和文本基于Transformer作為通用接口,圖形感知模塊與語言模塊對接進(jìn)行進(jìn)一步計(jì)算。通過在多模態(tài)語料庫上訓(xùn)練模型,包括文本數(shù)據(jù)、任意交錯的圖像和文本,以及圖像-字幕對,可以使模型獲得原生支持多模態(tài)任務(wù)的能力。
下面先介紹GPT家族,然后引申到GPT-4的多模態(tài)架構(gòu)和獨(dú)特性。
2.1 從GPT-1到ChatGPT
說到GPT-4,就不得不提到GPT家族。GPT之前有幾個的前輩,包括GPT-1、GPT-2和GPT-3和ChatGPT。GPT家族與BERT模型都是知名的NLP模型族,都基于Transformer技術(shù)。GPT-1只有12層,而到了GPT-3,則增加到96層。GPT-4增加了額外的視覺語言模塊,理論上具有更大的模型尺寸和輸入窗口。
視覺與語言Transformer技術(shù)的演進(jìn)
GPT和BERT之前的時代
最早的NLP技術(shù)是基于規(guī)則的,即基于特定的規(guī)則使用程序進(jìn)行固定模式的對話,所有的應(yīng)答都是固定模式的。在深度學(xué)習(xí)誕生后,NLP技術(shù)逐漸進(jìn)入基于模型的時代。文本生成是通過遞歸神經(jīng)網(wǎng)絡(luò)(RNN)或各種長短時記憶神經(jīng)網(wǎng)絡(luò)(LSTM)實(shí)現(xiàn)的。這些模型能夠較好的進(jìn)行模式識別,在輸出單個單詞或短語方面表現(xiàn)良好,但無法生成高精度的多輪對話,更無法實(shí)現(xiàn)邏輯推理能力。
GPT-1模型的Transformer結(jié)構(gòu)
2018年6月,OpenAI發(fā)表了GPT-1,GPT家族首次登上歷史舞臺。GPT-1模型訓(xùn)練使用了BooksCorpus數(shù)據(jù)集。訓(xùn)練主要包含兩個階段:第一個階段,先利用大量無標(biāo)注的語料預(yù)訓(xùn)練一個語言模型,接著,在第二個階段對預(yù)訓(xùn)練好的語言模型進(jìn)行精調(diào),將其遷移到各種有監(jiān)督的NLP任務(wù)。也就是前面提到過的“預(yù)訓(xùn)練+精調(diào)”模式。
GPT-1的核心是Transformer。Transformer在數(shù)學(xué)上是大矩陣的計(jì)算,通過計(jì)算不同語義之間的關(guān)聯(lián)度(概率)來生成具有最高概率的語義反饋。
GPT-1著重解決兩個問題:
1)通過無監(jiān)督訓(xùn)練解決需要大量高質(zhì)量標(biāo)注數(shù)據(jù)的問題。
2)通過大量語料訓(xùn)練解決訓(xùn)練任務(wù)的泛化問題。
BERT與GPT的技術(shù)基本架構(gòu)對比(圖中En為輸入的每個字,Tn為輸出回答的每個字)
GPT-2
2019年,OpenAI發(fā)表了另一篇關(guān)于他們最新模型GPT-2的論文(Language Models are Unsupervised Multitask Learners)。該模型開源并在一些NLP任務(wù)中開始使用。相對GPT-1,GPT-2是泛化能力更強(qiáng)的詞向量模型,盡管并沒有過多的結(jié)構(gòu)創(chuàng)新,但是訓(xùn)練數(shù)據(jù)集(WebText,來自于Reddit上高贊的文章)和模型參數(shù)量更大。目前很多開源的GPT類模型是基于GPT-2進(jìn)行的結(jié)構(gòu)修改或優(yōu)化。
GPT-3
2020年6月,OpenAI發(fā)表了另一篇關(guān)于GPT-3模型的論文(Language Models are Few-Shot Learners)。該模型的參數(shù)是GPT-2的100倍(175B),并且在更大的文本數(shù)據(jù)集(低質(zhì)量的Common Crawl,高質(zhì)量的WebText2,Books1,Books2和Wikipedia)上進(jìn)行訓(xùn)練,從而獲得更好的模型性能。GPT-3實(shí)際上由多個版本組成的第3代家族,具有不同數(shù)量的參數(shù)和所需的計(jì)算資源。包括專門用于代碼編程的code系列。GPT-3的后繼知名版本包括InstructGPT和ChatGPT。
GPT-3家族
GPT-3.5/ChatGPT
2022年3月15日,OpenAI發(fā)布了名為“text-davinci-003”的新版GPT-3,該模型被描述為比以前版本的GPT更強(qiáng)大。目前有若干個屬于GPT-3.5系列的模型分支,其中code-davinci針對代碼完成任務(wù)進(jìn)行了優(yōu)化。
ChatGPT是基于GPT-3.5(Generative Pre-trained Transformer 3.5)架構(gòu)開發(fā)的對話AI模型,是InstructGPT的兄弟模型。ChatGPT很可能是OpenAI在GPT-4正式推出之前的演練,或用于收集大量對話數(shù)據(jù)。
OpenAI使用RLHF(Reinforcement Learning from Human Feedback,人類反饋強(qiáng)化學(xué)習(xí))技術(shù)對ChatGPT進(jìn)行了訓(xùn)練,且加入了更多人工監(jiān)督進(jìn)行微調(diào)。
ChatGPT具有以下特征:
1)可以主動承認(rèn)自身錯誤。若用戶指出其錯誤,模型會聽取意見并優(yōu)化答案。
2)ChatGPT可以質(zhì)疑不正確的問題。例如被詢問“哥倫布2015年來到美國的情景”的問題時,機(jī)器人會說明哥倫布不屬于這一時代并調(diào)整輸出結(jié)果。
3)ChatGPT可以承認(rèn)自身的無知,承認(rèn)對專業(yè)技術(shù)的不了解。
4)支持連續(xù)多輪對話。
與大家在生活中用到的各類智能音箱和“人工智障”不同,ChatGPT在對話過程中會記憶先前使用者的對話訊息,即上下文理解,以回答某些假設(shè)性的問題。ChatGPT可實(shí)現(xiàn)連續(xù)對話,極大的提升了對話交互模式下的用戶體驗(yàn)。
從GPT-1到GPT-4的對比(含BERT,筆者團(tuán)隊(duì)繪制)
2.2 GPT-4的多模態(tài)架構(gòu)
到了GPT-4,技術(shù)內(nèi)涵產(chǎn)生的飛躍其實(shí)超過了ChatGPT。有些人認(rèn)為GPT-4僅僅是GPT-3.5的升級優(yōu)化,這其實(shí)是一種誤解。大部分人可能還未看到GPT-4帶來的巨大影響。
人類或其他高等生物的認(rèn)知能力通常與從多種模式中學(xué)習(xí)有關(guān)。例如,蘋果這一概念包括從視覺和語言獲得的多重語義。包括蘋果的顏色、形狀、紋理以及吃蘋果的聲音,蘋果在詞典或其他網(wǎng)絡(luò)媒體的相應(yīng)定義等等。我們大多數(shù)人在學(xué)習(xí)認(rèn)字的時候,也是先看到蘋果的卡片圖像,然后再記住對應(yīng)的文字。
與BERT模型類似,GPT-4之前的ChatGPT或GPT-3.5都是根據(jù)輸入語句,根據(jù)語言/語料概率來自動生成回答的每一個字(詞語)。從數(shù)學(xué)或從機(jī)器學(xué)習(xí)的角度來看,語言模型是對詞語序列的概率相關(guān)性分布的建模,即利用已經(jīng)說過的語句(語句可以視為數(shù)學(xué)中的向量)作為輸入條件,預(yù)測下一個時刻不同語句甚至語言集合出現(xiàn)的概率分布。包括“蘋果”在GPT-3.5和之前的GPT中只是單純的語義符號和概率。
GPT-4等模型新出現(xiàn)的多模態(tài)輸入的能力對語言模型至關(guān)重要,使得“蘋果”等單純的符號語義擴(kuò)展為更多的內(nèi)涵。第一,多模態(tài)感知使語言模型能夠獲得文本描述之外的常識性知識。第二,感知與語義理解的結(jié)合為新型任務(wù)提供了可能性,例如機(jī)器人交互技術(shù)和多媒體文檔處理。第三,通過感知統(tǒng)一了接口。圖形界面其實(shí)是最自然和高效的人機(jī)自然交互方式。多模態(tài)大語言模型可通過圖形方式直接進(jìn)行信息交互,提升交互效率。
多模態(tài)模型可以從多種來源和模式中學(xué)習(xí)知識,并使用模態(tài)的交叉關(guān)聯(lián)來完成任務(wù)。通過圖像或圖文知識庫學(xué)習(xí)的信息可用于回答自然語言問題;從文本中學(xué)到的信息也可在視覺任務(wù)中使用。
截至2023年初,多模態(tài)大模型正經(jīng)歷將圖文信息進(jìn)行對齊,進(jìn)行模態(tài)認(rèn)知管理,進(jìn)一步形成多模態(tài)決策或生成。常見的多模態(tài)大模型包括:
1)圖像描述生成或文本生成圖像。例如最近知名的CLIP、Stable Diffusion。
2)圖文問答。例如帶有圖示的物理題求解或圖表分析。
3)文本到圖像或圖像到文本的檢索。
4)視頻流描述。
多模態(tài)模型的5種典型結(jié)構(gòu)(來源:深圳鵬城實(shí)驗(yàn)室)
根據(jù)鵬城實(shí)驗(yàn)室新發(fā)出的論文歸納,目前常見的多模態(tài)模型架構(gòu)主要包括以下幾種:
1)合并注意力架構(gòu)(Merge-attention):如上圖(a),多個輸入模態(tài)調(diào)整為同一的特征表示,多個模態(tài)的特征在自注意力之前被合并,共同進(jìn)入Transformer。
2)共同注意力架構(gòu)(Co-attention):如上圖(b),每個輸入模態(tài)都具備私有自注意力通道,用于模態(tài)獨(dú)立特征的導(dǎo)入,然后再使用共同的交叉注意力層融合多模態(tài)特征。
3)交叉注意力架構(gòu)(Cross-attention):對于多模態(tài)任務(wù),將圖像與語言分別結(jié)合,實(shí)現(xiàn)圖文信息的相互嵌入與問答。
4)三角Transformer架構(gòu)(Tangled-transformer):使用三組Transformer模塊同時處理動作、圖形對象和語言特征,通過特定的三角連接關(guān)系,注入其他模態(tài)的Transformer網(wǎng)絡(luò),以不同模態(tài)的信息融合。
5)模態(tài)間對比學(xué)習(xí)架構(gòu)(Inter-Modality Contrastive Learning):不同模態(tài)的信息被分解,通過矩陣結(jié)構(gòu)建立多模態(tài)對比學(xué)習(xí)關(guān)聯(lián)。
目前評估OpenAI采用該種交叉注意力架構(gòu)的研發(fā)GPT-4的代價(jià)最小,可以大幅度使用ChatGPT中已經(jīng)構(gòu)建的語言模塊。從筆者團(tuán)隊(duì)的分析看,GPT-4很有可能正是采用這類架構(gòu)。
2.3 GPT-4的獨(dú)特性
GPT-4是最新且最先進(jìn)的OpenAI多模態(tài)大模型。并在多個基準(zhǔn)任務(wù)上取得了非常好的成績,包括圖像字幕、圖文問答、代碼生成和法律推理。優(yōu)秀的圖文分析和邏輯推理能力鑄就了GPT-4的護(hù)城河。
GPT-4在大部分任務(wù)上優(yōu)于人類水平平均值(來源:LifeArchitect)
GPT-4能夠生成比GPT-3.5或其他語言模型更符合事實(shí)的準(zhǔn)確陳述,確保更高的可靠性和可信度。GPT-4也可接受圖文信息作為輸入并生成說明、分類和分析。
盡管GPT-4已經(jīng)投入商業(yè)使用,但大多數(shù)用戶仍需要等待圖文能力的正式開放。
GPT-4與其他大模型的比較(來源:Janna Lipenkova)
03 .
GPT-4訓(xùn)練技術(shù)分析
3.1 GPT-4訓(xùn)練數(shù)據(jù)集
GPT-4的訓(xùn)練數(shù)據(jù)集是基于GPT-3和GPT-3.5的訓(xùn)練數(shù)據(jù)集構(gòu)建的,并在兩者基礎(chǔ)上增加了多模態(tài)數(shù)據(jù)集。僅當(dāng)時GPT-3.5的訓(xùn)練數(shù)據(jù)收集就是由一項(xiàng)艱巨且重要的任務(wù):數(shù)據(jù)集貢獻(xiàn)來自一個由30-50名OpenAI員工組成的團(tuán)隊(duì),并另外從第三方網(wǎng)站雇傭了固定的大約50-100名固定的標(biāo)注員。到了GPT-4又增加了大量多模態(tài)數(shù)據(jù)。
GPT-4數(shù)據(jù)集構(gòu)成(預(yù)測)
OpenAI在預(yù)訓(xùn)練階段過濾GPT-4的數(shù)據(jù)集組合,以專門減少不適當(dāng)?shù)奈谋緝?nèi)容的數(shù)量。并通過結(jié)合內(nèi)部訓(xùn)練的分類器和基于詞典的方法來識別含有不當(dāng)內(nèi)容的數(shù)據(jù)。
其中來自GPT-3的預(yù)訓(xùn)練數(shù)據(jù)集包括約570GB(該大小為去重過濾后的,去重過濾前大概45TB)的CommonCrawl數(shù)據(jù),大概是410B字節(jié)對編碼的令牌,以及19B的WebText2數(shù)據(jù),合計(jì)67B的書籍?dāng)?shù)據(jù)和3B Wiki數(shù)據(jù)。這些數(shù)據(jù)被整合為約300B大小的GPT-3預(yù)訓(xùn)練數(shù)據(jù)集。其中Wiki數(shù)據(jù)質(zhì)量最高,在訓(xùn)練中平均被重復(fù)使用了3.4次。
GPT-3.5標(biāo)注員學(xué)歷和國籍構(gòu)成
GPT-3.5的數(shù)據(jù)集包括SFT數(shù)據(jù)集、RM數(shù)據(jù)集和PPO訓(xùn)練數(shù)據(jù)集。在最關(guān)鍵的SFT訓(xùn)練集中,標(biāo)注員撰寫比例為89.3%,100%由標(biāo)注員標(biāo)記。RM模型較小但是訓(xùn)練集數(shù)量更多,達(dá)到33K。
可以看出,無論是GPT-3還是GPT-3.5的訓(xùn)練集中,數(shù)據(jù)質(zhì)量的重要性都遠(yuǎn)超過數(shù)據(jù)的數(shù)量。(互聯(lián)網(wǎng)大廠或許只剩下資金、應(yīng)用和渠道優(yōu)勢?)其中訓(xùn)練GPT-3.5 175B SFT模型僅需要算力資源4.9 petaflops/s-days,訓(xùn)練GPT-3.5175B PPO-ptx模型需要60 petaflops/s-days,而預(yù)訓(xùn)練GPT-3卻需要3640 petaflops/s-days的算力資源,是175B PPO-ptx的60.7倍。極少量的高質(zhì)量標(biāo)注數(shù)據(jù)卻顯著提升了GPT-3.5的應(yīng)答能力。這就好比好的教材勝過大量普通書籍。
GPT-4的多模態(tài)訓(xùn)練數(shù)據(jù)集由圖片和文本共同構(gòu)成(一般是單幅圖片+多行文本)。根據(jù)GPT-4的技術(shù)報(bào)告,可以分析GPT-4的多模態(tài)數(shù)據(jù)集包括圖表推理、物理考試、圖像理解、論文總結(jié)、漫畫圖文等不同類型。目前GPT-4的多模態(tài)應(yīng)用還處于實(shí)驗(yàn)中,并未對公眾開放。
3.2 GPT-4訓(xùn)練流程分析
我們根據(jù)GPT-4的技術(shù)報(bào)告,初步分析其訓(xùn)練流程如下:
第一階段:構(gòu)建交叉注意力架構(gòu)預(yù)訓(xùn)練模型,收集數(shù)據(jù)并進(jìn)行有監(jiān)督策略精調(diào)
GPT-4模型是基于GPT-3.5構(gòu)建的,增加了視覺語言模型組件(在圖形Transformer階段完成的視覺預(yù)訓(xùn)練模型)。為了預(yù)訓(xùn)練模型在多模態(tài)領(lǐng)域進(jìn)行初步調(diào)優(yōu),首先會在文本數(shù)據(jù)集和多模態(tài)數(shù)據(jù)集中抽取問題,由人類標(biāo)注員,給出高質(zhì)量答案,然后用這些人工標(biāo)注好的數(shù)據(jù)來精調(diào)GPT-4初始模型(獲得SFT模型,Supervised Fine-Tuning)。
此時的SFT模型在遵循指令/對話方面已經(jīng)優(yōu)于GPT-3.5,但對多模態(tài)的解答不一定符合人類偏好。
GPT-4訓(xùn)練過程(基于GPT-4技術(shù)報(bào)告繪制)
第二階段:訓(xùn)練 獎勵模型 (RRM)和 基于規(guī)則的獎勵模型 (RBRM)
這一階段包括基于規(guī)則的獎勵模型(Rule-Based Reward Model,RBRM)和獎勵模型(Reward Mode,RM)
首先基于安全規(guī)則設(shè)計(jì)基于規(guī)則的獎勵模型并完成驗(yàn)證。這一模型與傳統(tǒng)NLP領(lǐng)域的規(guī)則模型設(shè)計(jì)方法一致。
然后在數(shù)據(jù)集中抽取問題,使用第一階段生成的模型,對于每個問題,生成多個不同的回答。人類標(biāo)注者對這些結(jié)果綜合考慮給出排名順序。(有點(diǎn)像互聯(lián)網(wǎng)企業(yè)的審圖師)
接下來,使用這個排序結(jié)果數(shù)據(jù)來訓(xùn)練GPT-4的獎勵模型。對多個排序結(jié)果,兩兩組合,形成多個訓(xùn)練數(shù)據(jù)對。RM模型接受一個輸入,給出評價(jià)回答質(zhì)量的分?jǐn)?shù)。這樣,對于一對訓(xùn)練數(shù)據(jù),調(diào)節(jié)參數(shù)使得高質(zhì)量回答的打分比低質(zhì)量的打分要高。這一過程類似于教練或老師輔導(dǎo)。
PPO算法示意(來源:澳大利亞Monash大學(xué))
第三階段:采用PPO(Proximal Policy Optimization,近端策略優(yōu)化)強(qiáng)化學(xué)習(xí)來優(yōu)化策略
PPO的核心思路在于將Policy Gradient中On-policy的訓(xùn)練過程轉(zhuǎn)化為Off-policy,即將在線學(xué)習(xí)轉(zhuǎn)化為離線學(xué)習(xí),這個轉(zhuǎn)化過程被稱之為Importance Sampling。這一階段利用第二階段訓(xùn)練好的獎勵模型和基于規(guī)則的獎勵模型,靠獎勵打分來更新預(yù)訓(xùn)練模型參數(shù)。
在GPT-4數(shù)據(jù)集中抽取問題,使用PPO模型生成回答,并用上一階段訓(xùn)練好的RM+RBRM模型給出質(zhì)量分?jǐn)?shù)。把回報(bào)分?jǐn)?shù)依次傳遞,由此產(chǎn)生策略梯度,通過強(qiáng)化學(xué)習(xí)的方式以更新PPO模型參數(shù)。
如果不斷重復(fù)第二和第三階段,通過迭代,會訓(xùn)練出更高質(zhì)量的GPT-4模型。整個訓(xùn)練的核心在于高質(zhì)量數(shù)據(jù)集/Prompt的構(gòu)建、思維鏈的訓(xùn)練技術(shù)、大算力工程能力、早期訓(xùn)練空間的預(yù)測和優(yōu)選。數(shù)據(jù)量反而不那么重要,并不是富裕人家的孩子看的電視劇越多,就越能夠考上好大學(xué)。
3.3 模型訓(xùn)練參數(shù)空間的早期篩選
這一部分講的是降低訓(xùn)練量的技術(shù),或者說是節(jié)約大量購買服務(wù)器的經(jīng)費(fèi)的技術(shù)。
據(jù)論文Scaling Laws for Neural Language Models (2020),可以通過三個要素計(jì)算通過交叉熵?fù)p失預(yù)估GPT-4/GPT-3.5預(yù)訓(xùn)練模型性能。這三個要素是模型參數(shù)數(shù)量、訓(xùn)練期間計(jì)算量以及訓(xùn)練數(shù)據(jù)大小。這三個因素與損失之間存在冪律關(guān)系。這意味須將計(jì)算量、數(shù)據(jù)和參數(shù)量增加10倍才能將損失減少一個單位,增加100倍才能將損失減少兩個單位,依此類推。
為了提升GPT模型性能(主要是精度),比較經(jīng)濟(jì)的做法是在相對少量的數(shù)據(jù)上訓(xùn)練較大的模型,并在更多的訓(xùn)練步驟或數(shù)據(jù)上投入更多的計(jì)算,以最大限度地減少精度損失。因此“大型預(yù)訓(xùn)練模型+少量高質(zhì)量標(biāo)注”成為當(dāng)前語言模型領(lǐng)域的主流。
縮放定律圖示(來源:OpenAI)
對于計(jì)算量每增加10倍,該論文大約建議將參數(shù)數(shù)量增加5倍,將訓(xùn)練令牌的數(shù)量增加2倍,將串行訓(xùn)練步驟的數(shù)量增加1.2倍。這也可以說明,GPT-3等模型越來越大,是從綜合訓(xùn)練成本考慮的。
縮放定律不僅影響到模型的設(shè)計(jì)要素,也影響到基于算力的訓(xùn)練策略。OpenAI開發(fā)了針對性的算力基礎(chǔ)設(shè)施和優(yōu)化方法,在多個尺度預(yù)測GPT-4模型的訓(xùn)練效果,從而能在只使用大概千分之一的算力消耗時提前探索GPT-4訓(xùn)練的解空間,而無需完全遍歷所有可能的訓(xùn)練參數(shù)設(shè)置。換句話說,投資人也可以提前預(yù)知自己投的創(chuàng)企大概能訓(xùn)練出多高精度的模型。
縮放定律可以量化為公式L(C) = aCb+ c,從而只要在每個參數(shù)模型的早期使用小一些的算力就可以擬合該曲線,提前估算在該訓(xùn)練參數(shù)集下能達(dá)到的模型精度。這一方法大大加速了GPT-4模型訓(xùn)練調(diào)優(yōu)的進(jìn)程。
較小算力模型準(zhǔn)確的預(yù)測了GPT-4的訓(xùn)練精度(來源:OpenAI)
4 GPT-4的算力基座
由GPT-4/ChatGPT及其下游需求,帶動了大量的模型設(shè)計(jì)與產(chǎn)業(yè)應(yīng)用需求,帶動了從服務(wù)器集群到大算力芯片的海量計(jì)算需求。這一需求業(yè)導(dǎo)致了A100 GPU的價(jià)格在近幾個月內(nèi)暴漲。那么,在多模態(tài)大模型逐漸火熱之后,GPU會是唯一的算力選擇嗎?GPU會不會導(dǎo)致模型企業(yè)同質(zhì)化競爭的加???
根據(jù)IDC預(yù)計(jì),到2026年AI推理的負(fù)載比例將進(jìn)一步提升至62.2%,特別是大模型將成為AI開發(fā)的新范式。
對于GPT-4等大模型設(shè)計(jì)或應(yīng)用企業(yè),算力的需求體現(xiàn)在如下三個細(xì)分階段。
1)GPT-4預(yù)訓(xùn)練與應(yīng)用微調(diào)階段。這一階段從無到有建立預(yù)訓(xùn)練模型,通過大量通用數(shù)據(jù)訓(xùn)練和驗(yàn)證預(yù)訓(xùn)練模型。(形成模型的“通識”)然后針對具體的商用或應(yīng)用場景的特定數(shù)據(jù),對預(yù)訓(xùn)練進(jìn)行針對性的微調(diào),加強(qiáng)對場景的應(yīng)答準(zhǔn)確度。在這一階段,一般需要超算級別或數(shù)十臺服務(wù)器來進(jìn)行一個大模型的訓(xùn)練計(jì)算,計(jì)算以大量矩陣計(jì)算和求解為主。這一階段的算力可通過上述的縮放定律來進(jìn)行預(yù)測和縮減不必要的訓(xùn)練參數(shù)集合所需的算力(非必要參數(shù)集分支大概可縮減到千分之一)。
2)GPT-4推理與部署階段。根據(jù)場景微調(diào)后的大模型,就可部署到實(shí)際生產(chǎn)環(huán)境中應(yīng)用。相對訓(xùn)練來說,部署要求的算力較低,但是基數(shù)很大。對于大量在線交互來說,部署階段的服務(wù)器/芯片成本要遠(yuǎn)遠(yuǎn)超過訓(xùn)練階段。在這一階段,每臺AI服務(wù)器可以部署一個GPT-4模型,集群上會有大量服務(wù)器進(jìn)行并行的網(wǎng)絡(luò)服務(wù),計(jì)算以大量矩陣計(jì)算和存儲調(diào)度為主。同時,在這些場景下,特別是端側(cè)應(yīng)用場景,也會有硬件性價(jià)比和反應(yīng)延遲的特定要求,目前的GPU就不一定適合。
3)GPT-4模型迭代的微調(diào)階段。每使用一段時間,就會根據(jù)使用者或者客戶反饋,對模型進(jìn)行調(diào)整,以提高客戶滿意度,特別是提升模型的安全度以確保合規(guī)。這個過程就是模型迭代的過程,一般相當(dāng)于小規(guī)模的訓(xùn)練,訓(xùn)練所用的數(shù)據(jù)規(guī)模不大,計(jì)算以大量矩陣計(jì)算和求解為主。
04 .
GPT-4的算力基座
4.1 GPT-4計(jì)算服務(wù)器架構(gòu)
計(jì)算服務(wù)器架構(gòu)對比
針對GPT-4這類大模型的計(jì)算架構(gòu),按照計(jì)算芯片的組合方式,一般可以分為:“CPU+GPGPU”,“CPU+DSA”,和“CPU+DSA+GPGPU”三種類型。這三種類型目前都已在云計(jì)算場景廣泛應(yīng)用和部署。
DSA即領(lǐng)域?qū)S眉铀倨?/span>,是用于一些特定場景或算法族計(jì)算的芯片級加速。最早的GPU也屬于DSA,也就是圖形加速的DSA。隨著GPU逐漸演化,將非常小的CPU核心加入GPU形成GPGPU架構(gòu)后,才具備了通用化的計(jì)算能力。
1)CPU+GPGPU是較早且部署眾多的一種。由于這種架構(gòu)的計(jì)算靈活度高,也可用于模型訓(xùn)練和非AI類計(jì)算。適合任務(wù)種類繁多且差異化大的云計(jì)算場景。
2)CPU+DSA是目前Google云計(jì)算(GCP)應(yīng)用較多的方式。例如Google去年發(fā)布的Pathways計(jì)算系統(tǒng)(包含6144塊TPU)就是這類架構(gòu)的典型代表。這類架構(gòu)計(jì)算靈活性稍低一點(diǎn),但是計(jì)算性能和成本都非常明顯優(yōu)于CPU+GPGPU模式,非常用于GPT-4或其他算法部署場景。例如早些年的AlphaGo的性能突破很大程度上來自于Google自研的TPU。當(dāng)時如果用GPU,估計(jì)超過人類棋手的集群成本恐是當(dāng)年的Google也難以承受的。
Google Pathways “CPU+DSA”訓(xùn)練集群基礎(chǔ)架構(gòu)(來源:Google)
3)CPU+DSA+GPGPU介于前兩者之間,充分提高了靈活性又明顯降低了計(jì)算成本。這類架構(gòu)需要算法設(shè)計(jì)/部署人員有豐富的異構(gòu)架構(gòu)部署經(jīng)驗(yàn)。
計(jì)算卡間的高速互連對GPT-4計(jì)算的影響排在單卡算力之后。對于多數(shù)GPU來說,由于一般需要多卡才能放下一個模型,因此整體的計(jì)算效率受限于互連帶寬和單卡有效算力密度。(算力密度大可以減少互連交互的總數(shù)據(jù)量)
AI服務(wù)器內(nèi)部的卡間互連
以英偉達(dá)為例,HGX平臺上有六個NVSwitch。每個NVSwitch連接2塊GPU,總共有12個最短數(shù)據(jù)通道直連,形成接近立方體式的數(shù)據(jù)交互網(wǎng)。這里之所以說接近,是因?yàn)?123和4567平面之間的連接還不是兩兩互連,這一結(jié)構(gòu)會限制GPU所能運(yùn)行的模型的規(guī)模效率。
計(jì)算服務(wù)器之間的高速互連通過Infiniband實(shí)現(xiàn)。每個NVIDIA A100/H100可以訪問服務(wù)器Infiniband結(jié)構(gòu),通過Infiniband提升服務(wù)器間的數(shù)據(jù)交互帶寬,而大帶寬的Infiniband一般通過光纖連接(使用SerDes技術(shù))來減少損耗。Infiniband網(wǎng)絡(luò)基于“以應(yīng)用程序?yàn)橹行摹钡挠^點(diǎn),目標(biāo)是讓應(yīng)用程序訪問其他應(yīng)用程序以及存儲盡可能的簡單、高效和直接,避免網(wǎng)絡(luò)分層帶來的延遲。這種結(jié)構(gòu)大大提高了GPT-4訓(xùn)練的速度。
4.2 GPT-4計(jì)算相關(guān)芯片
對于GPT-4這類大模型來說,其部署需要大量的大算力計(jì)算、存儲和數(shù)據(jù)交互芯片,包括:
AI計(jì)算:算力>100TFLOPS的GPGPU或大算力AI芯片
CPU:核數(shù)>8的CPU
存儲:內(nèi)存/GDDR/HBM/NVMe
數(shù)據(jù)交互:Infiniband卡
在Transformer技術(shù)興起之后,傳統(tǒng)CUDA核心的算力支持能力已表現(xiàn)出劣勢,英偉達(dá)便在其GPU中添加Tensor Core這類DSA單元,以適應(yīng)算力需求的變化??紤]到GPU這類通用架構(gòu)芯片在計(jì)算效率和算力上已經(jīng)暫時落后于GPT-4/ChatGPT這類大模型的發(fā)展速度,從芯片/半導(dǎo)體的歷史發(fā)展規(guī)律看,預(yù)計(jì)近幾年可能會有新的專用架構(gòu)大發(fā)展來填補(bǔ)這一需求。這類新架構(gòu)也許是針對大模型的DSA,或者是更接近于DSA的GPGPU。
CPU、GPU和存算一體芯片的架構(gòu)對比
從目前GPT-4的部署需求來看,GPT-4大模型具有數(shù)據(jù)量大、數(shù)據(jù)帶寬要求高、算力要求高的計(jì)算特點(diǎn),且算法相對單一。如果要提高計(jì)算效率和性價(jià)比,就應(yīng)該像超算那樣選擇更高計(jì)算密度的算力芯片。從這個角度上看,具備存算一體結(jié)構(gòu)的DSA可以很好的滿足這些要求,并且具備比GPGPU更高的計(jì)算性能,未來很有可能與CPU或GPU組合,形成GPT-4這類算法的主要部署芯片。
在GPT-4這類大模型訓(xùn)練中,一般需要使用Infiniband進(jìn)行大算力芯片間的協(xié)同工作,整合海量芯片的算力。Infiniband摒棄了傳統(tǒng)網(wǎng)絡(luò)和應(yīng)用程序之間消息傳遞的復(fù)雜結(jié)構(gòu),使應(yīng)用程序之間直接進(jìn)行通信,繞過了操作系統(tǒng),大大提高了效率。
05 .
GPT-4的局限與未來改進(jìn)方向
5.1 GPT-4局限
盡管GPT-4表現(xiàn)出出色的上下文對話能力甚至編程能力,以及能看懂圖梗和分析數(shù)據(jù)圖。我們也要看到,GPT-4技術(shù)仍然有一些局限性,還在不斷的進(jìn)步。
1)GPT-4在其未經(jīng)大量語料訓(xùn)練的某些領(lǐng)域缺乏“人類常識”和引申能力”。GPT-4在很多領(lǐng)域可以“創(chuàng)造答案”,但當(dāng)用戶尋求正確答案時,GPT-4也有可能給出有誤導(dǎo)的回答。大預(yù)言模型的安全性問題仍是橫亙在其大規(guī)模商用上的拉路虎。如果遇到關(guān)系重大利益的抉擇時,我們是該相信GPT-4的結(jié)果還是不相信呢?
大語言模型的SWOT分析(來源:互聯(lián)網(wǎng))
2)GPT-4需要非常大量的算力(芯片)來支持其訓(xùn)練和部署。拋開需要大量語料數(shù)據(jù)訓(xùn)練模型不說,在目前,GPT-4在應(yīng)用時仍然需要大算力的服務(wù)器支持,而這些服務(wù)器的成本是普通企業(yè)在大流量服務(wù)時無法承受。對于私有化部署來說,還需等待更輕量型的模型或更高性價(jià)比的算力平臺。
3)GPT-4還沒法在線的把新知識納入其中,而出現(xiàn)一些新知識就去重新預(yù)訓(xùn)練GPT模型也是不現(xiàn)實(shí)的,無論是訓(xùn)練時間或訓(xùn)練成本,都是普通訓(xùn)練者難以接受的。
如果對于新知識采取在線訓(xùn)練的模式,看上去可行且語料成本相對較低,但是很容易由于新數(shù)據(jù)的引入而導(dǎo)致對原有知識的災(zāi)難性遺忘的問題。另一方面,缺乏檢查的新的不良知識也可能導(dǎo)致模型本身的安全性問題。特別是GPT-4可能會繼承從新數(shù)據(jù)中學(xué)到的偏見和不平等性。如果數(shù)據(jù)集中存在種族、性別、地理位置等方面的偏見,GPT-4也可能會在生成文本時出現(xiàn)類似的偏見。
4)GPT-4仍然是黑盒模型。目前還未能對GPT-4的內(nèi)在算法邏輯進(jìn)行分解,因此并不能保證GPT-4不會產(chǎn)生攻擊甚至傷害用戶的表述。OpenAI提供的文檔報(bào)告稱,GPT-4-launch的錯誤行為率為0.02%,遠(yuǎn)低于GPT-3.5的0.07%和GPT-3的0.11%1。這意味著GPT-4-launch生成的文本在10000次完成中只有2次違反OpenAI的內(nèi)容政策或用戶偏好。但即便這2次違反依然可能導(dǎo)致OpenAI受到嚴(yán)重的法律訴訟。
5)GPT-4仍存在社會和道德風(fēng)險(xiǎn)。由于GPT-4這類大型語言模型仍然存在根本性的黑盒特征。GPT-4仍然可以生成有偏見的、虛假的和仇恨的文本;仍然可以被黑客攻擊(例如Prompt越獄)以繞過它的安全防護(hù)墻。盡管OpenAI提出了多項(xiàng)措施來減輕其模型的風(fēng)險(xiǎn)和挑戰(zhàn),但GPT-4仍然可能被濫用于創(chuàng)建假新聞、宣傳、垃圾郵件或有害內(nèi)容,還可能產(chǎn)生可能誤導(dǎo)或傷害用戶的事實(shí)錯誤或偏見。OpenAI的研究表明,GPT-4可以在許多領(lǐng)域與人類宣傳員相媲美。
6)GPT-4仍存在幻覺和推理錯誤。盡管OpenAI聲稱GPT-4相對于以前的模型可以顯著減少幻覺(在其內(nèi)部評估中得分比GPT-3.5高40%)。GPT-4仍然可能會產(chǎn)生有害的建議(盡管GPT-4更有可能拒絕回答)、錯誤代碼或不準(zhǔn)確的信息,因此,GPT-4暫不應(yīng)該用于錯誤成本高的區(qū)域(比如醫(yī)學(xué)手術(shù)?)。
7)GPT-4存在泄露隱私可能。GPT-4可從各種內(nèi)部許可和公開可用的數(shù)據(jù)源中學(xué)習(xí),其中可能包括大量公開有效的個人信息。包括互聯(lián)網(wǎng)上學(xué)習(xí)到有重要影響力人物(例如名人和公眾人物)的大量隱私信息。GPT-4還可以聚合不同信息,將大量隱含信息關(guān)聯(lián)挖掘出來形成有效的隱私信息。
5.2 未來改進(jìn)方向
5.2.1 減少人類反饋的RLAIF
2020年底,OpenAI前研究副總裁Dario Amodei帶著10名員工創(chuàng)辦了一個人工智能公司Anthropic。Anthropic的創(chuàng)始團(tuán)隊(duì)成員,大多為OpenAI的早期及核心員工,并在2022年12月,發(fā)表論文《Constitutional AI: Harmlessness from AI Feedback》介紹人工智能模型Claude。
CAI模型訓(xùn)練過程(來源:Anthropic)
Claude和GPT-4都依賴于強(qiáng)化學(xué)習(xí)(RL)來訓(xùn)練偏好(Preference)模型。CAI(Constitutional AI)也是建立在RLHF的基礎(chǔ)之上,不同之處在于,Claude的CAI的排序過程使用模型(而非人類)對所有生成的輸出結(jié)果提供一個初始排序結(jié)果。這種模式的好處是節(jié)約了大量人工標(biāo)注的時間和資源,可以加速大模型的訓(xùn)練進(jìn)程,并降低成本。
CAI用人工智能反饋來代替人類對表達(dá)無害性的偏好,即RLAIF,人工智能根據(jù)一套法規(guī)(Constitution)原則來評價(jià)回復(fù)內(nèi)容。
CAI與RLHF技術(shù)對比(來源:Anthropic)
5.2.2 數(shù)理能力的增強(qiáng)
GPT-4雖然已經(jīng)具備解物理題的能力,但畢竟不是專門的解題算法,一些復(fù)雜的數(shù)理問題對話中仍會出現(xiàn)一本正經(jīng)胡說八道的情況。
計(jì)算機(jī)學(xué)家Stephen Wolfram為這一問題提出了解決方案。Stephen Wolfram創(chuàng)造了的Wolfram語言和計(jì)算知識搜索引擎Wolfram|Alpha,其后臺通過Mathematica實(shí)現(xiàn)。
ChatGPT與Wolfram|Alpha結(jié)合處理梳理問題(來源:Wolfram)
目前Woflframe已經(jīng)可以通過ChatGPT調(diào)用(通過插件),未來也會實(shí)現(xiàn)GPT-4的集成。在這一結(jié)合體系中,GPT-4可以像人類使用Wolfram|Alpha一樣,與Wolfram|Alpha“對話”,Wolfram|Alpha則會用其符號翻譯能力將從GPT-4獲得的自然語言表達(dá)“翻譯”為對應(yīng)的符號化計(jì)算語言。在過去,學(xué)術(shù)界在GPT-4使用的這類“統(tǒng)計(jì)方法”和Wolfram|Alpha的“符號方法”上一直存在路線分歧。但如今GPT-4和Wolfram|Alpha的互補(bǔ),給NLP領(lǐng)域提供了更上一層樓的可能。
ChatGPT調(diào)用Wolfram(來源:Wolfram)
GPT-4不必生成這樣的計(jì)算代碼,只需生成常規(guī)自然語言,然后使用Wolfram|Alpha翻譯成精確的Wolfram Language,再由底層的Mathematica進(jìn)行計(jì)算。
5.2.3 GPT-4的本地化與小型化
雖然GPT-4很強(qiáng)大,但其模型大小和使用成本也讓很多人望而卻步。
有三類 模型壓縮 (model compression)技術(shù)可以降低模型的大小和成本。
第一種方法是量化(quantization),即降低單個權(quán)重的數(shù)值表示的精度。比如Transformer從FP32降到INT8對其精度影響不大,但是會顯著提升計(jì)算效率。筆者團(tuán)隊(duì)已研發(fā)出INT4量級的Transformer高精度量化算法,無需再次訓(xùn)練或更改模型,即可部署到GPT-4算力平臺上,大大提升計(jì)算效率并降低成本。
第二種模型壓縮方法是剪枝(pruning),即刪除GPT-4的網(wǎng)絡(luò)元素,包括從單個權(quán)重(非結(jié)構(gòu)化剪枝)到更高粒度的組件如權(quán)重矩陣的通道。這種方法在視覺和較小規(guī)模的語言模型中有效,也是很多框架(Framework)上自帶的功能。
第三種模型壓縮方法是稀疏化。例如奧地利科學(xué)技術(shù)研究所(ISTA)提出的SparseGPT可以將GPT系列模型單次剪枝到50%的稀疏性,而無需任何重新訓(xùn)練。當(dāng)然這種稀疏結(jié)構(gòu)目前還僅僅是基于GPU架構(gòu)實(shí)現(xiàn)的,在其他硬件平臺上并不兼容,而且GPT-4的稀疏化是否在綜合成本上優(yōu)于壓縮還有待觀察。
SparseGPT壓縮流程(來源:ISTA)
06 .
GPT-4的產(chǎn)業(yè)未來與投資機(jī)會
6.1 大模型的技術(shù)棧
GPT-4這類大模型的用戶量巨大,算力需求巨大,連接的設(shè)備和軟件眾多。其技術(shù)棧具有更多組件,可包括用于容器化、性能監(jiān)控、商業(yè)智能、事件處理、云服務(wù)、微服務(wù)和分析的工具。
GPT-4/ChatGPT等大模型的技術(shù)棧可以分為5層:
1)應(yīng)用層:將生成的AI模型(可通過接口)集成到面向用戶的應(yīng)用程序,運(yùn)行私有模型或通過第三方接口運(yùn)行模型。這一層的應(yīng)用企業(yè)最多。大量企業(yè)無需研發(fā)自有的大模型,即可使用GPT-4帶來的人工智能協(xié)作能力和生成能力,形成各類應(yīng)用。
2)接口層:包括各種調(diào)用API和數(shù)據(jù)中心調(diào)用工具,同時提供對應(yīng)的提示工程接口和模型精調(diào)接口。接口層將應(yīng)用層和模型層銜接,方便應(yīng)用層調(diào)用,使得開發(fā)者和用戶能夠以編程方式與模型進(jìn)行交互。這可以簡化GPT-4在實(shí)際應(yīng)用中的部署和調(diào)用,從而降低使用門檻。
3)模型層:包括各類開源或非開源模型,以及各種模型的共享平臺。這一層提供了不同的模型數(shù)據(jù)和功能,通過接口層為應(yīng)用層提供大模型的功能支持。
4)框架層:提供訓(xùn)練或云部署的深度學(xué)習(xí)框架和中間件等,包括PyTorch、TensorFlow等知名深度學(xué)習(xí)框架和中間件。
5)計(jì)算層:為模型層提供模型計(jì)算和調(diào)度的各種算力支持,為訓(xùn)練AI模型運(yùn)行訓(xùn)練和運(yùn)行推理任務(wù)提供基礎(chǔ)設(shè)施。計(jì)算層包括了各種云計(jì)算平臺和計(jì)算芯片。在這一層,AI芯片會是核心瓶頸。
GPT-4等大模型的技術(shù)棧
目前GPT-4的幾乎所有內(nèi)容都通過云計(jì)算GPU或TPU來運(yùn)行,使用者包括運(yùn)行訓(xùn)練工作的模型提供商/研究實(shí)驗(yàn)室、進(jìn)行模型部署或精調(diào)的應(yīng)用企業(yè)。在GPU替代CPU成為主要的AI算力芯片之后,AI界10多年來再一次受到大規(guī)模計(jì)算能力的限制。
截至目前,GPT-4這個領(lǐng)域目前還未看到非常明確的技術(shù)或產(chǎn)品護(hù)城河。由于使用相似的模型,應(yīng)用層企業(yè)在早期可能會缺乏很強(qiáng)的產(chǎn)品差異化;由于大部分云服務(wù)提供方目前只能使用同一FAB生產(chǎn)的GPU作為主力算力芯片,普通云提供商實(shí)質(zhì)上也難以提供成本或性價(jià)比的差異化。
GPT-4等大模型目前以同質(zhì)化的模式進(jìn)行構(gòu)建,具備統(tǒng)一的“圖像+自然語言”接口,因此短期內(nèi),除了模型參數(shù)本身不易訓(xùn)練好的壁壘外,暫時還未明確通過軟件生態(tài)或數(shù)據(jù)管道建立自家獨(dú)有競爭壁壘的路線。
就目前來說,我們還無法判斷GPT-4這類多模態(tài)大模型領(lǐng)域是否會像互聯(lián)網(wǎng)那樣出現(xiàn)少數(shù)幾家獨(dú)大的情況。也許大模型的時代會是一個無中心的狀態(tài),每個團(tuán)隊(duì)都有可能成為英雄。
6.2 GPT-4的產(chǎn)業(yè)應(yīng)用
AIGC即利用人工智能技術(shù)來生成內(nèi)容。與此前Web1.0、Web2.0時代的UGC(用戶生產(chǎn)內(nèi)容)和PGC(專業(yè)生產(chǎn)內(nèi)容)相比,代表人工智能構(gòu)思內(nèi)容的AIGC,是新一輪內(nèi)容生產(chǎn)方式變革,而且AIGC內(nèi)容在Web3.0時代也將出現(xiàn)指數(shù)級增長。
GPT-4模型的出現(xiàn)對于圖像/文字/語音多模態(tài)的AIGC應(yīng)用具有重要意義,會對AI產(chǎn)業(yè)上下游產(chǎn)生重大影響。
GPT-4的應(yīng)用領(lǐng)域(修改自O(shè)penAI)
GPT-4對依賴人類智能處理和生成的各個領(lǐng)域和行業(yè)具有許多潛在的應(yīng)用和影響。與其考慮哪些細(xì)分領(lǐng)域可以使用GPT-4這類技術(shù)輔助人工,不如考慮哪些領(lǐng)域還不能用GPT-4輔助,后者的名單或許更短一些。
可以快速使用GPT-4的一些行業(yè)包括(可視為會快速變革的行業(yè)的預(yù)測):
1)教育行業(yè):GPT-4可以作為想要學(xué)習(xí)新技能或?qū)W科的學(xué)生的輔導(dǎo)員或指導(dǎo)者。GPT-4還可以根據(jù)學(xué)生的學(xué)習(xí)目標(biāo)和進(jìn)度,為他們提供個性化的反饋和指導(dǎo)。
2)文娛行業(yè):GPT-4作為講故事的人或作曲家,為觀眾和平臺輸出原創(chuàng)且引人入勝的內(nèi)容。GPT-4還可以用作游戲設(shè)計(jì)師或角色,為游戲玩家創(chuàng)造身臨其境的互動體驗(yàn)。
3)商業(yè):GPT-4可用作營銷人員或銷售人員,為顧客和客戶創(chuàng)建有效且有說服力的話術(shù)。GPT-4還可以用作客戶服務(wù)代理或聊天機(jī)器人,以快速準(zhǔn)確地響應(yīng)查詢和投訴。
4)新聞:GPT-4可用作記者或編輯,以生成有關(guān)各種主題和事件的高質(zhì)量和真實(shí)的新聞文章。GPT-4還可以用作新聞檢查器或驗(yàn)證器,用于檢測和糾正錯誤信息和假新聞。
5)醫(yī)療大健康:醫(yī)生或護(hù)士可以使用GPT-4作為助手診斷和治療患有各種疾病的患者。GPT-4也可以用作治療師或健康顧問,提供心理健康支持和建議。
6)法律:GPT-4可以作為律師或法官助理起草和審查法律文件和合同。
7)生命科學(xué):GPT-4及其模型的生物分支可用于從用于臨床試驗(yàn)的合成數(shù)據(jù)創(chuàng)建到基于蛋白質(zhì)折疊模型的生成式蛋白質(zhì)設(shè)計(jì)以加速藥物發(fā)現(xiàn),再到學(xué)術(shù)論文的研究總結(jié)。雖然采用還處于早期階段,但加速藥物發(fā)現(xiàn)和批準(zhǔn)、改善患者療效和節(jié)省醫(yī)療成本的潛力是巨大的。
8)供應(yīng)鏈和物流:借助GPT-4的思維鏈能力來進(jìn)行自動化產(chǎn)品開發(fā),包括設(shè)計(jì)和組件替換,從而以更低的成本生產(chǎn)出具有更高性能和可持續(xù)性的新產(chǎn)品。GPT-4還可支持文檔自動化和合同生成,以更好的簡化工作流程。
隨著算法技術(shù)和算力技術(shù)的不斷進(jìn)步,GPT-4也會進(jìn)一步走向更先進(jìn)功能更強(qiáng)的版本,在越來越多的領(lǐng)域進(jìn)行應(yīng)用,為人類生成更多更美好的對話和內(nèi)容。
6.3 GPT-4對我們和未來的影響
GPT-4這類多模態(tài)大模型技術(shù)會對我們每個人的生活和工作產(chǎn)生一系列的影響。例如:
1)GPT-4會極大的影響宣傳和社交。以后GPT-4這類技術(shù)會在互聯(lián)網(wǎng)上橫行,我們會很難分辨到底是“大眾的聲音”還是“中心服務(wù)器的聲音”,大量沒有主見的人可能會盲從于GPT-4這類技術(shù)生成的觀點(diǎn),人類會變成機(jī)器的復(fù)讀機(jī)。同時GPT-4工具會大量滲透入普通人的社交,“唯有套路得人心”的場景會遍地開花。
2)AI大量替代低端重復(fù)性溝通和多模態(tài)工作。GPT-4會與機(jī)器人技術(shù)結(jié)合,從云滲透到端,進(jìn)入每個人的日常生活。操作系統(tǒng)和辦公軟件的交互UI會大量被大模型主宰化。也許開始會有很多人因?yàn)锳I技術(shù)的替代而失業(yè),逐漸更多的人借助GPT-4這類技術(shù)獲得更高的效率并成為自然語言程序員,人類開始剝削機(jī)器,創(chuàng)造力和自然情感成為人類能堅(jiān)守的寶貴特質(zhì)。
3)各種考核將從知識型考核轉(zhuǎn)向綜合能力考核。知道多少或者會什么外語已經(jīng)不重要,工作經(jīng)驗(yàn)或技術(shù)經(jīng)驗(yàn)也只是看是否擁有更先進(jìn)的GPT模型或算力。一些曾經(jīng)的熱門專業(yè)可能會逐漸凋落。人類下一代從人類“內(nèi)卷”過渡到“人機(jī)互卷”,高層次能力競爭會更加激烈。
GPT-4這類多模態(tài)大模型到底會給我們每個人帶來什么樣的具體影響,也許是現(xiàn)在的我們還不能完全想象的。但這影響一定是巨大和深遠(yuǎn)的。畢竟“圣杯”的語義不僅僅代表貴重,也代表了神奇和不可思議,甚至是獨(dú)一無二。