互聯(lián)網(wǎng)甚至整個(gè)科技圈,終于迎來(lái)了又一次全民意義上的沸騰。ChatGPT為代表的AI技術(shù),在大眾層面引起熱議的同時(shí),又在科技圈、創(chuàng)投圈都蕩起波瀾。
事實(shí)上,ChatGPT或許代表著未來(lái)新時(shí)代映射進(jìn)現(xiàn)實(shí)的前兆??挡ㄖ芷诘拇_已經(jīng)到來(lái),AI技術(shù)是否會(huì)是開(kāi)啟下一周期的那把鑰匙?其商業(yè)落地與創(chuàng)業(yè)機(jī)會(huì)又有哪些?作為首批關(guān)注AIGC的投資人,銀杏谷資本企服高級(jí)投資經(jīng)理鐘偉成的視野,落在了“AI原生”上。
01.GPT-4的前世今生
大眾熱議的ChatGPT,熱度貫穿了整個(gè)資本市場(chǎng)的2023。而在3月14號(hào)OpenAI再度發(fā)布新一代語(yǔ)言模型GPT-4后,在商業(yè)層面有了共振。
不過(guò)短短幾天,微軟宣布Office全家桶集成GPT相關(guān)能力,Github發(fā)布基于GPT-4的新一代代碼生成工具Copilot X。而ChatGPT同樣發(fā)布了插件功能——ChatGPT Plugins,賦予ChatGPT調(diào)用第三方應(yīng)用、檢索最新網(wǎng)絡(luò)信息、運(yùn)行計(jì)算的能力。
似乎一個(gè)嶄新的商業(yè)時(shí)代已經(jīng)到來(lái)。而回顧GPT發(fā)展史,轉(zhuǎn)折點(diǎn)早已埋下。技術(shù)定義GPT,即一種自然語(yǔ)言處理模型,通過(guò)訓(xùn)練語(yǔ)言模式來(lái)生成自然語(yǔ)言文本,從GPT-1到GPT-3從發(fā)展路徑來(lái)說(shuō),是更大參數(shù)量和數(shù)據(jù)集和變換器算法迭代而已。
GPT-3可以視為一個(gè)發(fā)展路徑的轉(zhuǎn)折點(diǎn)。其直接帶火了“提示學(xué)習(xí)”這一技術(shù)范式,將訓(xùn)練范式從“預(yù)訓(xùn)練+微調(diào)”引導(dǎo)向了“預(yù)訓(xùn)練 + Prompting”。所謂的Prompt理念,是認(rèn)為預(yù)訓(xùn)練模型本身就可以完成很多任務(wù),只需要在輸入的時(shí)候?qū)δP瓦M(jìn)行引導(dǎo)。
這成了打開(kāi)魔盒的那把鑰匙。如果說(shuō),GPT-3還存在會(huì)生成有害輸出、無(wú)法理解用戶意圖的問(wèn)題,GPT-3.5演化,則是引入training on code及引導(dǎo)性微調(diào),來(lái)規(guī)避這一問(wèn)題。
精妙之處在于,人類代碼存在邏輯的貫通性,而AI模型只需要在代碼上進(jìn)行預(yù)訓(xùn)練,就能獲得邏輯能力的強(qiáng)化。比如ChatGPT即能使用CoT(Chain-of-Thought即思維鏈)進(jìn)行復(fù)雜推理。
細(xì)數(shù)InstructGPT、Text-Dav-002、ChatGPT等基于GPT-3.5技術(shù)建立的模型,都進(jìn)行了對(duì)應(yīng)的能力微調(diào)。InstructGPT以針對(duì)特定應(yīng)用場(chǎng)景編寫(xiě)提示的方式來(lái)指導(dǎo)模型生成,大幅降低有害、錯(cuò)誤的輸出結(jié)果;Text-Dav-002是有監(jiān)督指令微調(diào),以犧牲上下文的能力獲得零樣本能力;ChatGPT則是通過(guò)RHLF犧牲上下文學(xué)習(xí)的能力換取建模對(duì)話歷史的能力。
換句話說(shuō),就是結(jié)合監(jiān)督學(xué)習(xí)與強(qiáng)化學(xué)習(xí),加入了人類反饋強(qiáng)化學(xué)習(xí),將人類期待的結(jié)果反饋給模型,并且增加了安全機(jī)制。共性與個(gè)性之間,或許就是ChatGPT能夠脫穎而出引起大眾共鳴的關(guān)鍵。
但這并不意味著,ChatGPT已經(jīng)是終點(diǎn)。
不難看出,ChatGPT的技術(shù)能力基礎(chǔ),是LLM GPT-3.5。在投喂足量人工標(biāo)注數(shù)據(jù)后,該模型已經(jīng)學(xué)會(huì)人們對(duì)于不同任務(wù)的習(xí)慣說(shuō)法,再通過(guò)RHLF中的reward model(獎(jiǎng)勵(lì)模型)正反饋給算法模型關(guān)于回答評(píng)價(jià)的好壞,為ChatGPT樹(shù)立其所謂的正確價(jià)值觀。
但問(wèn)題也足夠明顯——投喂的訓(xùn)練數(shù)據(jù)存在滯后性,使得ChatGPT無(wú)法正確回應(yīng)時(shí)事問(wèn)題,并且準(zhǔn)確性存在一本正經(jīng)胡說(shuō)八道的可能,需要用強(qiáng)邏輯語(yǔ)料進(jìn)行邏輯性調(diào)教,回答內(nèi)容較為冗長(zhǎng)等等。
而GPT-4的出現(xiàn),的確為想象力打開(kāi)了更多空間。無(wú)論是科技,還是商業(yè)。來(lái)看看它有什么魔力吧:從文本到圖像理解的跨越,堪稱升維;算法迭代,回答準(zhǔn)確性顯著提高;上下文理解與生成能力同步提升;最為關(guān)鍵的,更為可控的回答風(fēng)格。
當(dāng)然,目前GPT-4的圖像輸入展示仍是研究“樣品”預(yù)覽,真正的成果尚未公開(kāi),回答依舊有錯(cuò)誤,也無(wú)法完成回應(yīng)長(zhǎng)期任務(wù)、無(wú)法應(yīng)對(duì)時(shí)新問(wèn)題。但在復(fù)雜問(wèn)題處理和回答風(fēng)格定制等方面,已經(jīng)有長(zhǎng)足進(jìn)步。
02.AIGC,如何走入商業(yè)實(shí)踐?
OpenAI宣布推出Plugins(插件功能),被不少人視為AI領(lǐng)域的“App Store時(shí)刻”。通過(guò)調(diào)用第三方應(yīng)用程序API,用戶可以在ChatGPT獲得實(shí)時(shí)信息、知識(shí)庫(kù)信息的檢索,也能進(jìn)行外賣(mài)、訂票等操作。
這對(duì)現(xiàn)有App應(yīng)用的影響,不可謂不大。這意味著,AI可以直接觸達(dá)應(yīng)用平臺(tái)數(shù)據(jù),跳過(guò)應(yīng)用原本的操作界面和中間的工程架構(gòu)設(shè)計(jì)。那些產(chǎn)品功能比較單一、產(chǎn)品體驗(yàn)不夠多元化的應(yīng)用將會(huì)受到很大的影響。
當(dāng)然,這還停留在商業(yè)暢想階段。更值得關(guān)注的,是生成式AI技術(shù)的商業(yè)落地進(jìn)展。嚴(yán)格來(lái)說(shuō),在2020年以前,生成式AI在各個(gè)領(lǐng)域都處于初級(jí)嘗試階段,或許文本領(lǐng)域存在垃圾信息識(shí)別、基礎(chǔ)回答等嘗試,但并不具備“性感”吸引力。
自2020年開(kāi)始,大語(yǔ)言模型得以實(shí)現(xiàn)的能力,越來(lái)越多元與成熟??梢詫?shí)現(xiàn)基礎(chǔ)文案撰寫(xiě)、可以生成多行代碼,再到2022年,普遍可以獲得更成熟的文本與代碼,并且蔓延到了圖像領(lǐng)域。鐘偉成認(rèn)為,在他的視野中,可能不用等到2025年,我們就能夠看到基于文本生成視頻、3D模型的AI技術(shù)在商業(yè)領(lǐng)域得到應(yīng)用。
動(dòng)動(dòng)手指或者說(shuō)說(shuō)話就能造出游戲的未來(lái),或許就落在生成式AI上。從技術(shù)棧來(lái)看,生成式AI也存在應(yīng)用層、模型層、基礎(chǔ)設(shè)施三個(gè)板塊。
應(yīng)用層:以自研大模型或調(diào)用第三方模型API的方式,獲取大模型技術(shù)能力,制作成面向用戶的應(yīng)用軟件。
模型層:以商業(yè)化API接口或開(kāi)源大模型的形式,為AI應(yīng)用提供核心技術(shù)能力。
基礎(chǔ)設(shè)施:芯片等硬件制造商,或者提供云計(jì)算服務(wù)云廠商,負(fù)載著生成式AI模型的訓(xùn)練和推理。
目前來(lái)說(shuō),不同層級(jí)的玩家,面臨著截然不同的商業(yè)現(xiàn)狀。最為百花齊放的自然是應(yīng)用層。就國(guó)際來(lái)看,基于文本、圖像、視頻、代碼、演講、游戲、音樂(lè)等不同領(lǐng)域的AIGC應(yīng)用。
需要承認(rèn),AI原生應(yīng)用,借助大模型能力,有了“顛覆”傳統(tǒng)應(yīng)用市場(chǎng)的機(jī)會(huì)。大模型以API或者開(kāi)源的方式,也為應(yīng)用廠商之間的差異性提供了包容度。
為此,鐘偉成介紹了一家營(yíng)銷文案生成公司Jasper.AI,其AI能力基于微調(diào)版GPT-3的API,產(chǎn)品能力包括預(yù)定義模版完成內(nèi)容的Starter、能夠以80%補(bǔ)全率幫助用戶寫(xiě)作的BossMode、定制化生成文案的Jasper for Business等。
這家成立于2021年1月的公司,不到1年就實(shí)現(xiàn)了4000萬(wàn)美元的ARR(年度經(jīng)常性收入),而到2022年底,其付費(fèi)用戶已經(jīng)接近十萬(wàn),年收入達(dá)7500萬(wàn)美元。不過(guò)鐘偉成也指出,因?yàn)闆](méi)有自研大模型所鑄造的技術(shù)壁壘,Jasper依舊存在商業(yè)危機(jī)。
模型層來(lái)說(shuō),大模型提供商現(xiàn)狀并不理想。重投入、低回報(bào)使得玩家并不多,目前獨(dú)一檔的GPT系列模型作為閉源模型,帶動(dòng)了應(yīng)用繁榮之后,也讓各類開(kāi)源模型獲得資本關(guān)注,開(kāi)始加足馬力追趕。
相對(duì)而言,模型層的API生態(tài)已經(jīng)開(kāi)始繁榮,而處于安全考慮,大模型私有化部署的需求,也開(kāi)始涌現(xiàn)。除此以外,Anthropic、Cohere等公司自行構(gòu)建的大語(yǔ)言模型,由于數(shù)據(jù)集和模型架構(gòu)與GPT模型的構(gòu)建理念差異不大,通用語(yǔ)言大模型的未來(lái)格局可能會(huì)是一超多強(qiáng)的。
AIGC浪潮真正的大贏家,出現(xiàn)在AI基礎(chǔ)設(shè)施的玩家中。不得不承認(rèn),每秒浮點(diǎn)運(yùn)算(FLOPS)是生成式AI的命脈,這意味著無(wú)論是代表運(yùn)算速度性能的芯片硬件,還是提供云計(jì)算的云廠商,都在整個(gè)過(guò)程中獲得有商業(yè)壁壘的持續(xù)利益。
2022年到2023年,國(guó)內(nèi)市場(chǎng)的變化,基本反映了整個(gè)資本、商業(yè)市場(chǎng)對(duì)AIGC從觀望到追逐的看法轉(zhuǎn)變。但鐘偉成認(rèn)為復(fù)刻“中國(guó)版ChatGPT”不應(yīng)該是國(guó)內(nèi)語(yǔ)言大模型公司的創(chuàng)業(yè)目標(biāo)。
ChatGPT的應(yīng)用形態(tài)很容易復(fù)制,指令微調(diào)、RLHF也不會(huì)太難,真正難的是底層語(yǔ)言模型涌現(xiàn)能力的復(fù)現(xiàn)。鐘偉成指出,模型的涌現(xiàn)能力其實(shí)在訓(xùn)練GPT-3.5的時(shí)候,就已經(jīng)存在于語(yǔ)言模型中了,ChatGPT只不過(guò)是激發(fā)模型潛能的一種方式。大眾和許多創(chuàng)業(yè)者的視角都集中在復(fù)刻“ChatGPT”上,或許是某種意義上的本末倒置。
如果我們關(guān)注國(guó)產(chǎn)ChatGPT的進(jìn)展,應(yīng)該關(guān)注的是各種“類ChatGPT”產(chǎn)品底層的語(yǔ)言大模型離GPT-3.5的涌現(xiàn)能力還差多遠(yuǎn)。在一個(gè)沒(méi)有涌現(xiàn)能力的LLM上套一個(gè)ChatGPT的殼,也只不過(guò)是東施效顰,但這也是市面中普遍存在的做法。
03.生成式AI,迎來(lái)三波浪潮
AIGC的發(fā)展浪潮,可以分段為三個(gè)時(shí)代。
2017到2021的煉大模型時(shí)代,自2019年7月微軟向OpenAI投資10億美元開(kāi)始,全球開(kāi)始了基礎(chǔ)大模型的軍備競(jìng)賽,國(guó)內(nèi)的華為、智源、達(dá)摩院、百度等云計(jì)算提供商和AI研究院先后發(fā)布了自家的預(yù)訓(xùn)練大模型,并不斷從NLP延伸出了雙語(yǔ)、CV、跨模態(tài)等大模型,整體方向還是在追逐大參數(shù)量,主要目的還是以學(xué)研結(jié)果、大廠防御性戰(zhàn)略為主。
2020到2023的商業(yè)API時(shí)代,本質(zhì)是煉制大模型成本過(guò)高,大部分AIGC應(yīng)用公司只能通過(guò)API獲取大模型能力。GPT-3的出現(xiàn),是API生態(tài)建立的標(biāo)志,涌現(xiàn)出Jasper.ai、Copy.ai等公司,并且傳統(tǒng)軟件開(kāi)始嵌入AIGC的技術(shù)能力。
而這一階段的轉(zhuǎn)折節(jié)點(diǎn),同樣由Open AI發(fā)起——2021年其發(fā)布CLIP模型,預(yù)訓(xùn)練大模型領(lǐng)域由單模態(tài)走向多模態(tài)。ChatGPT的出現(xiàn),則定義了多輪對(duì)話,就是人機(jī)交互界面的一種未來(lái)可能。
而在2022開(kāi)始到未來(lái)的一段時(shí)間內(nèi),將可能進(jìn)入“專屬大模型”時(shí)代。一方面,大型企業(yè)將會(huì)探索大模型私有化部署,圍繞LLM(Large Language Model,大型語(yǔ)言模型)打造新技術(shù)棧是必然。另一方面,又可能會(huì)產(chǎn)生以ChatBot為基座的新一代操作系統(tǒng),成為人機(jī)協(xié)作的交互入口,其中間雜著AI原生軟件與傳統(tǒng)軟件之間的對(duì)抗。
這一過(guò)程中,行業(yè)通用的基礎(chǔ)大模型由于煉制和微調(diào)的成本下降,將會(huì)不斷涌現(xiàn)。而貫穿大模型訓(xùn)練過(guò)程的各類AI infra技術(shù)的需求將被進(jìn)一步激發(fā),又是無(wú)限的商業(yè)可能。
鐘偉成認(rèn)為,未來(lái)商業(yè)一個(gè)明顯的能力差異,是AI原生。AI原生與傳統(tǒng)軟件集成AIGC能力的區(qū)別,是一種生產(chǎn)方式代際更替間的差異。AIGC大幅度提升了信息產(chǎn)業(yè)的生產(chǎn)效率,可以定義為另一次技術(shù)革命,必然帶來(lái)產(chǎn)業(yè)勞動(dòng)力與生產(chǎn)方式的遷移。
必須清醒地認(rèn)識(shí)到,國(guó)內(nèi)距離Open AI的技術(shù)差距,還很明顯。技術(shù)路徑雖然較為清晰,但實(shí)際應(yīng)用ChatGPT、GPT-4的技術(shù)至今都沒(méi)有完全開(kāi)源,只能是盲人摸象式探索。而模型的人工調(diào)教過(guò)程也是一種積累方面的壁壘,有論文指出,模型至少要達(dá)到620億參數(shù)量后,才可能訓(xùn)練出CoT思維鏈能力,這一點(diǎn)需要時(shí)間和金錢(qián)的雙重投入。
而Open AI已經(jīng)在謀求更遠(yuǎn)。從GPT3開(kāi)始,其關(guān)注的核心,是通過(guò)用戶所進(jìn)行的prompt與微調(diào)數(shù)據(jù),來(lái)形成自己的SFT數(shù)據(jù)集,以進(jìn)一步完善模型的業(yè)務(wù)效果準(zhǔn)確性?!八晕覀冏霾怀鲋形恼Z(yǔ)言大模型的時(shí)候,抱怨說(shuō)中文語(yǔ)料質(zhì)量不如英文語(yǔ)料意義并不大,Open AI已經(jīng)過(guò)了追求事實(shí)數(shù)據(jù)的階段?!痹阽妭コ煽磥?lái),指令數(shù)據(jù)的收集,又將是Open AI下一個(gè)壁壘。
作為銀杏谷資本的投資人,鐘偉成也透露了自身所看好的幾個(gè)生成式AI創(chuàng)業(yè)方向:比如能夠嵌入或者改造傳統(tǒng)工作流的生成式AI應(yīng)用,比如基于多模態(tài)大模型的端到端應(yīng)用,再比如能夠幫助用戶高效整合知識(shí)來(lái)構(gòu)建思考框架和激發(fā)靈感的垂直行業(yè)應(yīng)用等。他強(qiáng)調(diào):“生成式AI的價(jià)值并不僅僅體現(xiàn)在內(nèi)容生成,關(guān)鍵信息要素的“提煉與合成”將釋放更大的潛在價(jià)值!”
如果跳脫應(yīng)用本身,模型預(yù)訓(xùn)練/推理算法優(yōu)化、向量數(shù)據(jù)庫(kù)、AI芯片等AI基礎(chǔ)設(shè)施,即所謂的AI infra,也是其所看好的方向。
除此以外,“按照三次浪潮的洞察來(lái)看,大模型私有化部署或許不是一種很好的商業(yè)模式但中短期來(lái)看也是一個(gè)肉眼可見(jiàn)的趨勢(shì)”。
比如為金融、能源等擁有海量業(yè)務(wù)數(shù)據(jù)、算力及付費(fèi)能力的B端企業(yè),提供專屬大模型的訓(xùn)練、微調(diào)迭代及托管服務(wù),以ChatBot的人機(jī)交互界面為操作中心重構(gòu)公司業(yè)務(wù)流程,并在基礎(chǔ)大模型基礎(chǔ)上開(kāi)發(fā)生成式AI應(yīng)用,搭配plugins調(diào)用其他軟件的數(shù)據(jù)。“是不是很眼熟?有些類似當(dāng)年的中臺(tái)、PaaS平臺(tái),卻又完全不一樣?!?。