有著大模型儲備的大廠,紛紛下場布局。上月底,在360科技2023年數(shù)字安全與發(fā)展高峰論壇上,其官方正式發(fā)布大語言模型360 AI。
而在更早以前,作為國內(nèi)率先對人工智能領(lǐng)域布局的百度,也推出了旗下多模態(tài)大模型應用——文心一言,據(jù)百度CEO李彥宏介紹,該模型具備文學創(chuàng)作、商業(yè)文案創(chuàng)作、數(shù)理推算、中文理解、多模態(tài)生成五個使用場景的綜合能力。
與此同時,阿里,美團等大廠的一大批高管,看準機會相繼宣布創(chuàng)業(yè),拿出大部分身家,只為做出中國版的ChatGPT。
先是在今年2月,原美團聯(lián)合創(chuàng)始人王慧文在社交媒體上宣布出資5000萬美元,設立北京光年之外科技有限公司,并表示75%的股份用于邀請頂級研發(fā)人才,打造中國OpenAI。另據(jù)最新消息,光年之外近期已啟動新一輪融資。
次月,阿里前技術(shù)副總裁賈揚清也透露了他下一步的創(chuàng)業(yè)打算,據(jù)他介紹其目標是AI大模型底層技術(shù)相關(guān),目前融資已基本到位。
除此之外,還有字節(jié)跳動旗下今日頭條前用戶產(chǎn)品負責人張前川、快手前國際化技術(shù)負責人王美宏、IDEA研究院理事長沈向洋、循環(huán)智能聯(lián)合創(chuàng)始人楊植麟等高管,試圖在ChatGPT風口中,尋求“再就業(yè)”的機會。
一大批創(chuàng)業(yè)者們前赴后繼,“ChatGPT們”正加速狂飆,這背后少不了多個行業(yè)“保駕護航”。
要建立ChatGPT這樣的大模型應用,少不了算法、算力和數(shù)據(jù)三大行業(yè)的支持,簡單說,應用要高效運行起來,就需要強大算力的支持,而要讓應用背后的算法更為聰明,則需要源源不斷地向其“投喂”高質(zhì)量數(shù)據(jù)。
由此可見,算法大模型想要實現(xiàn)升級和迭代,最為關(guān)鍵的就是需要大量數(shù)據(jù)的訓練,而要保證這些數(shù)據(jù)的質(zhì)量,就需要對數(shù)據(jù)進行清洗、標注、質(zhì)檢等多個步驟,要完成這一目標,少不了標貝科技、海天瑞聲為代表的一批數(shù)據(jù)標注提供商的助力。
現(xiàn)階段,數(shù)據(jù)標注廠商們已耕耘多年,且各有“兩把刷子”。
標貝科技,作為多年扎根在數(shù)據(jù)標注領(lǐng)域的企業(yè),專注于智能語音交互與AI數(shù)據(jù)服務,并通過精細化的定制服務打出自己在行業(yè)中的優(yōu)勢。截止目前,標貝科技服務項目累計超過1000項。
除此之外,海天瑞聲、Scale.AI、Appen等玩家,同樣是專注于數(shù)據(jù)標注的廠商,具備全套的產(chǎn)品與服務,在語音、計算機視覺、自然語言理解等領(lǐng)域皆有布局。
隨著GPT-4等大模型的進一步發(fā)展,對于訓練數(shù)據(jù)質(zhì)量的要求必將更為苛刻,擺在數(shù)據(jù)標注廠商們面前的,是無限機會與挑戰(zhàn)。
ChatGPT創(chuàng)業(yè)潮來了,
高質(zhì)量數(shù)據(jù)成“剛需”
ChatGPT正為交互領(lǐng)域帶來“劃時代”的改變。
隨著1946年,世界第一臺現(xiàn)代計算機EDVAC誕生,交互1.0時代正式開啟。人們用打孔紙,通過輸入0、1二進制的機器語言與計算機進行交互,直到上世紀70年代,人機交互迎來一次新的蛻變。
當時,隨著首臺個人計算機的問世,相比于此前用打孔交互不同,人們可以通過鼠標、鍵盤向計算機傳達任務:即通過點擊電腦圖標、以及用鍵盤輸入指令向計算機下達命令,從而讓計算機做出反饋,自此,計算機開始“飛入更多尋常百姓家”。
這之后,雖然出現(xiàn)了Windows等多款操作系統(tǒng),并且這些操作系統(tǒng)自身也持續(xù)不斷地進行著更新,但從本質(zhì)將人機交互依然是通過編碼和解碼后的機器語言來進行。
直到2022年,OpenAI帶著ChatGPT的到來,讓交互領(lǐng)域再度迎來“iPhone”時刻:人們能夠直接用自然語言流暢地與計算機進行交流,并且計算機能夠直接理解自然語言并與用戶進行反饋和對話。
之所以說是ChatGPT開啟了新的交互時代,是因為相較于以往的對話模型,ChatGPT有著質(zhì)的飛躍。
經(jīng)過連線Insight體驗,ChatGPT能夠從中國詩詞歌賦聊到西方人生哲學,并在最后進行總結(jié);而以往的對話模型只能表達一首簡短的中文詩。也就是說ChatGPT能夠?qū)崿F(xiàn)多輪及結(jié)合上下文的不間斷聊天,且能記住以往指令,同時用各國語言溝通無障礙。
而ChatGPT背后的大模型還在不斷迭代:從2022年底的GPT-3.5到2023年初的GPT-4,性能又得到了全方位的提升。
GPT-4較于GPT-3.5的性能提升,圖源OpenAI
當看到ChatGPT在人機交互上跨時代的表現(xiàn)后,很快,各行各業(yè)都向ChatGPT們發(fā)出邀約。
最為聲勢浩大的莫過于微軟,在2020年,微軟下了血本投資OpenAI 10億美元,在2023年,微軟迎來摘果子時刻:微軟正在將自家生態(tài)逐步和GPT進行結(jié)合,從而形成全新的AI生態(tài)。
上月17日,微軟發(fā)布融合GPT-4能力的Microsoft 365 Copilot。據(jù)了解,Copilot將會被內(nèi)置到Word、Excel、PowerPoint、Outlook、Teams等應用之中。
簡單來說,用戶只需要對Office下一個編輯的指令,Word、PPT、Excel等就會自動“干活”。例如,在制作PPT時,Copilot可以基于用戶的輸入內(nèi)容自動生成PPT頁面,并提供字體、顏色、背景等設計風格建議,并且Copilot還可以自動檢測演示文稿中的錯誤和重復內(nèi)容。
就當微軟在ChatGPT領(lǐng)域落子的同時,國內(nèi)科技公司百度也率先站出來,發(fā)布了它的類ChatGPT產(chǎn)品——文心一言。據(jù)連線Insight測試,文心一言同樣具備ChatGPT的眾多能力,比如對于提問做出及時、準確的回應,以及可以結(jié)合上下文進行不間斷的交流和應答。
看到文心一言的能力后,國內(nèi)各個行業(yè)的企業(yè)們紛紛響應,爭相成為該產(chǎn)品的合作伙伴。比如汽車行業(yè)的集度、長城,媒體行業(yè)的澎湃新聞、大眾日報,家電行業(yè)的海信、美的等企業(yè),紛紛接入百度文心一言。截止目前,已有650+公司,等待著百度文心一言的支持。
OpenAI、微軟和百度引領(lǐng)之后,有更多的科技公司參與到類ChatGPT大模型的爭奪中來。
上月底,在360科技2023年數(shù)字安全與發(fā)展高峰論壇上,其官方正式發(fā)布其大語言模型360 AI。目前360的構(gòu)想是,在To C端,基于搜索場景推出人工智能個人助理類產(chǎn)品;在To SME端,將基于生成式大模型推出SaaS化垂直應用,如結(jié)合生成式AI的“企業(yè)即時通訊工具-推推”等。
除此之外,網(wǎng)易、科大訊飛等科技公司的產(chǎn)品也在孵化之中:2月8日,網(wǎng)易有道對外表示,該公司未來或?qū)⑼瞥鯟hatGPT同源技術(shù)產(chǎn)品,應用場景圍繞在線教育;2月9日,科大訊飛表示,其Al學習機將成為公司類ChatGPT技術(shù)率先落地的產(chǎn)品,并于今年5月發(fā)布。
隨著越來越多科技大廠布局類ChatGPT大模型,行業(yè)內(nèi)外對于GPT-4等大模型也提出越來越多樣的要求:既要其懂得駕駛語言,賦能智能座艙甚至是自動駕駛;又要求其博覽群書,并給出群書中的關(guān)鍵論點;還要會塑造虛擬人物,懂得人類的喜怒哀樂等等。
這也意味著,行業(yè)內(nèi)外對于大模型必備的“三件套”(算力、算法、數(shù)據(jù)),正提出更高的要求。
對于大模型“世界”來說,算法是“生產(chǎn)關(guān)系”,是處理數(shù)據(jù)信息的規(guī)則與方式;算力是“生產(chǎn)力”,能夠提高數(shù)據(jù)處理、算法訓練的速度與規(guī)模;而數(shù)據(jù)是“生產(chǎn)資料”,高質(zhì)量的數(shù)據(jù)是驅(qū)動算法持續(xù)迭代的養(yǎng)分。
基于這一重要性,目前對于算力的持續(xù)投注已是行業(yè)共識,政府也開始出手。
先是部分地方政府開放算力資源促進地方產(chǎn)業(yè)發(fā)展。今年1月,成都出臺《成都市圍繞超算智算加快算力產(chǎn)業(yè)發(fā)展的政策措施》,政策表明,成都每年將發(fā)放總額不超過1000萬元的“算力券”,用于支持算力中介服務機構(gòu)、科技型中小微企業(yè)、科研機構(gòu)、高校等使用國家超算成都中心、成都智算中心算力資源。
再到次月,國家發(fā)布算力交易平臺,促進算力的流通。東數(shù)西算一體化算力服務平臺在寧夏銀川在當月正式上線發(fā)布。據(jù)悉,東數(shù)西算一體化算力服務平臺將瞄準目前最稀缺、剛需迫切的ChatGPT運算能力,以支撐中國人工智能運算平臺急需的大算力服務。
需要注意的是,如果沒有高質(zhì)量數(shù)據(jù),算力再充足也無濟于事。參考ChatGPT,其高質(zhì)量數(shù)據(jù)是其在有效場景下采集到的原料數(shù)據(jù),經(jīng)過數(shù)據(jù)清洗、數(shù)據(jù)標注、質(zhì)檢等環(huán)節(jié)后產(chǎn)生的。
高質(zhì)量數(shù)據(jù)對于ChatGPT改進的重要性,可從以下案例中,窺見一二。根據(jù)InstructGPT實驗發(fā)現(xiàn),隨著模型參數(shù)量的增加,模型性能均得到不同程度的提高。
模型參數(shù)量與模型性能變化情況,圖源InstructGPT
通過強化學習—PPO(近端策略優(yōu)化)生成的模型,比100倍參數(shù)規(guī)模無監(jiān)督的GPT模型效果更好。這里的PPO,便是2017年由OpenAI提出的一種基于隨機策略的DRL算法,通過對策略的更新與監(jiān)督來提高策略的效率。
可以說,有監(jiān)督的標注數(shù)據(jù)是大模型應用成功的關(guān)鍵之一,且標注數(shù)據(jù)貴不在數(shù)量而在質(zhì)量。在GPT-4等大模型高速、高質(zhì)量發(fā)展中,高質(zhì)量數(shù)據(jù)是“卡脖子”的存在。
現(xiàn)如今,各行各業(yè)紛紛向ChatGPT們發(fā)來邀約,ChatGPT們急需補充養(yǎng)分。而若想要真正提高ChatGPT的競爭力,高質(zhì)量數(shù)據(jù)必不可少。
數(shù)據(jù)標注,乃“兵家”重地
從GPT-3到ChatGPT,大模型經(jīng)歷了5次迭代。
據(jù)東方證券研報顯示,在這幾次迭代中,最明顯的變化是,在訓練方式上增加了RLHF,即讓智能體通過接收來自人類用戶或?qū)<业姆答亖碚{(diào)整自己的行為的方法,同時用上了起碼7.7萬人工標注的語料庫。
從GPT-3到ChatGPT的迭代過程,圖源東方證券、未來智庫
也就是說,經(jīng)過RLHF的多輪磨練、大量人工標注數(shù)據(jù)的修正,2020年發(fā)布的語言理解能力較弱、名不見經(jīng)傳的GPT-3,才成功蛻變成為有著多輪對話能力、史上月活用戶數(shù)量最快破億應用的ChatGPT。
在這一過程中,數(shù)據(jù)標注廠商們功不可沒。
目前,國內(nèi)大部分數(shù)據(jù)標注服務商提供文本、語音、圖像、視頻等各類型數(shù)據(jù)標注,服務應用領(lǐng)域涵蓋安防、智能駕駛、醫(yī)療、教育、金融等多個領(lǐng)域,主要客戶包括科技公司、人工智能企業(yè)、傳統(tǒng)企業(yè)、政府部門和科研機構(gòu)等。
數(shù)據(jù)服務方面,分為數(shù)據(jù)集產(chǎn)品和數(shù)據(jù)資源定制服務。數(shù)據(jù)集產(chǎn)品按用途劃分,有訓練集、驗證集、測試集等。而數(shù)據(jù)資源定制服務,即根據(jù)客戶業(yè)務特點,專門提供定制化的基礎(chǔ)數(shù)據(jù)全流程服務,數(shù)據(jù)內(nèi)容以語音、圖像、NLP、OCR為主。
目前,玩家們根據(jù)行業(yè)局勢、技術(shù)優(yōu)勢,“各有所好”:
作為較早進入數(shù)據(jù)標注行業(yè)的玩家,標貝科技在能力上具備全面性,同時也更專注于智能語音交互。目前,標貝基于AI+SaaS開放平臺,提供語料庫建設與標注、指令微調(diào)服務、基于人工反饋的強化學習標注三大服務模塊,與微軟、百度、阿里、科大訊飛等國內(nèi)外百余家企業(yè)客戶建立合作,涵蓋汽車、教育、客服、零售、閱讀、智能硬件等多個領(lǐng)域。
標貝科技ChatGPT標注平臺操作頁面,圖源標貝科技
其中,基于人工反饋的強化學習標注便是ChatGPT背后的秘密武器。簡單來說,就是用人工標注的方式,不斷地將結(jié)果去反饋給模型:回答好的給出正反饋,回答不好的,就通過加分機制的方式讓模型進一步的自我迭代,并進行不斷的調(diào)優(yōu),直到回答正確。
在數(shù)據(jù)標注行業(yè)中,除了標貝之外,也有其他玩家共同推動行業(yè)發(fā)展。
比如數(shù)據(jù)服務商Appen,主營業(yè)務包括數(shù)據(jù)采集、數(shù)據(jù)預處理與模型評價三大類,業(yè)務類型齊全。又或者是國內(nèi)的廠商海天瑞聲,已然形成文字、圖片、音頻、視頻等多模態(tài)標注布局,可在全球進行190種語言、方言的采集,多場景圖像、視頻采集以及多行業(yè)領(lǐng)域文本語料制作。
但就能力來看,標貝在圖文、音視頻領(lǐng)域有著更為全方位的布局,因此其在智能語音大模型數(shù)據(jù)標注上,有著絕對話語權(quán)。
對比各家官網(wǎng)發(fā)現(xiàn),標貝在智能語音標注層面提供的工具、產(chǎn)品以及解決方案是最全的,除此之外,標貝推出多語種語音識別數(shù)據(jù)庫,覆蓋美式英語、英式英語、韓語、法語、西班牙語、俄語、阿拉伯語等多語種,解決多語種識別訓練語料稀缺的難題。
同時,標貝所打造的模型更為高效、所提供的服務也更為全面。
在對話大模型優(yōu)化數(shù)據(jù)設計方案上,除了最基本的數(shù)據(jù)采集和清洗技術(shù)外,標貝科技還擁有一系列高效處理數(shù)據(jù)、優(yōu)化模型的技術(shù)。
例如,模型微調(diào)技術(shù),相對于從頭開始訓練(Training a model from scratch),微調(diào)技術(shù)能夠省去大量計算資源和計算時間,提高計算效率的同時提高準確率。
又或者是終身學習技術(shù),能夠讓模型在不同的任務上依次訓練,并能夠勝任所有任務,而不是像傳統(tǒng)的機器學習那樣,一個網(wǎng)絡只能勝任一個任務?;诖?,模型能夠舉一反三,同樣能夠省去大量計算資源和計算時間。
全面的服務,體現(xiàn)在標貝能夠在模型運作的各個階段持續(xù)助力。
基于更高效的技術(shù)以及多個場景的磨練,在中小模型落地過程中,標貝能夠提供“保姆級服務”。在早期,標貝基于常年經(jīng)驗積累,能夠幫助客戶快速理清項目的技術(shù)難點和解決方案,能夠幫助“初來乍到”的客戶快速摸清項目脈絡。
中期,標貝能夠快速驗證自身的數(shù)據(jù)設計和標注方案在不同開源模型規(guī)模、模型風格上的效果,從而可以預覽和優(yōu)化最終客戶的成品模型水平,也就是說,能在項目成型之前,把偏差扼殺在搖籃里。
據(jù)標貝官方介紹,近期,其與一家大型智能AI公司合作中,在“對話大模型優(yōu)化推理鏈(Chain of Thoughts)的數(shù)據(jù)集”項目上,標貝科技在數(shù)據(jù)方案設計階段之前便和該客戶共同驗證了多個版本的設計方案在開源中小模型中的效果,迭代和修正了之前無法預估的偏置錯誤。
數(shù)據(jù)標注行業(yè),玩家無數(shù)。在這之中,有著過硬技術(shù)實力、能夠提供定制化、“保姆級”服務能力的廠商自然會脫穎而出。但想要讓這條賽道越走越寬,還需要更多力量的支持。
GPT-4們嗷嗷待哺,合作乃是最優(yōu)解
據(jù)國務院《新一代人工智能發(fā)展規(guī)劃》預測,2025年我國人工智能核心產(chǎn)業(yè)規(guī)模將超過4000億元,帶動產(chǎn)業(yè)規(guī)模或超5萬億元。
人工智能本就火熱,現(xiàn)如今再疊加ChatGPT推動作用,以及有標貝等高質(zhì)量數(shù)據(jù)標注商的助力,讓這條賽道的未來更加令人期待。但不能否認的是,目前也存在著一個殘酷的事實——用于大模型的高質(zhì)量數(shù)據(jù)不夠用了。
據(jù)Epoch AI Research研究人員預測,大模型所需的高質(zhì)量語言數(shù)據(jù)存量將在2026年耗盡,低質(zhì)量的語言數(shù)據(jù)和圖像數(shù)據(jù)的存量將分別在2030年至2050年、2030年至2060年枯竭。
如果數(shù)據(jù)效率沒有顯著提高或有新的數(shù)據(jù)源可用,那么到2040年,大模型的規(guī)模增長或許將會放緩。
不同數(shù)據(jù)類型的消耗趨勢和耗盡日期,圖源Epoch AI Research
這就意味著,市場急需標貝科技等數(shù)據(jù)標注廠商高效率地產(chǎn)出高質(zhì)量數(shù)據(jù),為ChatGPT們補充養(yǎng)分。
但就目前來看,國內(nèi)的數(shù)據(jù)標注行業(yè),仍然稚嫩。
其中較大的問題是,數(shù)據(jù)標注行業(yè)缺乏“條條框框”的約束:例如行業(yè)標準的制定,商業(yè)模式的敲定等等。某AI數(shù)據(jù)標注訓練師對連線Insight表示,如今的數(shù)據(jù)標注公司之間一味地拼低價亂象叢生,最終拿到項目的乙方往往沒有能力承接。
與此同時,數(shù)據(jù)標注行業(yè)中的一些玩家也處于毛利率、營收持續(xù)走低的困境中。
根據(jù)海天瑞聲2019-2021年財報顯示,其毛利率從2019年的70.25%下滑至2021年的64.01%,營收方面也從2019年的2.38億元,下滑至2021年的2.06億元。
2019-2021年海天瑞聲營收、毛利率情況,數(shù)據(jù)來源于同花順,連線Insight制圖
更為重要的是,隨著大模型的迅速發(fā)展,供大模型訓練所需的語料量,非一家能夠滿足。
當前大模型訓練需要的語料量非常龐大,但由于歷史原因,語料在不同語言之間存在局部的不均勻性問題。
一個典型的例子是,絕大多數(shù)源代碼是用英語書寫的,但代碼語法本身是基于英文單詞設計。這導致不少模型即使參數(shù)量很大,卻無法準確地捕捉到中文術(shù)語和源代碼的對應規(guī)律,無法在中文用戶的提示下寫出同等質(zhì)量的代碼。
高質(zhì)量數(shù)據(jù)需求迫在眉睫,現(xiàn)有語料庫質(zhì)量堪憂,而國內(nèi)數(shù)據(jù)標注行業(yè)還似一盤散沙,標貝針對該困局,提出了自己的解法。
根據(jù)標貝官方消息,其將公開一系列數(shù)據(jù)集,旨在解決這類局部不均勻性的問題。
標貝的思路是,將代碼中的備注內(nèi)容替換成了高質(zhì)量的、符合表達規(guī)律的中文漢字。之后,還會按照實際業(yè)務需求和國內(nèi)開源大模型的發(fā)展情況,定期設計和公開類似的數(shù)據(jù)集。
在這之中,標貝將更好地利用存量代碼進行數(shù)據(jù)增強處理,以提高大模型在書寫代碼、專業(yè)長篇討論時處理中文文本的能力。同時,標貝也呼吁更多的數(shù)據(jù)標注廠商能夠參與進來,共同提高GPT-4等大模型語料庫的數(shù)據(jù)質(zhì)量。
在業(yè)內(nèi)看來,GPT-4等大模型潛力無限,標貝科技也有能力把好數(shù)據(jù)標注的關(guān),使得大模型能夠產(chǎn)出更高質(zhì)量的數(shù)據(jù)。同時,數(shù)據(jù)標注行業(yè)仍需更多數(shù)據(jù)標注廠商共同合作,豐富數(shù)據(jù)集,改善語料庫質(zhì)量,共商行業(yè)標準,厘清商業(yè)模式,高效率地產(chǎn)出高質(zhì)量數(shù)據(jù)。
正如地平線創(chuàng)始人余凱為《深度學習革命》一書寫的序言“人工智能領(lǐng)域能得到快速發(fā)展,關(guān)鍵在于有著眾多的合作者來推動這項事業(yè)”。而作為技術(shù)底座的數(shù)據(jù)標注行業(yè),更是如此。
上一篇:GPT正在“殺死”咨詢顧問?