在弗蘭克·赫伯特的《沙丘》中,沙漠星球厄拉科斯的沙丘下隱藏著一種無價之寶:香料。
這種神秘物質(zhì)使太空旅行成為可能,能延長壽命,并具有擴展意識的效果,是宇宙中最寶貴的財富?!罢l控制了香料,誰就控制了宇宙”。正如香料在《沙丘》宇宙中占據(jù)著至關(guān)重要的地位一樣,在當今的生成式人工智能時代,數(shù)據(jù)也承載著類似角色。
就像《沙丘》中對香料的爭奪,現(xiàn)實世界里各方勢力也在為數(shù)據(jù)資源展開激烈角逐。海量的數(shù)據(jù)如同埋藏在數(shù)字世界沙丘下的“香料”,蘊藏著難以估量的價值。而那些能夠高效采集、管理和利用數(shù)據(jù)的企業(yè),就像小說中控制香料的勢力,在這場數(shù)據(jù)爭奪戰(zhàn)中占據(jù)著優(yōu)勢地位。
如同香料在《沙丘》宇宙中的供應并不是無限的如果開采過度或生態(tài)系統(tǒng)受到破壞,香料的產(chǎn)量可能會大幅減少甚至耗盡,數(shù)據(jù)也可能被耗盡。根據(jù)非營利研究機構(gòu)Epoch AI的最新論文,大語言模型會在2028年耗盡互聯(lián)網(wǎng)文本數(shù)據(jù)。
大模型真的在吞噬人類的一切數(shù)據(jù)嗎?我們是否正處在一個看似無盡的數(shù)字香料狂潮中,不斷地向這些饑渴的大模型提供養(yǎng)分?
預計在未來幾年內(nèi)可能會耗盡現(xiàn)有的公共文本數(shù)據(jù)存量
人類生成的數(shù)據(jù)量有限,一旦這些文本數(shù)據(jù)被耗盡,可能會成為約束語言模型繼續(xù)擴展的主要瓶頸。相關(guān)論文認為,語言模型將在2026年到2032年之間利用完這些數(shù)據(jù),但如果考慮到利潤最大化,過度訓練數(shù)據(jù)可能會導致數(shù)據(jù)在2025年就被用完。
月之暗面創(chuàng)始人楊植麟也在近期表達了類似觀點,他認為大模型通向AGI最大的挑戰(zhàn)是數(shù)據(jù)。楊植麟表示,“假設你想最后做一個比人類更好的AI,但可能根本不存在這樣的數(shù)據(jù),因為現(xiàn)在所有的數(shù)據(jù)都是人產(chǎn)生的。所以最大的問題是怎么解決這些比較稀缺、甚至一些不存在的數(shù)據(jù)?!?/p>
根據(jù)Epoch研究員Pablo Villalobos的觀點,OpenAI在訓練GPT-4時使用了大約1200萬個token,GPT-5需要60到100萬億個token才能跟上預期的增長。關(guān)鍵在于即使用盡互聯(lián)網(wǎng)上所有可能的高質(zhì)量數(shù),仍然需要10萬到20萬億token,甚至更多。
面對如此龐大的數(shù)據(jù)需求,合成數(shù)據(jù)也是一個學術(shù)界和產(chǎn)業(yè)界都在嘗試的重要方向。合成數(shù)據(jù)基于現(xiàn)有數(shù)據(jù)進行擴充,這種能力對未來的訓練數(shù)據(jù)規(guī)模至關(guān)重要。不過,用AI生成的數(shù)據(jù)進行訓練也存在一些局限性,例如可能導致模型崩潰等問題。
目前,大模型廠商主要從網(wǎng)絡上抓取科學論文、新聞文章、維基百科等公開信息來訓練模型。從長遠來看,僅依靠新聞文章和社交媒體等內(nèi)容可能無法維持人工智能的發(fā)展需求。這可能迫使企業(yè)開始利用一些敏感的私有數(shù)據(jù),如電子郵件、聊天記錄等,或不得不依賴于聊天機器人自身生成的質(zhì)量不高的數(shù)據(jù)。
數(shù)據(jù)不夠用是“杞人憂天”?
沒有數(shù)據(jù)就無法訓練大語言模型,但數(shù)據(jù)真的不夠用了嗎?對于這一問題,也有人持有不一樣的觀點。
星環(huán)科技孫元浩認為,這是一個“假新聞的判斷”。在他看來,除了現(xiàn)有互聯(lián)網(wǎng)的存量數(shù)據(jù),各個企業(yè)內(nèi)部還有大量的數(shù)據(jù)沒有被利用,“現(xiàn)在數(shù)據(jù)多到遠遠超過模型可以處理的量”。
“大模型結(jié)構(gòu)和訓練方法都不是秘密了,而語料散落在各種地方,需要把現(xiàn)有語料整理起來訓練或微調(diào)模型,工作量非常巨大,這是目前最大的挑戰(zhàn)?!睂O元浩告訴硅星人。
其中的一個重要問題,是數(shù)據(jù)處理范式從結(jié)構(gòu)化數(shù)據(jù)到非結(jié)構(gòu)化數(shù)據(jù)的轉(zhuǎn)變。結(jié)構(gòu)化數(shù)據(jù),例如數(shù)據(jù)庫中的表格數(shù)據(jù),有明確的字段和格式,易于存儲和查詢。而文本文檔、合同協(xié)議、教材等非結(jié)構(gòu)化數(shù)據(jù),雖然包含豐富的信息和知識,但由于缺乏統(tǒng)一的格式,難以直接存儲和檢索,企業(yè)內(nèi)部的非結(jié)構(gòu)化數(shù)據(jù)往往也需要更專業(yè)的數(shù)據(jù)標注處理。
為此,星環(huán)試圖通過提供包括語料處理、模型訓練、知識庫建設在內(nèi)的工具鏈,提升企業(yè)的數(shù)據(jù)處理能力?!拔覀円庾R到不可能一個模型通曉各個領(lǐng)域,企業(yè)核心機密是不可能讓你知道的,我們定位為提供工具幫你做訓練,你自己煉一個模型?!?/p>
挖掘企業(yè)內(nèi)部數(shù)據(jù)重要性的另外一個例證是摩根大通擁有150PB的專有數(shù)據(jù)集,而GPT-4僅在不到1PB的數(shù)據(jù)上訓練。不過兩者的數(shù)據(jù)在質(zhì)量、類型和用途上存在顯著差異。大模型面臨的挑戰(zhàn)主要在于獲取高質(zhì)量、多樣化且合法可用的訓練數(shù)據(jù),而非簡單的數(shù)據(jù)量不足。
對于“數(shù)據(jù)荒”,數(shù)據(jù)服務商景聯(lián)文科技創(chuàng)始人劉云濤也表達了類似觀點?!拔覀儸F(xiàn)在真實數(shù)據(jù)都來不及處理,數(shù)據(jù)不夠是杞人憂天了?!彼蚬栊侨吮硎荆拔翌A估洗完之后,中國的高質(zhì)量數(shù)據(jù)大概是有150TB,世界上還有很多個國家?!?/p>
他認為目前存在的問題主要在于高質(zhì)量的數(shù)據(jù)的問題,涉及到數(shù)據(jù)清洗、數(shù)據(jù)工程。
劉云濤表示,大模型時代的核心變化首先是數(shù)據(jù)量變大了,“以前一個題庫10 萬、20萬道已經(jīng)很大的項目?,F(xiàn)在以億為單位,技術(shù)處理能力就變得非常重要了,因為你不可能靠人工?!?/p>
第二個變化在標準環(huán)節(jié),需要引入專業(yè)領(lǐng)域的人工標注,“原來人工標注和自動化標注是一個平行的關(guān)系,那現(xiàn)在更像是技術(shù)標注放在前一輪,后一輪是專家級的標注。”
專家級標注指的是一種更高級別、更精細的人工標注過程,這種標注工作通常需要專業(yè)知識,能夠?qū)ψ詣踊瘶俗⒌慕Y(jié)果進行校正和優(yōu)化,以確保數(shù)據(jù)集的高質(zhì)量。與此前的用低成本勞動力完成的簡單數(shù)據(jù)標注工作也有所不同。據(jù)稱,OpenAI內(nèi)部就有一個幾十名博士級別的專業(yè)人士組成的團隊來做標注。
大模型廠商在處理數(shù)據(jù)時遵循的流程通常包括幾個環(huán)節(jié):首先,數(shù)據(jù)從各渠道獲取被獲取后,進入數(shù)據(jù)工程部門。數(shù)據(jù)工程師會對數(shù)據(jù)進行清洗和預處理。接著,處理好的數(shù)據(jù)會被交給算法部門,算法部門會利用多種方法進一步處理,包括調(diào)參、通過監(jiān)督學習對模型進行微調(diào)(SFT),以及使用人類反饋來強化學習模型(RLHF),經(jīng)過這些步驟處理后的數(shù)據(jù),最終會被應用到具體的任務或產(chǎn)品中。
在這一過程中,大模型廠商的核心的需求是從分布在各處的數(shù)據(jù)中提煉出可以用于微調(diào)、訓練或持續(xù)優(yōu)化模型的高質(zhì)量數(shù)據(jù)。
Scale.AI專注于為企業(yè)客戶提供訓練數(shù)據(jù)的數(shù)據(jù)標注開發(fā)。該平臺采用自動化標注、半自動化標注和人工審核等先進技術(shù),提高標注的速度和準確性,并提供數(shù)據(jù)管理和質(zhì)量控制工具。
在劉云濤看來,Scale.AI的核心不在于有很多數(shù)據(jù),而是擁有快速處理數(shù)據(jù)的能力?!癝cale AI建立了一整套數(shù)據(jù)清洗的流程,另外還建立了一套數(shù)據(jù)引擎,能形成真正的數(shù)據(jù)飛輪,這是個流程性的技術(shù)的問題?!?/p>
開源數(shù)據(jù)的困境
大語言模型之所以能夠展現(xiàn)出驚人的理解和生成能力,是因為從海量的預訓練數(shù)據(jù)中學習了豐富的世界知識。而開源數(shù)據(jù),如網(wǎng)頁、書籍、新聞、論文等,正是這些預訓練語料的重要來源。通過開放共享,開源數(shù)據(jù)為模型提供了廣泛而多樣的知識來源,使其能夠?qū)W習到人類社會的方方面面。可以說,沒有開源數(shù)據(jù)的支撐,大語言模型就難以獲得足夠的“知識養(yǎng)料”來實現(xiàn)快速發(fā)展。
由社區(qū)和非營利組織推動的開源數(shù)據(jù)項目,為語言模型的訓練提供了豐富多樣的語料,對推動了自然語言處理技術(shù)的發(fā)展至關(guān)重要。智源研究院林詠華告訴硅星人“如果沒有Common Crawl,整個大模型的發(fā)展都會延后。”
她也指出了一個相關(guān)的問題,國外志愿者參與的開源數(shù)據(jù)集的建設,如BookCorpus、古騰堡工程都積累數(shù)年時間,而在國內(nèi)很少有人做類似的事情,這就造成了中文數(shù)據(jù)的數(shù)據(jù)孤島問題。
人工智能開源開放數(shù)據(jù)平臺OpenDataLab相關(guān)負責人告訴硅星人,數(shù)據(jù)資源持有方普遍存在的一個顧慮是無法明確數(shù)據(jù)開源行為對自身的價值,單純的數(shù)據(jù)開源對于中小型企業(yè)很難形成短期的回報?!皬耐顿Y與回報角度看,企業(yè)如果開源模型,其帶來的技術(shù)的迭代和創(chuàng)新,對企業(yè)來講無疑是一種回報,而開源數(shù)據(jù)則幾乎是純‘利他’的行為,很難有實際的收益?!?/p>
因此,相較于國外由非營利機構(gòu)推動,國內(nèi)各類事業(yè)單位在推動數(shù)據(jù)開源的過程中扮演了十分重要的角色。不過,隨著用戶規(guī)模和數(shù)據(jù)需求的增長,也為各類數(shù)據(jù)開源社區(qū)的資金與存儲等帶來了現(xiàn)實挑戰(zhàn)。
OpenDataLab從公開數(shù)據(jù)收錄、開源平臺建設、數(shù)據(jù)工具研發(fā)、高質(zhì)量原創(chuàng)數(shù)據(jù)集發(fā)布、生態(tài)合作等多方面入手,正在著手推動解決研究和開發(fā)中數(shù)據(jù)需求。
OpeninDataLab表示,中文大規(guī)模數(shù)據(jù)集在開源程度、規(guī)模以及質(zhì)量方面與英文數(shù)據(jù)集相比存在差距,這在一定程度上制約了中文自然語言處理技術(shù)的發(fā)展。目前OpenDataLab已經(jīng)聯(lián)合多家機構(gòu),發(fā)布了一系列原創(chuàng)高質(zhì)量的大規(guī)模AI數(shù)據(jù)集,他們也希望能與更多機構(gòu)一道,通過合作來邀請更多人參與到數(shù)據(jù)開源事業(yè)中來。
在公共數(shù)據(jù)開放和社會力量方面,中國與美國存在一些差異,美國政府在公共數(shù)據(jù)開放中扮演著重要角色,致力于“應開盡開”。政府建立專門的AI訓練數(shù)據(jù)開放平臺,對數(shù)據(jù)進行標識、清洗、標注等處理,并提供便捷的檢索和接口服務。社會力量則整合政府開放數(shù)據(jù)與網(wǎng)絡公開數(shù)據(jù),以開源為主形成高質(zhì)量訓練語料,并在行業(yè)大模型中貢獻專業(yè)性。
中國的公共數(shù)據(jù)共享和利用程度上仍有不足。部分領(lǐng)域如天氣、司法的數(shù)據(jù)開放不如美國充分,在開發(fā)利用中也缺乏API支持。社會力量主要結(jié)合海外開源數(shù)據(jù)和國內(nèi)網(wǎng)絡公開數(shù)據(jù)形成訓練集在行業(yè)大模型中,社會力量雖有貢獻,但受限于專業(yè)門檻高、企業(yè)共享意愿低、公共數(shù)據(jù)開放不足等困難。
數(shù)據(jù)采集中的“灰度”
生成式人工智能的發(fā)展主要依賴大模型以及對大模型的數(shù)據(jù)訓練,數(shù)據(jù)訓練又離不開大規(guī)模的數(shù)據(jù)爬取。數(shù)據(jù)采集是產(chǎn)業(yè)鏈的起點,涉及從互聯(lián)網(wǎng)、社交媒體、公共數(shù)據(jù)庫等多個渠道收集原始數(shù)據(jù)。這一環(huán)節(jié)需要遵守數(shù)據(jù)隱私和版權(quán)法規(guī),確保數(shù)據(jù)來源的合法性。隨著技術(shù)的發(fā)展,自動化工具如網(wǎng)絡爬蟲被廣泛使用,但同時也帶來了數(shù)據(jù)隱私和安全等問題。
五號雷達相關(guān)負責人童君告訴硅星人,數(shù)據(jù)爬取方面,Robots協(xié)議在網(wǎng)絡數(shù)據(jù)獲取是一種行業(yè)內(nèi)的約定俗成。不過Robots協(xié)議遵循基于爬蟲的自覺性,并不能從根本上阻止數(shù)據(jù)的獲取?!斑@個行業(yè)水下的產(chǎn)業(yè)占80%,比如場外項目制的數(shù)據(jù)購買,數(shù)據(jù)進行二次加工之后,源頭的數(shù)據(jù)是來自于哪里?這個東西沒辦法追溯?!?/p>
景聯(lián)文創(chuàng)始人劉云濤則建議從“灰度”的角度來看待這個問題,“一個全新的行業(yè),無論從國家到企業(yè)、個人都在探索,一定是有灰度的”。他認為,在大數(shù)據(jù)和人工智能的新興行業(yè)中,存在著一些灰色地帶,主張應該用技術(shù)手段將灰色地帶變成白色,合法合規(guī)。
景聯(lián)文用技術(shù)手段如SFT或人工標注,將獲取的數(shù)據(jù)轉(zhuǎn)化為可交付使用的數(shù)據(jù),建立高質(zhì)量大模型訓練數(shù)據(jù)集。他打了個比方,就像“別人在野地里采摘的白菜,經(jīng)過他們的加工,變成了預制菜?!?/p>
隨著數(shù)據(jù)被定義為新的生產(chǎn)要素,全國各地紛紛成立了大量的數(shù)據(jù)交易所和交易中心。成為解決行業(yè)內(nèi)的灰色地帶問題,提高市場參與者的安全感的一種新的機制。
截至目前,國內(nèi)已成立了超過40家數(shù)據(jù)交易所,包括上海數(shù)交所、貴陽大數(shù)據(jù)交易所和北京國際大數(shù)據(jù)交易所等。這些交易所通過搭建數(shù)據(jù)要素流通平臺,提供數(shù)據(jù)供需對接撮合機制,以釋放數(shù)據(jù)要素的價值。
劉云濤認為,數(shù)據(jù)交易所是一個顯著中國特色的新興市場,但建立一個有效的數(shù)據(jù)交易體系還需要大量的工作來完善?!澳懿荒苷嬲鉀Q數(shù)商和購買方之間的問題?如果交易所只是讓我們付出,不能給我們帶來收益,那就沒有意義,這個事是需要時間的。”
五號雷達童君也表示,“大模型廠商基本上不會去交易所買數(shù)據(jù)。不是說今天我來做大模型,然后買一堆數(shù)據(jù)回來?!?/p>
據(jù)介紹,數(shù)據(jù)交易市場目前存在多種模式。有的大公司建立了平臺,提供數(shù)據(jù)產(chǎn)品和數(shù)據(jù)集,主要以API形式供企業(yè)購買服務。此外,還存在針對特定項目的定制化數(shù)據(jù)購買模式。在這種情況下,買方了解數(shù)據(jù)的來源(如氣象局)。并直接與擁有數(shù)據(jù)的機構(gòu)或企業(yè)進行交易。
“是時候把數(shù)據(jù)Scale Down了”
LLaMA3通過將訓練數(shù)據(jù)從2T增加到15T,即使模型架構(gòu)保持不變,模型性能得到了顯著提升,然而,這種“暴力擴展”的方法雖然有效,但也面臨著邊際效應遞減和資源消耗增加的問題。
語料規(guī)模并非越大越好,而是高信息密度的語料規(guī)模越大越好:Common Crawl是400TB的數(shù)據(jù)集,包含了互聯(lián)網(wǎng)上數(shù)十億網(wǎng)頁,內(nèi)容非常廣泛但未經(jīng)清洗。而C4則是對CC進行了過濾噪聲、重復內(nèi)容等清洗后的305GB數(shù)據(jù)集。經(jīng)評估發(fā)現(xiàn)基于C4訓練的模型性能優(yōu)于CC,這既說明了數(shù)據(jù)清洗的重要性,也說明了語料規(guī)模不能一味追求大。
近期,DCLM項目組,從Common Crawl中成功提取并清洗出240T的數(shù)據(jù),也為數(shù)據(jù)規(guī)模增加的可行性提供了新的證據(jù)。這一進展為數(shù)據(jù)的“Scale Up”策略提供了支持,但同時也提醒人們注意到數(shù)據(jù)處理和清洗背后的計算成本。
清華博士秦禹嘉表示,前scaling law時代我們強調(diào)的是scale up,即努力追求數(shù)據(jù)壓縮后的模型智能上限,后scaling law時代大家比拼的是scale down,即誰能訓練出“性價比”更高的模型。
例如,PbP團隊利用較小模型的性能評價來過濾數(shù)據(jù),從而提升大型模型的訓練效果和收斂速度。類似地,DeepSeek通過使用fastText來清洗高質(zhì)量數(shù)據(jù),為特定場景下的模型訓練提供了優(yōu)質(zhì)數(shù)據(jù)。
這些研究成果暗示,通過徹底優(yōu)化數(shù)據(jù)的質(zhì)量,小型模型的訓練效果可以接近或等同于使用大規(guī)?!芭K數(shù)據(jù)”訓練的大型模型。這不僅示范了數(shù)據(jù)清洗在提升模型效率中的重要性,也說明在某些情況下,模型的參數(shù)規(guī)模并非越大越好,關(guān)鍵在于如何有效地利用每一份數(shù)據(jù)。
隨著AI領(lǐng)域的不斷發(fā)展,這種對“效率”和“質(zhì)量”的追求正在成為研究和實踐中的新趨勢。未來,數(shù)據(jù)處理的方法,包括數(shù)據(jù)去噪、改寫預訓練數(shù)據(jù)等策略,將成為推動大模型發(fā)展的關(guān)鍵因素。同時,這也意味著數(shù)據(jù)質(zhì)量可能成為衡量AI模型性能的新標準,而不僅僅是數(shù)據(jù)規(guī)模。
在當今快速發(fā)展的人工智能領(lǐng)域,數(shù)據(jù)成為了推動技術(shù)前進的基石,它的角色越來越像《沙丘》中珍貴的香料——無處不在,價值巨大。隨著對數(shù)據(jù)需求的增長,如何有效地收集、處理和利用這些“數(shù)字香料”成為了關(guān)鍵問題。從提高數(shù)據(jù)質(zhì)量到拓寬數(shù)據(jù)獲取渠道,未來的AI發(fā)展不僅取決于我們?nèi)绾螒獙@些挑戰(zhàn),更在于我們?nèi)绾卧跀?shù)據(jù)的海洋中探尋新的可能。正如《沙丘》展示的那樣,真正的力量來自于對這些資源的理解和利用——誰解決好了數(shù)據(jù)問題,誰就擁有了未來的鑰匙。
《沙丘》中的領(lǐng)航員通過食用香料獲得了預測未來的能力,人工智能算法通過處理大量數(shù)據(jù)集,發(fā)現(xiàn)模式和趨勢。在《沙丘》宇宙中,人類在香料混合物的影響下進化,獲得新的能力并經(jīng)歷意識的重大飛躍。同樣,人工智能乃至AGI的發(fā)展也可能會為人類帶來類似的深遠影響。
只不過如果知道十年前在社交媒體上發(fā)布的內(nèi)容,有朝一日會成為推動技術(shù)進步的“香料”,或許我們會更加慎重地對待自己的數(shù)字足跡。