有著大模型儲(chǔ)備的大廠,紛紛下場(chǎng)布局。上月底,在360科技2023年數(shù)字安全與發(fā)展高峰論壇上,其官方正式發(fā)布大語言模型360 AI。
而在更早以前,作為國內(nèi)率先對(duì)人工智能領(lǐng)域布局的百度,也推出了旗下多模態(tài)大模型應(yīng)用——文心一言,據(jù)百度CEO李彥宏介紹,該模型具備文學(xué)創(chuàng)作、商業(yè)文案創(chuàng)作、數(shù)理推算、中文理解、多模態(tài)生成五個(gè)使用場(chǎng)景的綜合能力。
與此同時(shí),阿里,美團(tuán)等大廠的一大批高管,看準(zhǔn)機(jī)會(huì)相繼宣布創(chuàng)業(yè),拿出大部分身家,只為做出中國版的ChatGPT。
先是在今年2月,原美團(tuán)聯(lián)合創(chuàng)始人王慧文在社交媒體上宣布出資5000萬美元,設(shè)立北京光年之外科技有限公司,并表示75%的股份用于邀請(qǐng)頂級(jí)研發(fā)人才,打造中國OpenAI。另據(jù)最新消息,光年之外近期已啟動(dòng)新一輪融資。
次月,阿里前技術(shù)副總裁賈揚(yáng)清也透露了他下一步的創(chuàng)業(yè)打算,據(jù)他介紹其目標(biāo)是AI大模型底層技術(shù)相關(guān),目前融資已基本到位。
除此之外,還有字節(jié)跳動(dòng)旗下今日頭條前用戶產(chǎn)品負(fù)責(zé)人張前川、快手前國際化技術(shù)負(fù)責(zé)人王美宏、IDEA研究院理事長沈向洋、循環(huán)智能聯(lián)合創(chuàng)始人楊植麟等高管,試圖在ChatGPT風(fēng)口中,尋求“再就業(yè)”的機(jī)會(huì)。
一大批創(chuàng)業(yè)者們前赴后繼,“ChatGPT們”正加速狂飆,這背后少不了多個(gè)行業(yè)“保駕護(hù)航”。
要建立ChatGPT這樣的大模型應(yīng)用,少不了算法、算力和數(shù)據(jù)三大行業(yè)的支持,簡(jiǎn)單說,應(yīng)用要高效運(yùn)行起來,就需要強(qiáng)大算力的支持,而要讓應(yīng)用背后的算法更為聰明,則需要源源不斷地向其“投喂”高質(zhì)量數(shù)據(jù)。
由此可見,算法大模型想要實(shí)現(xiàn)升級(jí)和迭代,最為關(guān)鍵的就是需要大量數(shù)據(jù)的訓(xùn)練,而要保證這些數(shù)據(jù)的質(zhì)量,就需要對(duì)數(shù)據(jù)進(jìn)行清洗、標(biāo)注、質(zhì)檢等多個(gè)步驟,要完成這一目標(biāo),少不了標(biāo)貝科技、海天瑞聲為代表的一批數(shù)據(jù)標(biāo)注提供商的助力。
現(xiàn)階段,數(shù)據(jù)標(biāo)注廠商們已耕耘多年,且各有“兩把刷子”。
標(biāo)貝科技,作為多年扎根在數(shù)據(jù)標(biāo)注領(lǐng)域的企業(yè),專注于智能語音交互與AI數(shù)據(jù)服務(wù),并通過精細(xì)化的定制服務(wù)打出自己在行業(yè)中的優(yōu)勢(shì)。截止目前,標(biāo)貝科技服務(wù)項(xiàng)目累計(jì)超過1000項(xiàng)。
除此之外,海天瑞聲、Scale.AI、Appen等玩家,同樣是專注于數(shù)據(jù)標(biāo)注的廠商,具備全套的產(chǎn)品與服務(wù),在語音、計(jì)算機(jī)視覺、自然語言理解等領(lǐng)域皆有布局。
隨著GPT-4等大模型的進(jìn)一步發(fā)展,對(duì)于訓(xùn)練數(shù)據(jù)質(zhì)量的要求必將更為苛刻,擺在數(shù)據(jù)標(biāo)注廠商們面前的,是無限機(jī)會(huì)與挑戰(zhàn)。
ChatGPT創(chuàng)業(yè)潮來了,
高質(zhì)量數(shù)據(jù)成“剛需”
ChatGPT正為交互領(lǐng)域帶來“劃時(shí)代”的改變。
隨著1946年,世界第一臺(tái)現(xiàn)代計(jì)算機(jī)EDVAC誕生,交互1.0時(shí)代正式開啟。人們用打孔紙,通過輸入0、1二進(jìn)制的機(jī)器語言與計(jì)算機(jī)進(jìn)行交互,直到上世紀(jì)70年代,人機(jī)交互迎來一次新的蛻變。
當(dāng)時(shí),隨著首臺(tái)個(gè)人計(jì)算機(jī)的問世,相比于此前用打孔交互不同,人們可以通過鼠標(biāo)、鍵盤向計(jì)算機(jī)傳達(dá)任務(wù):即通過點(diǎn)擊電腦圖標(biāo)、以及用鍵盤輸入指令向計(jì)算機(jī)下達(dá)命令,從而讓計(jì)算機(jī)做出反饋,自此,計(jì)算機(jī)開始“飛入更多尋常百姓家”。
這之后,雖然出現(xiàn)了Windows等多款操作系統(tǒng),并且這些操作系統(tǒng)自身也持續(xù)不斷地進(jìn)行著更新,但從本質(zhì)將人機(jī)交互依然是通過編碼和解碼后的機(jī)器語言來進(jìn)行。
直到2022年,OpenAI帶著ChatGPT的到來,讓交互領(lǐng)域再度迎來“iPhone”時(shí)刻:人們能夠直接用自然語言流暢地與計(jì)算機(jī)進(jìn)行交流,并且計(jì)算機(jī)能夠直接理解自然語言并與用戶進(jìn)行反饋和對(duì)話。
之所以說是ChatGPT開啟了新的交互時(shí)代,是因?yàn)?span style="font-weight: 700;">相較于以往的對(duì)話模型,ChatGPT有著質(zhì)的飛躍。
經(jīng)過連線Insight體驗(yàn),ChatGPT能夠從中國詩詞歌賦聊到西方人生哲學(xué),并在最后進(jìn)行總結(jié);而以往的對(duì)話模型只能表達(dá)一首簡(jiǎn)短的中文詩。也就是說ChatGPT能夠?qū)崿F(xiàn)多輪及結(jié)合上下文的不間斷聊天,且能記住以往指令,同時(shí)用各國語言溝通無障礙。
而ChatGPT背后的大模型還在不斷迭代:從2022年底的GPT-3.5到2023年初的GPT-4,性能又得到了全方位的提升。
GPT-4較于GPT-3.5的性能提升,圖源OpenAI
當(dāng)看到ChatGPT在人機(jī)交互上跨時(shí)代的表現(xiàn)后,很快,各行各業(yè)都向ChatGPT們發(fā)出邀約。
最為聲勢(shì)浩大的莫過于微軟,在2020年,微軟下了血本投資OpenAI 10億美元,在2023年,微軟迎來摘果子時(shí)刻:微軟正在將自家生態(tài)逐步和GPT進(jìn)行結(jié)合,從而形成全新的AI生態(tài)。
上月17日,微軟發(fā)布融合GPT-4能力的Microsoft 365 Copilot。據(jù)了解,Copilot將會(huì)被內(nèi)置到Word、Excel、PowerPoint、Outlook、Teams等應(yīng)用之中。
簡(jiǎn)單來說,用戶只需要對(duì)Office下一個(gè)編輯的指令,Word、PPT、Excel等就會(huì)自動(dòng)“干活”。例如,在制作PPT時(shí),Copilot可以基于用戶的輸入內(nèi)容自動(dòng)生成PPT頁面,并提供字體、顏色、背景等設(shè)計(jì)風(fēng)格建議,并且Copilot還可以自動(dòng)檢測(cè)演示文稿中的錯(cuò)誤和重復(fù)內(nèi)容。
就當(dāng)微軟在ChatGPT領(lǐng)域落子的同時(shí),國內(nèi)科技公司百度也率先站出來,發(fā)布了它的類ChatGPT產(chǎn)品——文心一言。據(jù)連線Insight測(cè)試,文心一言同樣具備ChatGPT的眾多能力,比如對(duì)于提問做出及時(shí)、準(zhǔn)確的回應(yīng),以及可以結(jié)合上下文進(jìn)行不間斷的交流和應(yīng)答。
看到文心一言的能力后,國內(nèi)各個(gè)行業(yè)的企業(yè)們紛紛響應(yīng),爭(zhēng)相成為該產(chǎn)品的合作伙伴。比如汽車行業(yè)的集度、長城,媒體行業(yè)的澎湃新聞、大眾日?qǐng)?bào),家電行業(yè)的海信、美的等企業(yè),紛紛接入百度文心一言。截止目前,已有650+公司,等待著百度文心一言的支持。
OpenAI、微軟和百度引領(lǐng)之后,有更多的科技公司參與到類ChatGPT大模型的爭(zhēng)奪中來。
上月底,在360科技2023年數(shù)字安全與發(fā)展高峰論壇上,其官方正式發(fā)布其大語言模型360 AI。目前360的構(gòu)想是,在To C端,基于搜索場(chǎng)景推出人工智能個(gè)人助理類產(chǎn)品;在To SME端,將基于生成式大模型推出SaaS化垂直應(yīng)用,如結(jié)合生成式AI的“企業(yè)即時(shí)通訊工具-推推”等。
除此之外,網(wǎng)易、科大訊飛等科技公司的產(chǎn)品也在孵化之中:2月8日,網(wǎng)易有道對(duì)外表示,該公司未來或?qū)⑼瞥鯟hatGPT同源技術(shù)產(chǎn)品,應(yīng)用場(chǎng)景圍繞在線教育;2月9日,科大訊飛表示,其Al學(xué)習(xí)機(jī)將成為公司類ChatGPT技術(shù)率先落地的產(chǎn)品,并于今年5月發(fā)布。
隨著越來越多科技大廠布局類ChatGPT大模型,行業(yè)內(nèi)外對(duì)于GPT-4等大模型也提出越來越多樣的要求:既要其懂得駕駛語言,賦能智能座艙甚至是自動(dòng)駕駛;又要求其博覽群書,并給出群書中的關(guān)鍵論點(diǎn);還要會(huì)塑造虛擬人物,懂得人類的喜怒哀樂等等。
這也意味著,行業(yè)內(nèi)外對(duì)于大模型必備的“三件套”(算力、算法、數(shù)據(jù)),正提出更高的要求。
對(duì)于大模型“世界”來說,算法是“生產(chǎn)關(guān)系”,是處理數(shù)據(jù)信息的規(guī)則與方式;算力是“生產(chǎn)力”,能夠提高數(shù)據(jù)處理、算法訓(xùn)練的速度與規(guī)模;而數(shù)據(jù)是“生產(chǎn)資料”,高質(zhì)量的數(shù)據(jù)是驅(qū)動(dòng)算法持續(xù)迭代的養(yǎng)分。
基于這一重要性,目前對(duì)于算力的持續(xù)投注已是行業(yè)共識(shí),政府也開始出手。
先是部分地方政府開放算力資源促進(jìn)地方產(chǎn)業(yè)發(fā)展。今年1月,成都出臺(tái)《成都市圍繞超算智算加快算力產(chǎn)業(yè)發(fā)展的政策措施》,政策表明,成都每年將發(fā)放總額不超過1000萬元的“算力券”,用于支持算力中介服務(wù)機(jī)構(gòu)、科技型中小微企業(yè)、科研機(jī)構(gòu)、高校等使用國家超算成都中心、成都智算中心算力資源。
再到次月,國家發(fā)布算力交易平臺(tái),促進(jìn)算力的流通。東數(shù)西算一體化算力服務(wù)平臺(tái)在寧夏銀川在當(dāng)月正式上線發(fā)布。據(jù)悉,東數(shù)西算一體化算力服務(wù)平臺(tái)將瞄準(zhǔn)目前最稀缺、剛需迫切的ChatGPT運(yùn)算能力,以支撐中國人工智能運(yùn)算平臺(tái)急需的大算力服務(wù)。
需要注意的是,如果沒有高質(zhì)量數(shù)據(jù),算力再充足也無濟(jì)于事。參考ChatGPT,其高質(zhì)量數(shù)據(jù)是其在有效場(chǎng)景下采集到的原料數(shù)據(jù),經(jīng)過數(shù)據(jù)清洗、數(shù)據(jù)標(biāo)注、質(zhì)檢等環(huán)節(jié)后產(chǎn)生的。
高質(zhì)量數(shù)據(jù)對(duì)于ChatGPT改進(jìn)的重要性,可從以下案例中,窺見一二。根據(jù)InstructGPT實(shí)驗(yàn)發(fā)現(xiàn),隨著模型參數(shù)量的增加,模型性能均得到不同程度的提高。
模型參數(shù)量與模型性能變化情況,圖源InstructGPT
通過強(qiáng)化學(xué)習(xí)—PPO(近端策略優(yōu)化)生成的模型,比100倍參數(shù)規(guī)模無監(jiān)督的GPT模型效果更好。這里的PPO,便是2017年由OpenAI提出的一種基于隨機(jī)策略的DRL算法,通過對(duì)策略的更新與監(jiān)督來提高策略的效率。
可以說,有監(jiān)督的標(biāo)注數(shù)據(jù)是大模型應(yīng)用成功的關(guān)鍵之一,且標(biāo)注數(shù)據(jù)貴不在數(shù)量而在質(zhì)量。在GPT-4等大模型高速、高質(zhì)量發(fā)展中,高質(zhì)量數(shù)據(jù)是“卡脖子”的存在。
現(xiàn)如今,各行各業(yè)紛紛向ChatGPT們發(fā)來邀約,ChatGPT們急需補(bǔ)充養(yǎng)分。而若想要真正提高ChatGPT的競(jìng)爭(zhēng)力,高質(zhì)量數(shù)據(jù)必不可少。
數(shù)據(jù)標(biāo)注,乃“兵家”重地
從GPT-3到ChatGPT,大模型經(jīng)歷了5次迭代。
據(jù)東方證券研報(bào)顯示,在這幾次迭代中,最明顯的變化是,在訓(xùn)練方式上增加了RLHF,即讓智能體通過接收來自人類用戶或?qū)<业姆答亖碚{(diào)整自己的行為的方法,同時(shí)用上了起碼7.7萬人工標(biāo)注的語料庫。
從GPT-3到ChatGPT的迭代過程,圖源東方證券、未來智庫
也就是說,經(jīng)過RLHF的多輪磨練、大量人工標(biāo)注數(shù)據(jù)的修正,2020年發(fā)布的語言理解能力較弱、名不見經(jīng)傳的GPT-3,才成功蛻變成為有著多輪對(duì)話能力、史上月活用戶數(shù)量最快破億應(yīng)用的ChatGPT。
在這一過程中,數(shù)據(jù)標(biāo)注廠商們功不可沒。
目前,國內(nèi)大部分?jǐn)?shù)據(jù)標(biāo)注服務(wù)商提供文本、語音、圖像、視頻等各類型數(shù)據(jù)標(biāo)注,服務(wù)應(yīng)用領(lǐng)域涵蓋安防、智能駕駛、醫(yī)療、教育、金融等多個(gè)領(lǐng)域,主要客戶包括科技公司、人工智能企業(yè)、傳統(tǒng)企業(yè)、政府部門和科研機(jī)構(gòu)等。
數(shù)據(jù)服務(wù)方面,分為數(shù)據(jù)集產(chǎn)品和數(shù)據(jù)資源定制服務(wù)。數(shù)據(jù)集產(chǎn)品按用途劃分,有訓(xùn)練集、驗(yàn)證集、測(cè)試集等。而數(shù)據(jù)資源定制服務(wù),即根據(jù)客戶業(yè)務(wù)特點(diǎn),專門提供定制化的基礎(chǔ)數(shù)據(jù)全流程服務(wù),數(shù)據(jù)內(nèi)容以語音、圖像、NLP、OCR為主。
目前,玩家們根據(jù)行業(yè)局勢(shì)、技術(shù)優(yōu)勢(shì),“各有所好”:
作為較早進(jìn)入數(shù)據(jù)標(biāo)注行業(yè)的玩家,標(biāo)貝科技在能力上具備全面性,同時(shí)也更專注于智能語音交互。目前,標(biāo)貝基于AI+SaaS開放平臺(tái),提供語料庫建設(shè)與標(biāo)注、指令微調(diào)服務(wù)、基于人工反饋的強(qiáng)化學(xué)習(xí)標(biāo)注三大服務(wù)模塊,與微軟、百度、阿里、科大訊飛等國內(nèi)外百余家企業(yè)客戶建立合作,涵蓋汽車、教育、客服、零售、閱讀、智能硬件等多個(gè)領(lǐng)域。
標(biāo)貝科技ChatGPT標(biāo)注平臺(tái)操作頁面,圖源標(biāo)貝科技
其中,基于人工反饋的強(qiáng)化學(xué)習(xí)標(biāo)注便是ChatGPT背后的秘密武器。簡(jiǎn)單來說,就是用人工標(biāo)注的方式,不斷地將結(jié)果去反饋給模型:回答好的給出正反饋,回答不好的,就通過加分機(jī)制的方式讓模型進(jìn)一步的自我迭代,并進(jìn)行不斷的調(diào)優(yōu),直到回答正確。
在數(shù)據(jù)標(biāo)注行業(yè)中,除了標(biāo)貝之外,也有其他玩家共同推動(dòng)行業(yè)發(fā)展。
比如數(shù)據(jù)服務(wù)商Appen,主營業(yè)務(wù)包括數(shù)據(jù)采集、數(shù)據(jù)預(yù)處理與模型評(píng)價(jià)三大類,業(yè)務(wù)類型齊全。又或者是國內(nèi)的廠商海天瑞聲,已然形成文字、圖片、音頻、視頻等多模態(tài)標(biāo)注布局,可在全球進(jìn)行190種語言、方言的采集,多場(chǎng)景圖像、視頻采集以及多行業(yè)領(lǐng)域文本語料制作。
但就能力來看,標(biāo)貝在圖文、音視頻領(lǐng)域有著更為全方位的布局,因此其在智能語音大模型數(shù)據(jù)標(biāo)注上,有著絕對(duì)話語權(quán)。
對(duì)比各家官網(wǎng)發(fā)現(xiàn),標(biāo)貝在智能語音標(biāo)注層面提供的工具、產(chǎn)品以及解決方案是最全的,除此之外,標(biāo)貝推出多語種語音識(shí)別數(shù)據(jù)庫,覆蓋美式英語、英式英語、韓語、法語、西班牙語、俄語、阿拉伯語等多語種,解決多語種識(shí)別訓(xùn)練語料稀缺的難題。
同時(shí),標(biāo)貝所打造的模型更為高效、所提供的服務(wù)也更為全面。
在對(duì)話大模型優(yōu)化數(shù)據(jù)設(shè)計(jì)方案上,除了最基本的數(shù)據(jù)采集和清洗技術(shù)外,標(biāo)貝科技還擁有一系列高效處理數(shù)據(jù)、優(yōu)化模型的技術(shù)。
例如,模型微調(diào)技術(shù),相對(duì)于從頭開始訓(xùn)練(Training a model from scratch),微調(diào)技術(shù)能夠省去大量計(jì)算資源和計(jì)算時(shí)間,提高計(jì)算效率的同時(shí)提高準(zhǔn)確率。
又或者是終身學(xué)習(xí)技術(shù),能夠讓模型在不同的任務(wù)上依次訓(xùn)練,并能夠勝任所有任務(wù),而不是像傳統(tǒng)的機(jī)器學(xué)習(xí)那樣,一個(gè)網(wǎng)絡(luò)只能勝任一個(gè)任務(wù)?;诖?,模型能夠舉一反三,同樣能夠省去大量計(jì)算資源和計(jì)算時(shí)間。
全面的服務(wù),體現(xiàn)在標(biāo)貝能夠在模型運(yùn)作的各個(gè)階段持續(xù)助力。
基于更高效的技術(shù)以及多個(gè)場(chǎng)景的磨練,在中小模型落地過程中,標(biāo)貝能夠提供“保姆級(jí)服務(wù)”。在早期,標(biāo)貝基于常年經(jīng)驗(yàn)積累,能夠幫助客戶快速理清項(xiàng)目的技術(shù)難點(diǎn)和解決方案,能夠幫助“初來乍到”的客戶快速摸清項(xiàng)目脈絡(luò)。
中期,標(biāo)貝能夠快速驗(yàn)證自身的數(shù)據(jù)設(shè)計(jì)和標(biāo)注方案在不同開源模型規(guī)模、模型風(fēng)格上的效果,從而可以預(yù)覽和優(yōu)化最終客戶的成品模型水平,也就是說,能在項(xiàng)目成型之前,把偏差扼殺在搖籃里。
據(jù)標(biāo)貝官方介紹,近期,其與一家大型智能AI公司合作中,在“對(duì)話大模型優(yōu)化推理鏈(Chain of Thoughts)的數(shù)據(jù)集”項(xiàng)目上,標(biāo)貝科技在數(shù)據(jù)方案設(shè)計(jì)階段之前便和該客戶共同驗(yàn)證了多個(gè)版本的設(shè)計(jì)方案在開源中小模型中的效果,迭代和修正了之前無法預(yù)估的偏置錯(cuò)誤。
數(shù)據(jù)標(biāo)注行業(yè),玩家無數(shù)。在這之中,有著過硬技術(shù)實(shí)力、能夠提供定制化、“保姆級(jí)”服務(wù)能力的廠商自然會(huì)脫穎而出。但想要讓這條賽道越走越寬,還需要更多力量的支持。
GPT-4們嗷嗷待哺,合作乃是最優(yōu)解
據(jù)國務(wù)院《新一代人工智能發(fā)展規(guī)劃》預(yù)測(cè),2025年我國人工智能核心產(chǎn)業(yè)規(guī)模將超過4000億元,帶動(dòng)產(chǎn)業(yè)規(guī)?;虺?萬億元。
人工智能本就火熱,現(xiàn)如今再疊加ChatGPT推動(dòng)作用,以及有標(biāo)貝等高質(zhì)量數(shù)據(jù)標(biāo)注商的助力,讓這條賽道的未來更加令人期待。但不能否認(rèn)的是,目前也存在著一個(gè)殘酷的事實(shí)——用于大模型的高質(zhì)量數(shù)據(jù)不夠用了。
據(jù)Epoch AI Research研究人員預(yù)測(cè),大模型所需的高質(zhì)量語言數(shù)據(jù)存量將在2026年耗盡,低質(zhì)量的語言數(shù)據(jù)和圖像數(shù)據(jù)的存量將分別在2030年至2050年、2030年至2060年枯竭。
如果數(shù)據(jù)效率沒有顯著提高或有新的數(shù)據(jù)源可用,那么到2040年,大模型的規(guī)模增長或許將會(huì)放緩。
不同數(shù)據(jù)類型的消耗趨勢(shì)和耗盡日期,圖源Epoch AI Research
這就意味著,市場(chǎng)急需標(biāo)貝科技等數(shù)據(jù)標(biāo)注廠商高效率地產(chǎn)出高質(zhì)量數(shù)據(jù),為ChatGPT們補(bǔ)充養(yǎng)分。
但就目前來看,國內(nèi)的數(shù)據(jù)標(biāo)注行業(yè),仍然稚嫩。
其中較大的問題是,數(shù)據(jù)標(biāo)注行業(yè)缺乏“條條框框”的約束:例如行業(yè)標(biāo)準(zhǔn)的制定,商業(yè)模式的敲定等等。某AI數(shù)據(jù)標(biāo)注訓(xùn)練師對(duì)連線Insight表示,如今的數(shù)據(jù)標(biāo)注公司之間一味地拼低價(jià)亂象叢生,最終拿到項(xiàng)目的乙方往往沒有能力承接。
與此同時(shí),數(shù)據(jù)標(biāo)注行業(yè)中的一些玩家也處于毛利率、營收持續(xù)走低的困境中。
根據(jù)海天瑞聲2019-2021年財(cái)報(bào)顯示,其毛利率從2019年的70.25%下滑至2021年的64.01%,營收方面也從2019年的2.38億元,下滑至2021年的2.06億元。
2019-2021年海天瑞聲營收、毛利率情況,數(shù)據(jù)來源于同花順,連線Insight制圖
更為重要的是,隨著大模型的迅速發(fā)展,供大模型訓(xùn)練所需的語料量,非一家能夠滿足。
當(dāng)前大模型訓(xùn)練需要的語料量非常龐大,但由于歷史原因,語料在不同語言之間存在局部的不均勻性問題。
一個(gè)典型的例子是,絕大多數(shù)源代碼是用英語書寫的,但代碼語法本身是基于英文單詞設(shè)計(jì)。這導(dǎo)致不少模型即使參數(shù)量很大,卻無法準(zhǔn)確地捕捉到中文術(shù)語和源代碼的對(duì)應(yīng)規(guī)律,無法在中文用戶的提示下寫出同等質(zhì)量的代碼。
高質(zhì)量數(shù)據(jù)需求迫在眉睫,現(xiàn)有語料庫質(zhì)量堪憂,而國內(nèi)數(shù)據(jù)標(biāo)注行業(yè)還似一盤散沙,標(biāo)貝針對(duì)該困局,提出了自己的解法。
根據(jù)標(biāo)貝官方消息,其將公開一系列數(shù)據(jù)集,旨在解決這類局部不均勻性的問題。
標(biāo)貝的思路是,將代碼中的備注內(nèi)容替換成了高質(zhì)量的、符合表達(dá)規(guī)律的中文漢字。之后,還會(huì)按照實(shí)際業(yè)務(wù)需求和國內(nèi)開源大模型的發(fā)展情況,定期設(shè)計(jì)和公開類似的數(shù)據(jù)集。
在這之中,標(biāo)貝將更好地利用存量代碼進(jìn)行數(shù)據(jù)增強(qiáng)處理,以提高大模型在書寫代碼、專業(yè)長篇討論時(shí)處理中文文本的能力。同時(shí),標(biāo)貝也呼吁更多的數(shù)據(jù)標(biāo)注廠商能夠參與進(jìn)來,共同提高GPT-4等大模型語料庫的數(shù)據(jù)質(zhì)量。
在業(yè)內(nèi)看來,GPT-4等大模型潛力無限,標(biāo)貝科技也有能力把好數(shù)據(jù)標(biāo)注的關(guān),使得大模型能夠產(chǎn)出更高質(zhì)量的數(shù)據(jù)。同時(shí),數(shù)據(jù)標(biāo)注行業(yè)仍需更多數(shù)據(jù)標(biāo)注廠商共同合作,豐富數(shù)據(jù)集,改善語料庫質(zhì)量,共商行業(yè)標(biāo)準(zhǔn),厘清商業(yè)模式,高效率地產(chǎn)出高質(zhì)量數(shù)據(jù)。
正如地平線創(chuàng)始人余凱為《深度學(xué)習(xí)革命》一書寫的序言“人工智能領(lǐng)域能得到快速發(fā)展,關(guān)鍵在于有著眾多的合作者來推動(dòng)這項(xiàng)事業(yè)”。而作為技術(shù)底座的數(shù)據(jù)標(biāo)注行業(yè),更是如此。
上一篇:GPT正在“殺死”咨詢顧問?