原文作者:Chris Stokel-Walker & Richard Van Noorden
去年12月,計算生物學家Casey Greene和Milton Pividori做了一個特別的實驗:他們請一名非科學家助理幫三篇論文潤色。這位勤奮的助理不到幾秒就給出了修改建議;每篇文章只用了5分鐘就審完了。這位助理甚至還在一篇生物學論文中,發(fā)現(xiàn)一個公式的參考文獻有錯誤。雖然實驗的過程有時候不太順利,但最后的手稿可讀性更強了,至于費用也很低,一篇論文只要0.50美元不到。
Greene和Pividori在1月23日發(fā)布的預印本論文中描述了這個助理,它不是一個人,而是一個AI算法,名叫GPT-3,2020年首次問世。這是一個當下很火的生成式AI對話工具,能生成通順流暢的文本,無論是編散文、寫詩歌、敲代碼,還是科研人員需要的論文編輯都不在話下(見文末“如何讓AI對話機器人改論文”)。
插圖:Pawe? Jońca
這類工具也被稱為大型語言模型(LLM),其中名聲最響的當屬GPT-3的一個版本——ChatGPT。由于ChatGPT完全免費而且使用方便,去年11月推出后便引發(fā)熱潮。其他類型的生成式AI還能產(chǎn)生圖片或聲音。
“我真的印象深刻,”就職于美國賓夕法尼亞大學的Pividori說,“它讓我們這些研究人員效率更高了。”很多科研人員說他們現(xiàn)在經(jīng)常用LLM,不僅用它來改論文,還能用來編程,檢查代碼,頭腦風暴等。冰島大學的計算機科學家Hafsteinn Einarsson說:“我現(xiàn)在每天都用LLM?!彼钤缬玫氖荊PT-3,后來開始用ChatGPT幫他寫演講稿,出考試題和學生作業(yè),還能把學生作文變成學術(shù)論文。他說:“很多人都把ChatGPT作為數(shù)字秘書或數(shù)字助理?!?/p>
LLM既能充當搜索引擎,也能作為編程助理,甚至可以和其他公司的對話機器人就某件產(chǎn)品殺價。開發(fā)ChatGPT的公司OpenAI位于加州舊金山,已宣布將推出每個月20美元的訂閱服務,承諾反應速度會更快,而且能優(yōu)先使用新功能(ChatGPT的試用版將依然免費)。科技巨頭微軟(Microsoft)已經(jīng)投資了OpenAI,1月又宣布了約100億美元的新一輪投資。LLM今后肯定會整合到文字和數(shù)據(jù)處理軟件中。生成式AI在未來的普及似乎已成定局,當前的工具還只是這項技術(shù)的初始階段。
但是,LLM也引發(fā)了大量擔憂,比如它們很容易“胡說八道”,而且人們會說AI生成的內(nèi)容是他們自己創(chuàng)作的。《自然》采訪了研究人員如何看待ChatGPT等對話機器人的潛在用途,尤其是科研用途,他們在激動之余也表示了憂慮。科羅拉多大學醫(yī)學院的Greene說:“如果你相信這項技術(shù)有潛力帶來變革,那么我認為你最好緊張一點?!笨蒲腥藛T認為,很多方面都將取決于未來的監(jiān)管指南對AI對話機器人的使用限制。
流暢度高、事實性差
一些研究人員認為,LLM很適合用來提高寫論文或?qū)懟鸬男?,只要有人類把關(guān)就行。瑞典薩爾格林斯卡醫(yī)院的神經(jīng)生物學家Almira Osmanovic Thunstr?m與人合作發(fā)布了一篇關(guān)于GPT-3的實驗報告,他說:“科研人員再也不用坐在那里給經(jīng)費申請書寫很長很長的引言了,他們現(xiàn)在只要讓系統(tǒng)來寫就行了?!?/p>
倫敦軟件咨詢公司InstaDeep的研究工程師Tom Tumiel表示,他每天都用LLM寫代碼。他說,“它就像一個進階版的Stack Overflow。”Stack Overflow是一個程序員互問互答的熱門論壇。
但是,研究人員強調(diào),LLM給出的回答從根本上說是不可靠的,有時候還是錯的。Osmanovic Thunstr?m說:“我們在利用這些系統(tǒng)生成知識的時候要很當心?!?/p>
這種不可靠已經(jīng)深入LLM的構(gòu)建方式。ChatGPT和它的競爭對手都是通過學習龐大在線文本數(shù)據(jù)庫中的語言統(tǒng)計模式來運作的,這些文本中不乏謠言、偏見和已經(jīng)過時的信息。當LLM接到提示(prompt,比如Greene和Pividori使用精心組織的語言提出重寫論文部分章節(jié)的要求)后,它們會一字一句地吐出看上去符合語言習慣的任何回復,只要能讓對話繼續(xù)下去。
結(jié)果就是LLM很容易給出錯誤或誤導人的信息,尤其是那些訓練數(shù)據(jù)很有限的技術(shù)性話題。還有一點是LLM無法給出準確的信息來源。如果你讓它寫論文,它會把參考文獻給你編出來?!?strong>這個工具在事實核查或提供可靠參考文獻方面是不能被信任的。”《自然-機器智能》(Nature Machine Intelligence)在1月發(fā)表的一篇關(guān)于ChatGPT的社論中寫道。
在這些注意事項下,如果研究人員有足夠?qū)I(yè)知識發(fā)現(xiàn)問題或能很容易驗證答案對錯,比如他們能判斷某個解釋或?qū)Υa的建議是否正確,那么ChatGPT和其他LLM就能成為真正意義上的助手。
不過,這些工具可能會誤導一些初級用戶。比如在去年12月,Stack Overflow臨時禁用了ChatGPT,因為管理者發(fā)現(xiàn)一些熱心用戶上傳了大量由LLM生成的回答,這些答案看起來很像回事,但錯誤率很高。這可能會是搜索引擎的一個噩夢。
缺陷能解決嗎?
有些搜索引擎工具能解決LLM在來源引用上的不足,例如面向科研人員的Elicit能先根據(jù)提問搜索相關(guān)參考文獻,再對搜索引擎找到的各個網(wǎng)站或文獻進行概括歸納,生成看上去全帶參考來源的內(nèi)容(但是LLM對不同文獻的歸納仍有可能不準確)。
開發(fā)LLM的公司也注意到了這些問題。去年9月,谷歌(Google)子公司DeepMind發(fā)表了一篇關(guān)于其“對話智能體”Sparrow的論文。DeepMind首席執(zhí)行官、聯(lián)合創(chuàng)始人Demis Hassabis后來告訴《時代周刊》(TIME),Sparrow的私測版會在今年發(fā)布;根據(jù)《時代周刊》的報道,谷歌想進一步攻克包括來源引用在內(nèi)的各種能力。其他競爭對手,如Anthropic,則表示他們已經(jīng)解決了ChatGPT的一些問題(Anthropic、OpenAI、DeepMind都拒絕就此文接受采訪。)
一些科研人員表示,目前來看,ChatGPT在技術(shù)性話題上還沒有足夠且專業(yè)的訓練數(shù)據(jù),所以用處并不大。當哈佛大學的生物統(tǒng)計學博士生Kareem Carr將ChatGPT用于他的工作時,他對ChatGPT的表現(xiàn)毫不驚艷,他說,“我認為ChatGPT很難達到我需要的專業(yè)水平?!保ǖ獵arr也表示,當他讓ChatGPT為某個科研問題給出20種解決辦法時,ChatGPT回復了一堆廢話和一個有用的回答,這個他之前從沒聽過的統(tǒng)計學術(shù)語替他打開了一個新的文獻領(lǐng)域。)
一些科技公司以及開始用專業(yè)的科研文獻訓練對話機器人了,當然這些機器人也各有各的問題。去年11月,持有Facebook的科技巨頭Meta發(fā)布了名為Galactica的LLM,Galactica用學術(shù)摘要進行訓練,有望在生成學術(shù)內(nèi)容和回答科研問題方面具備一技之長。但是,其測試版在被用戶拿來生成不準確和種族歧視的內(nèi)容后即被下架(但代碼依舊公開)。Meta的首席AI科學家楊立昆(Yann LeCun)在面對批評時發(fā)推特表示,“今后再也不要想用它來隨意生成點好玩的東西了,這下高興了吧?”(Meta并未回復本文通過媒體辦公室采訪楊立昆的請求。)
安全與責任
Galactica遇到的是一個倫理學家已經(jīng)提出了好幾年的安全問題:如果不對輸出內(nèi)容進行把控,LLM就能被用來生成仇恨言論和垃圾信息,以及訓練數(shù)據(jù)中可能存在種族歧視、性別歧視等其他有害聯(lián)想。
Shobita Parthasarathy是美國密歇根大學一個科技與公共政策項目的負責人,她說,除了直接生成有害內(nèi)容外,人們還擔心AI對話機器人會從訓練數(shù)據(jù)中習得一些歷史性偏見或形成對世界的特定看法,比如特定文化的優(yōu)越性。她說,由于開發(fā)大型LLM的公司大多來自或置身于這些文化中,他們可能沒什么動力去糾正這些根深蒂固的系統(tǒng)性偏見。
OpenAI在決定公開發(fā)布ChatGPT時,曾試圖回避很多這些問題。OpenAI讓ChatGPT的信息庫截至到2021年為止,不讓它瀏覽互聯(lián)網(wǎng),還通過安裝過濾器防止ChatGPT對敏感或惡意的提示做出回應。不過,做到這一點需要人類管理員對龐雜的有害文本進行人工標記。有新聞報道稱這些工人的工資很低,有些人還有傷病。關(guān)于社交媒體公司在雇傭人員訓練自動機器人標記有害內(nèi)容時存在勞動力壓榨的類似問題也曾被提出過。
OpenAI采取的這些防護措施,效果不盡如人意。去年12月,加州大學伯克利分校的計算神經(jīng)科學家Steven Piantadosi發(fā)推文表示他讓ChatGPT開發(fā)一個Python程序,該程序?qū)⒏鶕?jù)某個人的來源國決定這個人是否應該受到折磨。ChatGPT先回復了請用戶輸入國家的代碼,然后如果國家是朝鮮、敘利亞、伊朗和蘇丹,則這個人就應該受到折磨。(OpenAI后來了關(guān)閉了這類問題。)
去年,一個學術(shù)團隊發(fā)布了另一個名叫BLOOM的LLM。該團隊試著用更少的精選多語言文本庫來訓練這個機器人。該團隊還把它的訓練數(shù)據(jù)完全公開(與OpenAI的做法不同)。研究人員呼吁大型科技公司參照這種做法,但目前不清楚這些公司是否愿意。
還有一些研究人員認為學術(shù)界應該完全拒絕支持商用化的大型LLM。除了偏見、安全顧慮和勞動剝削等問題,這些計算密集型算法還需要大量精力來訓練,引發(fā)人們對它們生態(tài)足跡的關(guān)注。進一步的擔憂還包括把思考過程交給自動化聊天機器,研究人員可能會喪失表達個人想法的能力。荷蘭拉德堡德大學的計算認知科學家Iris van Rooij在一篇呼吁學術(shù)界抵制這類誘惑的博客文章中寫道,我們作為學術(shù)人員,為何要迫不及待地使用和推廣這類產(chǎn)品呢?”
另一個不甚明確的問題是一些LLM的法律狀態(tài),這些LLM是用網(wǎng)上摘錄內(nèi)容訓練的,有些內(nèi)容的權(quán)限處于灰色地帶。版權(quán)法和許可法目前只針對像素、文本和軟件的直接復制,但不限于對它們風格上的模仿。當這些由AI生成的模仿內(nèi)容是通過輸入原版內(nèi)容來訓練的,問題也隨之而來。一些AI繪畫程序開發(fā)者,包括Stable Diffusion和Midjourney,正受到藝術(shù)家和攝影機構(gòu)的起訴。OpenAI和微軟(還有其子公司技術(shù)網(wǎng)站GitHub)也因為其AI編程助手Copilot的開發(fā)面臨軟件侵權(quán)官司。英國紐卡斯爾大學的互聯(lián)網(wǎng)法律專家Lilian Edwards表示,這些抗議或能迫使相應法律做出改變。
強制誠信使用
因此,一些研究人員相信,給這些工具設(shè)立邊界可能十分必要。Edwards認為,當前關(guān)于歧視和偏見的法律(以及對AI惡意用途實施有計劃的監(jiān)管)將有助于維護LLM使用的誠信、透明、公正。她說,“已經(jīng)有很多法律了,現(xiàn)在只是執(zhí)行或是稍微調(diào)整的問題?!?/p>
與此同時,人們也在倡導LLM的使用需要更透明的披露。學術(shù)出版機構(gòu)(包括《自然》的出版商)已經(jīng)表示,科研人員應當在論文中披露LLM的使用(相關(guān)閱讀:ChatGPT威脅科研透明,《自然》等期刊提出新要求);老師們也希望學生能進行類似披露?!犊茖W》(Science)則更進一步,要求所有論文中都不得使用ChatGPT或其他任何AI工具生成的文本。
這里有一個關(guān)鍵的技術(shù)問題:AI生成的內(nèi)容是否能被發(fā)現(xiàn)。許多科研人員正在進行這方面的研究,核心思路是讓LLM自己去“揪”AI生成的文本。
去年12月,美國普林斯頓大學的計算機科學研究生Edward Tian推出了GPTZero。這是一個AI檢測工具,能從兩個角度分析文本。一種是“困惑度”(perplexity),這個指標檢測LLM對某個文本的熟悉度。Tian的工具使用的是更早版本——GPT-2;如果它發(fā)現(xiàn)大部分詞句都是可預測的,那么文本很有可能是AI生成的。這個工具還能檢測文本的變化度,這個指標也稱為“突發(fā)性”(burstiness):AI生成的文本比人類創(chuàng)作的文本在語調(diào)、起承轉(zhuǎn)合和困惑度上更單調(diào)。
許多其他產(chǎn)品也在設(shè)法識別AI生成的內(nèi)容。OpenAI本身已推出了GPT-2的檢測器,并在1月發(fā)布了另一個檢測工具。對科研人員來說,反剽竊軟件開發(fā)公司Turnitin正在開發(fā)的一個工具顯得格外重要,因為Turnitin的產(chǎn)品已經(jīng)被全世界的中小學、大學、學術(shù)出版機構(gòu)大量采用。該公司表示,自從GPT-3在2020年問世以來,他們一直在研究AI檢測軟件,預計將于今年上半年發(fā)布。
不過,這些工具中還沒有哪個敢自稱絕不出錯,尤其是在AI生成的文本經(jīng)過人工編輯的情況下。這些檢測工具也會誤將人類寫的文章當成是AI生成的,美國得克薩斯大學奧斯汀分校的計算科學家、OpenAI的客座研究員Scott Aaronson說道。OpenAI表示,在測試中,其最新工具將人類寫的文本誤判為AI生成文本的錯誤率為9%,而且只能正確辨認出26%的AI生成文本。Aaronson說,在單純靠檢測工具就指責學生偷偷使用了AI之前,我們可能還需要進一步證據(jù)。
另一種方法是給AI內(nèi)容加水印。去年11月,Aaronson宣布他和OpenAI正在研究給ChatGPT生成的內(nèi)容加水印的方法。該方法還未對外發(fā)布,但美國馬里蘭大學計算科學家Tom Goldstein的團隊在1月24日發(fā)布的一篇預印本論文中提出了一個加水印的辦法。具體做法是在LLM生成結(jié)果的某個時刻利用隨機數(shù)字生成器,生成LLM在指令下從中可選的一連串替代詞匯。這樣就能在最終文本中留下所選詞匯的線索,這在統(tǒng)計學上很容易辨認,但讀者卻很難發(fā)現(xiàn)。編輯可以把這些線索抹掉,但Goldstein認為,這種編輯需要把超過一半的詞匯都換掉。
Aaronson指出,加水印的一個好處是不太會產(chǎn)生假陽性的結(jié)果。如果有水印,文本很可能就是AI生成的。當然,他說,這也不是絕對的。“如果你足夠有決心,就肯定有辦法破解任何加水印的策略?!?strong>檢測工具和加水印只是讓AI用于欺騙手段更難了,但沒法絕對禁止。
與此同時,LLM的開發(fā)者正在構(gòu)建更大型的數(shù)據(jù)集,打造更智能的聊天機器人(OpenAI擬在今年推出GPT-4),包括專門面向?qū)W術(shù)或醫(yī)療領(lǐng)域的機器人。去年12月底,谷歌和DeepMind發(fā)布了一篇預印本論文,提前預告了名為Med-PaLM的臨床專業(yè)LLM。這個工具可以回答一些開放式的醫(yī)學問題,水平與普通人類醫(yī)師相當,但仍有缺陷和不可靠的問題。
加州斯克利普斯研究所主任Eric Topol表示,他希望將來整合了LLM功能的AI能將全身掃描與學術(shù)文獻中的內(nèi)容進行交叉驗證,幫助診斷癌癥,甚至理解癌癥。但他強調(diào),這一切都需要專業(yè)人士的監(jiān)督。
生成式AI背后的計算機科學發(fā)展迅速,基本每個月都會有新成果。研究人員如何使用這些工具不僅決定了它們的未來,也決定了人類的未來。“要說2023年初,一切已塵埃落定,是不現(xiàn)實,”Topol說,“現(xiàn)在才剛剛開始。”