對(duì)人工智能來(lái)說(shuō),理解數(shù)據(jù)很簡(jiǎn)單,但要設(shè)計(jì)一個(gè)真正能夠檢驗(yàn)機(jī)器理解能力的測(cè)試卻很困難。
還記得IBM的人工智能程序“沃森”(Watson)嗎?2010年的一條宣傳語(yǔ)稱,“沃森能夠理解自然語(yǔ)言的模糊性和復(fù)雜性。”然而,正如我們所看到的,沃森后來(lái)在“運(yùn)用人工智能的醫(yī)學(xué)革命”探索中遭遇慘敗,表面上的語(yǔ)言能力并不等同于真正理解人類語(yǔ)言。
理解自然語(yǔ)言一直是人工智能研究的主要目標(biāo)之一。起初,研究人員試圖手動(dòng)編程機(jī)器所需的一切,使其理解新聞故事、小說(shuō)或其他人類可能編寫(xiě)的東西。正如沃森所展示的那樣,這種方法是徒勞的,研究人員不可能將理解文本所需的所有不成文的事實(shí)、規(guī)則和假設(shè)都寫(xiě)下來(lái)。最近,一種新的范式已經(jīng)建立起來(lái):與其構(gòu)建明確的知識(shí),不如讓機(jī)器自己學(xué)習(xí)理解語(yǔ)言,它所要做的,就是吸收大量的書(shū)面文本并學(xué)會(huì)預(yù)測(cè)單詞。研究人員將此稱為語(yǔ)言模型。2020年,美國(guó)舊金山的人工智能公司OpenAI訓(xùn)練并開(kāi)發(fā)了一個(gè)自回歸語(yǔ)言模型,稱為“生成型已訓(xùn)練變換模型3”(Generative Pre-trained Transformer 3,簡(jiǎn)稱 GPT-3)。當(dāng)基于像GPT-3這樣的大型神經(jīng)網(wǎng)絡(luò)時(shí),這些模型可以產(chǎn)出令人難以置信的,可與人類散文(和詩(shī)歌!)媲美的“作品”,并似乎能執(zhí)行復(fù)雜的語(yǔ)言推理。
GPT-3是用成千上萬(wàn)的網(wǎng)站、書(shū)籍和百科全書(shū)的文本訓(xùn)練出來(lái)的,那我們能否說(shuō),它已經(jīng)超越了沃森的“表面功夫”?它真的理解它產(chǎn)生的語(yǔ)言和表面上的推理?在人工智能研究領(lǐng)域,這個(gè)話題存在著嚴(yán)重的分歧。在過(guò)去,這樣的討論是哲學(xué)家的研究范疇,但在過(guò)去十年間,人工智能已經(jīng)沖破了學(xué)術(shù)圈層,進(jìn)入了現(xiàn)實(shí)世界;有人認(rèn)為,人工智能對(duì)現(xiàn)實(shí)世界的缺乏理解可能會(huì)產(chǎn)生真實(shí)的、甚至是毀滅性的后果。在一項(xiàng)研究中,沃森提出了“許多不安全和不正確的治療建議”。另一項(xiàng)研究表明,谷歌的機(jī)器翻譯系統(tǒng)在為非英語(yǔ)患者翻譯醫(yī)療說(shuō)明時(shí),出現(xiàn)了一些重大錯(cuò)誤。
那么,我們?nèi)绾卧趯?shí)踐中確定機(jī)器真的具有理解能力?1950年,計(jì)算機(jī)先驅(qū)阿蘭·圖靈試圖用他著名的“模仿游戲”來(lái)回答這個(gè)問(wèn)題,這個(gè)游戲現(xiàn)在被稱為“圖靈測(cè)試”。一個(gè)機(jī)器如果能和一個(gè)人展開(kāi)對(duì)話(通過(guò)電傳設(shè)備),而不被辨別出誰(shuí)是人類,誰(shuí)是機(jī)器,那么我們就應(yīng)該認(rèn)為這臺(tái)機(jī)器具有智能,即它是能思考的,具有理解能力。
不幸的是,圖靈低估了人類被機(jī)器愚弄的傾向。即使是簡(jiǎn)單的聊天機(jī)器人,比如德裔美國(guó)計(jì)算機(jī)科學(xué)家約瑟夫·魏森鮑姆在20世紀(jì)60年代發(fā)明的人工智能心理治療師“Eliza”,也會(huì)欺騙人們,讓他們相信自己是在和一個(gè)善解人意的人交談,即使知道他們的談話對(duì)象是一臺(tái)機(jī)器。
在2012年的一篇論文中,計(jì)算機(jī)科學(xué)家赫克托·萊韋斯克、歐內(nèi)斯特·戴維斯和萊奧拉·摩根斯坦提出了一個(gè)更客觀的機(jī)器智能測(cè)試,他們稱之為“威諾格拉德模式挑戰(zhàn)”(Winograd schema challenge,簡(jiǎn)稱WSC)。這項(xiàng)測(cè)試已經(jīng)被人工智能語(yǔ)言社區(qū)采用,作為評(píng)估機(jī)器理解能力的一種方式,也許是最好的方式——盡管目前來(lái)看還尚不完美。該測(cè)試以斯坦福大學(xué)語(yǔ)言研究者和計(jì)算機(jī)科學(xué)家特里·威諾格拉德的名字命名,由兩個(gè)句子組成,二者僅有一個(gè)單詞不同,然后緊接著一個(gè)問(wèn)題。機(jī)器需要識(shí)別問(wèn)題中的前指關(guān)系,即指出問(wèn)題中某一代詞的先行詞。為了正確回答問(wèn)題,機(jī)器需要擁有常識(shí)推理的能力。以下是兩個(gè)例子:
句子1:我把水從瓶子里倒進(jìn)杯子里,直到它滿為止。
問(wèn)題:什么滿了,瓶子還是杯子?
句子2:我把瓶子里的水倒進(jìn)杯子里,直到它空為止。
問(wèn)題:什么空了,瓶子還是杯子?
句子1:?jiǎn)痰氖迨宕蚓W(wǎng)球仍然能贏他,盡管他大了30歲。
問(wèn)題:誰(shuí)更年長(zhǎng),喬還是喬的叔叔?
句子2:?jiǎn)痰氖迨宕蚓W(wǎng)球仍然能贏他,盡管他年輕了30歲。
問(wèn)題:誰(shuí)更年輕,喬還是喬的叔叔?
對(duì)于特定的威諾格拉德模式集,神經(jīng)網(wǎng)絡(luò)語(yǔ)言模型達(dá)到了約97%的準(zhǔn)確率。這大致可以和人類的表現(xiàn)相媲美。
在每一對(duì)句子中,一個(gè)詞的差異可以改變代詞指的是什么東西或什么人。正確回答這些問(wèn)題需要一定的常識(shí)推理能力。威諾格拉德模式的設(shè)計(jì)正是為了測(cè)試這種理解能力,減輕了圖靈測(cè)試在不可靠的人類判斷或聊天機(jī)器人技巧下的弱點(diǎn)。特別是,該挑戰(zhàn)的作者設(shè)計(jì)了幾百種他們認(rèn)為是“無(wú)法搜索”的模式:機(jī)器不應(yīng)該使用谷歌搜索(或類似的任何東西)來(lái)獲得正確的問(wèn)題答案。
威諾格拉德模式是2016年舉行的一場(chǎng)比賽的主題,在比賽中獲勝的程序只理解對(duì)了58%的句子——很難說(shuō)比瞎猜的結(jié)果好多少。人工智能研究專家?jiàn)W倫·埃齊奧尼打趣道:“當(dāng)人工智能無(wú)法確定一個(gè)句子中的‘它’指的是什么時(shí),很難相信它會(huì)接管世界。”
然而,由于大型神經(jīng)網(wǎng)絡(luò)語(yǔ)言模型的出現(xiàn),人工智能程序解決威諾格拉德模式挑戰(zhàn)的能力正迅速提升。OpenAI公司在2020年的一篇論文報(bào)告稱,在威諾格拉德模式的基準(zhǔn)測(cè)試集中,GPT-3在近90%的句子上是正確的。其他的語(yǔ)言模型在經(jīng)過(guò)這些任務(wù)的專門訓(xùn)練后,表現(xiàn)得甚至更好。在撰寫(xiě)本文時(shí),神經(jīng)網(wǎng)絡(luò)語(yǔ)言模型在一組特定的威諾格拉德模式——SuperGLUE基準(zhǔn)測(cè)試數(shù)據(jù)集的一部分——上達(dá)到了約97%的準(zhǔn)確率。如此高的準(zhǔn)確性已經(jīng)大致相當(dāng)于人類的表現(xiàn)。那么,這是否意味著神經(jīng)網(wǎng)絡(luò)語(yǔ)言模型已經(jīng)獲得了類似人類的理解能力?
不一定。盡管創(chuàng)建者盡了最大的努力,但這些威諾格拉德模式實(shí)際上并不能“免于谷歌搜索”。這些挑戰(zhàn),就像目前許多其他人工智能語(yǔ)言理解測(cè)試一樣,有時(shí)會(huì)允許神經(jīng)網(wǎng)絡(luò)在沒(méi)有理解的情況下也能很好地運(yùn)行。例如,考慮以下句子,“跑車超過(guò)了郵車,因?yàn)樗旭偟酶臁焙汀芭苘嚦^(guò)了郵車,因?yàn)樗旭偟酶?。一個(gè)在大量英語(yǔ)句子語(yǔ)料庫(kù)上訓(xùn)練的語(yǔ)言模型會(huì)歸納“跑車”和“快”、“郵車”和“慢”之間的相關(guān)性,從而可以僅基于這些相關(guān)性而不是利用任何理解能力來(lái)做出正確回答。結(jié)果是,在SuperGLUE測(cè)試中,許多威諾格拉德模式允許使用這種類型的統(tǒng)計(jì)相關(guān)性。
艾倫人工智能研究所的一組研究人員沒(méi)有放棄將威諾格拉德模式作為機(jī)器智能理解能力的測(cè)試,而是嘗試解決其存在的一些問(wèn)題。2019年,他們創(chuàng)建了“WinoGrande”,一個(gè)更大的威諾格拉德模式集。WinoGrande包含了多達(dá)44000個(gè)語(yǔ)句,而不是僅有數(shù)百個(gè)例子。為了獲得如此大量的語(yǔ)句,研究人員求助于流行的眾包工作平臺(tái)“亞馬遜土耳其機(jī)器人”(Amazon Mechanical Turk)。在這個(gè)平臺(tái)上,每個(gè)(人類)工作者被要求寫(xiě)下幾對(duì)句子,并加上一些約束,以確保集合中包含不同的主題。不過(guò),現(xiàn)在每對(duì)句子中可能會(huì)有不止一個(gè)單詞的差異。
然后,研究人員試圖將一種相對(duì)簡(jiǎn)單的人工智能方法應(yīng)用到每個(gè)句子上,剔除那些過(guò)于容易回答的句子,從而消除可能出現(xiàn)的統(tǒng)計(jì)捷徑。正如預(yù)期的那樣,對(duì)機(jī)器來(lái)說(shuō),剩下的句子比最初的威諾格拉德模式集要困難得多。人類的得分仍然很高,但與人類表現(xiàn)相匹配的神經(jīng)網(wǎng)絡(luò)語(yǔ)言模型在WinoGrande集合中的得分要低得多。這個(gè)新的挑戰(zhàn)似乎彌補(bǔ)了威諾格拉德模式作為常識(shí)理解測(cè)試的缺陷——只要句子經(jīng)過(guò)仔細(xì)篩選,就能確保它們不受“谷歌搜索”的影響。
然而,一個(gè)新的驚喜正在醞釀。在WinoGrande模式集發(fā)布后的近兩年時(shí)間里,神經(jīng)網(wǎng)絡(luò)語(yǔ)言模型變得越來(lái)越大,它們?cè)谶@個(gè)新挑戰(zhàn)中的得分似乎也越來(lái)越高。在撰寫(xiě)本文時(shí),目前最好的程序——已經(jīng)在太字節(jié)(TB)級(jí)別的文本上進(jìn)行了訓(xùn)練,然后在數(shù)以千計(jì)的WinoGrande示例上進(jìn)行了進(jìn)一步的訓(xùn)練——準(zhǔn)確率接近90%(人類的準(zhǔn)確率約為94%)。這種表現(xiàn)的提升幾乎完全歸功于神經(jīng)網(wǎng)絡(luò)語(yǔ)言模型及其訓(xùn)練數(shù)據(jù)規(guī)模的增加。
那么,這些規(guī)模越來(lái)越大的神經(jīng)網(wǎng)絡(luò)最終能獲得像人類一樣的常識(shí)理解能力嗎?答案同樣是否定的。WinoGrande的研究結(jié)果有一些重要的警示。例如,由于句子依賴于“亞馬遜土耳其機(jī)器人”的工作者,寫(xiě)作的質(zhì)量和連貫性相當(dāng)不均衡。同時(shí),在清除“不能免于谷歌搜索”的句子時(shí),“不夠成熟”的人工智能方法可能過(guò)于簡(jiǎn)單,不僅找出了所有可能用于大型神經(jīng)網(wǎng)絡(luò)的統(tǒng)計(jì)捷徑,而且可能只應(yīng)用在個(gè)別句子上,導(dǎo)致一些余下的句子最終失去了“孿生語(yǔ)句”。一項(xiàng)后續(xù)研究表明,當(dāng)神經(jīng)網(wǎng)絡(luò)語(yǔ)言模型只對(duì)兩個(gè)“孿生”句子進(jìn)行測(cè)試——并且要求兩個(gè)句子都正確——的時(shí)候,其準(zhǔn)確率要比人類低得多。這意味著,早先準(zhǔn)確率接近90%的結(jié)果并沒(méi)有看上去的那么顯著。
那么,我們應(yīng)該如何看待威諾格拉德模式挑戰(zhàn)?主要的教訓(xùn)是,我們通常很難從人工智能系統(tǒng)在特定挑戰(zhàn)中的表現(xiàn)來(lái)判斷它們是否真正理解其所處理的語(yǔ)言(或其他數(shù)據(jù))。我們現(xiàn)在知道,神經(jīng)網(wǎng)絡(luò)經(jīng)常使用統(tǒng)計(jì)捷徑——而不是實(shí)際類似于人類的理解能力——以在威諾格拉德模式以及許多最流行的“通用語(yǔ)言理解”基準(zhǔn)測(cè)試中獲得上佳表現(xiàn)。
問(wèn)題的關(guān)鍵在于,理解語(yǔ)言的前提是理解世界,而只接觸語(yǔ)言的機(jī)器無(wú)法獲得這樣的理解。例如,讓我們理解一下“跑車超過(guò)了郵車,因?yàn)樗旭偟酶臁边@句話是什么意思。首先,你需要知道跑車和郵車分別是什么,而兩種車之間可以互相“超車”;此外,在更基本的層面上,車輛存在于這個(gè)世界上,能與其他事物產(chǎn)生互動(dòng),而且由人類駕駛,有著各自的用途。
在我們?nèi)祟惖恼J(rèn)知中,所有這些都是理所當(dāng)然的知識(shí),但它們并沒(méi)有內(nèi)置在機(jī)器當(dāng)中,也不可能明確地記錄在任何語(yǔ)言模型的訓(xùn)練文本中。一些認(rèn)知科學(xué)家認(rèn)為,人類依靠先天的、非語(yǔ)言的核心知識(shí)來(lái)學(xué)習(xí)和理解語(yǔ)言,這些核心知識(shí)包含了空間、時(shí)間和其他許多關(guān)于世界的基本屬性。如果我們想讓機(jī)器同樣掌握人類語(yǔ)言,首先就需要賦予它們?nèi)祟惻c生俱來(lái)的基本原則。在評(píng)估機(jī)器的理解能力時(shí),我們應(yīng)該從評(píng)估它們對(duì)這些原則的理解開(kāi)始,這或許可以稱為“嬰兒形而上學(xué)”。
與沃森和GPT-3等人工智能系統(tǒng)的驚人成就相比,訓(xùn)練和評(píng)估嬰兒水平的機(jī)器智能似乎是一個(gè)巨大的倒退。但如果我們的目標(biāo)是讓人工智能擁有真實(shí)可信的理解能力,這可能是唯一的途徑;只有這樣,機(jī)器才能真正理解句子中的“它”指的是什么,同時(shí)也理解與“它”有關(guān)的其他所有一切。