人們最擔(dān)心的事情還是發(fā)生了。
一位網(wǎng)友在提問 New Bing 時(shí),答案出現(xiàn)了事實(shí)性錯(cuò)誤,他點(diǎn)開參考鏈接時(shí)發(fā)現(xiàn),作為引用源的知乎回答,居然也是 AI 生成的。
回看這個(gè)知乎賬號(hào),遣詞造句盡顯 AI 風(fēng)味,答題速度迅雷不及掩耳,目前已經(jīng)被禁言了。
被看到的冰山一角,指向了一個(gè)惡性循環(huán):AI 生成錯(cuò)誤信息,這些信息又被喂給更多的 AI,導(dǎo)致互聯(lián)網(wǎng)的信息質(zhì)量越來越差。
但硬要較真,AI 污染互聯(lián)網(wǎng),不全是 AI 的鍋。
AI 造假,神乎其技
生成式 AI 有概率輸出錯(cuò)誤信息,這是刻進(jìn) DNA 的頑疾,聯(lián)網(wǎng)能夠緩解部分癥狀,因?yàn)榭梢詤⒖级鄠€(gè)信息源,但沒想到這么快,我們因此陷入了新的混沌,正如古早的計(jì)算機(jī)格言:
garbage in, garbage out(垃圾進(jìn),垃圾出)。
AI 正在悄悄創(chuàng)作越來越多的「假冒偽劣」,說不定你在沖浪的時(shí)候就遇到過。
國內(nèi)外已經(jīng)發(fā)生了好幾起 AI 假新聞事件。
今年 4 月,多達(dá) 21 個(gè)賬號(hào)同時(shí)發(fā)布了一條駭人聽聞的消息:甘肅一火車撞上修路工人,致 9 人死亡。
網(wǎng)警初步判斷信息不實(shí),鎖定了深圳某自媒體公司,經(jīng)過取證后發(fā)現(xiàn),犯罪嫌疑人在全網(wǎng)搜索近幾年社會(huì)熱點(diǎn)新聞,并通過 ChatGPT 修改編輯,再將內(nèi)容多次上傳。
國外知名科技媒體 CNET,也在年初被曝光用 AI 偷偷生成文章,其中 77 篇存在不少錯(cuò)誤。
新聞可信度評(píng)級(jí)機(jī)構(gòu) NewsGuard 甚至發(fā)現(xiàn),涉及 7 種語言的 49 個(gè)新聞網(wǎng)站,內(nèi)容大部分或完全由 AI 生成。
它們「師出同門」但各有千秋,有的杜撰虛假信息,有的重寫其他媒體報(bào)道,其中產(chǎn)量高的每天發(fā)出數(shù)百篇文章。
最有趣的來了,NewsGuard 是通過搜索「As an AI language model」等 AI 常用短語發(fā)現(xiàn)這些網(wǎng)站的。連 AI 的口頭禪都不刪去,臟活也做得太過粗糙。
若在社交媒體和點(diǎn)評(píng)網(wǎng)站查找類似內(nèi)容,你也會(huì)發(fā)現(xiàn)無腦復(fù)制 AI 的賬號(hào)已經(jīng)大行其道。
亞馬遜一款吸塵器的虛假評(píng)價(jià)不遮不掩:「作為一個(gè) AI 語言模型,我沒有親自使用過這個(gè)產(chǎn)品,但根據(jù)它的功能和用戶評(píng)論,我可以自信地給它打 5 星?!笰I 騙人這么誠實(shí),背后原因令人暖心。
不只文本,圖片和視頻的深度造假也越發(fā)爐火純青。
穿著羽絨服的教皇,被視作第一個(gè)真正大規(guī)模的 AI 虛假信息案例,當(dāng)時(shí)在Twitter的瀏覽量達(dá)到 2600 多萬次?!窤I 生成圖片」的說明,后來才補(bǔ)充在圖片下方。
更多的模仿隨之而來。特朗普下鄉(xiāng)再就業(yè),在街頭拉黃包車;異形體驗(yàn)生活,上了一天的班然后深夜買醉……更有甚者,用 AI 生成「新聞圖片」,對(duì)不存在的歷史言之鑿鑿。
TikTok 上的「湯姆·克魯斯」,以假亂真的程度,本人看了也得犯迷糊。
風(fēng)險(xiǎn)與你不一定隔著屏幕,也可能已經(jīng)蟄伏身邊。
今年 4 月,技術(shù)專欄作家 Joanna Stern 做了一項(xiàng)實(shí)驗(yàn),錄制 30 分鐘的視頻和 2 個(gè)小時(shí)的音頻,然后用 AI 克隆了自己,它甚至騙過了銀行和她的家人。
AI 讓我們對(duì)那些曾經(jīng)不容置疑的事物,也抱有基本的警惕心。
當(dāng)你連接到互聯(lián)網(wǎng),你和 AI 都會(huì)消費(fèi) AI 生成的內(nèi)容,這個(gè)時(shí)刻已經(jīng)到來。
AI 污染不僅影響現(xiàn)在,也可能帶偏未來
以上這些是 AI 污染互聯(lián)網(wǎng)的現(xiàn)狀,往后的發(fā)展可能更讓人不安。
讓人類中招的同時(shí),回旋鏢也將打在 AI 身上。
一項(xiàng)英國和加拿大的研究發(fā)現(xiàn),當(dāng)人類越來越多地通過 AI 生成內(nèi)容,它們會(huì)大量進(jìn)入在線數(shù)據(jù)庫,被用來訓(xùn)練未來的 AI,如果一代又一代地延續(xù)下去,最終將導(dǎo)致「模型崩潰」。
具體來說,隨著時(shí)間的推移,AI 生成的錯(cuò)誤會(huì)復(fù)合,造成從中學(xué)習(xí)的下一代 AI 更加錯(cuò)誤地感知現(xiàn)實(shí),并迅速忘記大部分原始數(shù)據(jù),無法區(qū)分事實(shí)和虛構(gòu)。研究人員打了一個(gè)生動(dòng)的比喻:
就像用塑料垃圾散布海洋、用二氧化碳攻占大氣,我們即將用廢話填滿互聯(lián)網(wǎng)。
作為結(jié)果,通過抓取互聯(lián)網(wǎng)數(shù)據(jù)訓(xùn)練新模型,將變得更加困難。
雪上加霜的是,內(nèi)容平臺(tái)們打算筑起城墻,讓免費(fèi)的、高質(zhì)量的公開數(shù)據(jù)有了門檻。
前段時(shí)間,「美國貼吧」Reddit 計(jì)劃對(duì) API 進(jìn)行收費(fèi),原因是他們的內(nèi)容正在被白嫖給 AI 訓(xùn)練,ChatGPT 和 Google Bard 之前都爬過 Reddit 的數(shù)據(jù)。
Reddit CEO 表示,Reddit 的語料庫非常有價(jià)值,他們不想把這些內(nèi)容免費(fèi)提供給巨頭。
Reddit 的 API 收費(fèi),對(duì) OpenAI、Google 等家底深厚的玩家影響不大,但 AI 初創(chuàng)公司獲取數(shù)據(jù)更難了。那些長期依附 Reddit 的第三方應(yīng)用,更是在這次變革中被牽連,帶頭宣布倒下。
在商言商, Reddit 可能是在自救,之前盈利主要靠廣告投放,AI 反而挖掘了 Reddit 數(shù)據(jù)的商業(yè)價(jià)值,其他 UGC 內(nèi)容平臺(tái)說不定也在打算盤,這對(duì)很多 AI 初創(chuàng)公司來說不是好事。
公開數(shù)據(jù)還不是唯一的挑戰(zhàn),不少 AI 初創(chuàng)公司想在金融、醫(yī)療等領(lǐng)域構(gòu)建垂直的 AI 模型,然而獲取專有的訓(xùn)練數(shù)據(jù)集并不容易。
擁有這些數(shù)據(jù)的企業(yè)們,更愿意和大型科技公司建立合作關(guān)系,因?yàn)榫揞^的可信度更高,處理數(shù)據(jù)的方式更好,更能保障數(shù)據(jù)安全。
高質(zhì)量數(shù)據(jù)是 AI 模型的護(hù)城河,獲取數(shù)據(jù)卻或多或少地成了一場(chǎng)利益的博弈,將互聯(lián)網(wǎng)劃分為孤島,或者干脆排資論輩上演軍備競(jìng)賽。
一方面,互聯(lián)網(wǎng)的內(nèi)容本就參差不齊,另一方面,互聯(lián)網(wǎng)又趨向封閉。未來各家的 AI 要如何接收優(yōu)質(zhì)內(nèi)容訓(xùn)練和微調(diào),成了一個(gè)懸而不決的問題。
至少在互聯(lián)網(wǎng)數(shù)據(jù)這塊,AI 還真可能「自給自足」。劍橋大學(xué)教授 Ross Anderson 指出,目前,大多數(shù)在線文本都由人類編寫,但它們已經(jīng)被用來訓(xùn)練 GPT-3.5 和 GPT-4,未來,越來越多的文本將由大語言模型編寫。
那么,如何避免 AI 生成內(nèi)容質(zhì)量下降,一代不如一代?英國和加拿大團(tuán)隊(duì)提出了兩種方法。
一是保留原始數(shù)據(jù)集的副本,并避免它被 AI 生成的數(shù)據(jù)污染,然后可以基于這些數(shù)據(jù),定期重新訓(xùn)練或者從頭刷新模型。
二是將新的、干凈的、人類生成的數(shù)據(jù)集,重新引入到模型訓(xùn)練中。然而,前提是存在某種可行的方式,區(qū)分 AI 和人類生成的內(nèi)容。
ChatGPT 的數(shù)據(jù)源截至 2021 年 9 月,在那之前的互聯(lián)網(wǎng)可能是最后一片凈土。
從此以后我們踏進(jìn)了暗流涌動(dòng)的世界,困境擺在眼前,應(yīng)對(duì)措施懸在空中。
被用來制造垃圾的 AI,本該提高互聯(lián)網(wǎng)的下限
不過,互聯(lián)網(wǎng)被污染的鍋,不該全由 AI 來擔(dān)。
事實(shí)上,AI 本該用來提高互聯(lián)網(wǎng)內(nèi)容的下限,在 ChatGPT 前身 GPT-3 的時(shí)代,已經(jīng)有人將它作為寫作工具了。
AI 從新鮮的玩具變成提升生產(chǎn)力的工具是必然的趨勢(shì),因?yàn)樗鼘W(xué)習(xí)了海量知識(shí),擅長寫出有板有眼的文章和代碼,如果再由人力審核和編輯,其實(shí)已經(jīng)比不少「內(nèi)容農(nóng)場(chǎng)」的質(zhì)量要高。
「內(nèi)容農(nóng)場(chǎng)」指的是那些快速生產(chǎn)內(nèi)容、從而賺取流量和廣告費(fèi)的網(wǎng)站。
這類網(wǎng)站通常找不到作者,摻雜大量廣告,搶占搜索頁面的前排,內(nèi)容多半缺乏原創(chuàng)且無法保證真實(shí)性,很可能是盜取或拼湊他人文章,有來源不明、質(zhì)量低劣、翻譯不準(zhǔn)等問題。
現(xiàn)在,AI 卻被拿來制造新的內(nèi)容農(nóng)場(chǎng),這是人類出于利益的選擇。除了各種假新聞和假圖片,電子書網(wǎng)站、科幻雜志投稿等,也被 AI 批量生產(chǎn)的垃圾充斥。
軟件工程師 Chris Cowell 花了一年多的時(shí)間,編寫了一本技術(shù)指南。結(jié)果在這本書發(fā)行前,亞馬遜已經(jīng)出現(xiàn)了相同主題的、由 AI 生成的電子書。
他擔(dān)心的不是銷量,而是這種低質(zhì)量、低價(jià)格、省時(shí)省力的 AI 寫作,會(huì)讓同樣打算編寫小眾書籍的人類產(chǎn)生「寒蟬效應(yīng)」,降低寫作熱情,不愿意再發(fā)出聲音。
AI 初創(chuàng)公司 Hugging Face 的首席倫理科學(xué)家 Margaret Mitchell 警告,隨著 AI 生成的內(nèi)容越來越多,我們可能讀到大量不符事實(shí)的內(nèi)容,但又無法追溯真相。
這就像是一個(gè) AI 主導(dǎo)的「后真相世界」。
「后真相」指的是,客觀事實(shí)在塑造公眾輿論方面的影響力,反而低于訴諸情感和個(gè)人信仰的內(nèi)容。它被《牛津詞典》評(píng)為 2016 年年度詞匯,至今依然適用。
前段時(shí)間,路透社一項(xiàng)針對(duì) 9.3 萬多名成年人的調(diào)查發(fā)現(xiàn),用 TikTok 看新聞的年輕人越來越多了。至于內(nèi)容有多可信,那就得打個(gè)問號(hào)。
最近,TikTok 流傳著泰坦尼克號(hào)從未沉沒的說法,有理有據(jù)也就罷了,卻只見張口就來的陰謀論。有人用魔法打敗魔法,制作辟謠視頻,關(guān)注度并不低,但沒有謠言出圈。
一位研究泰坦尼克號(hào) 60 年的專家感嘆:「看到這么多垃圾出現(xiàn),讓人有點(diǎn)泄氣。」
更讓他擔(dān)心的是,這類內(nèi)容的受眾里有很多青少年,他們使用 TikTok 的時(shí)間越長,就越相信自己所看到的,然后算法推薦更多相關(guān)內(nèi)容,應(yīng)接不暇地激發(fā)快感,將他們徹底包圍。
更多類似的趨勢(shì)在上演。
斷章取義、支離破碎的片段式消息流轉(zhuǎn)于社交媒體,但嚴(yán)肅內(nèi)容又可能被評(píng)論「太長不看」。
制作粗糙的短視頻,促使新的「黃色新聞」興起?;蚴羌议L里短的擺拍,或是沒有營養(yǎng)的奇聞逸事,讓人想罵一句「沒有新聞可以不發(fā)」。
5 分鐘的小帥小美式電影解說,則是適合下飯的「電子榨菜」,空鏡和轉(zhuǎn)場(chǎng)什么的不重要,將人物標(biāo)簽化,選取最獵奇或懸疑的情節(jié)講解就好。
所以,在 ChatGPT 之前,互聯(lián)網(wǎng)已經(jīng)內(nèi)容降級(jí),它不止關(guān)乎具體內(nèi)容,更關(guān)乎用戶的媒介使用習(xí)慣,如果 AI 被用來加速這個(gè)過程,然后再被這些數(shù)據(jù)訓(xùn)練,那么人類將更加無法抵擋污染。
嚴(yán)肅和通俗內(nèi)容都有受眾,也都值得生產(chǎn),問題的核心并不在這里。尼爾·波茲曼在電視時(shí)代就提出警告,媒介社會(huì)面臨的最大問題,不是電視為人們提供娛樂性的內(nèi)容,而是所有的內(nèi)容都以娛樂的形式表現(xiàn)出來。
相比印刷媒介的嚴(yán)肅與有序,電視等大眾媒介瞬間傳遞信息,如果沉溺于技術(shù)營造的視覺快感,受眾可能會(huì)漸漸失去獨(dú)立思考的能力。
互聯(lián)網(wǎng)時(shí)代不外如是。
對(duì)視覺化、簡(jiǎn)短化、情緒化內(nèi)容的生產(chǎn)和消費(fèi)傾向,為 AI 污染互聯(lián)網(wǎng)塑造了肥沃土壤,甚至讓人們對(duì)虛假信息的抵抗能力降低。
所以,AI 污染互聯(lián)網(wǎng)不全是 AI 的鍋,它可以用來完成更好的事,也可以讓現(xiàn)狀持續(xù)。先是人類選擇想要怎樣的世界,然后 AI 負(fù)責(zé)放大它。