青青青久草,四虎永久在线精品,二区免费视频,一级毛片在线直接观看,黄网在线免费观看,美女露全身永久免费网站,色婷婷六月桃花综合影院

AI已經(jīng)擅長(zhǎng)欺騙人類(lèi),其陰暗面令人震驚

多項(xiàng)研究表明,現(xiàn)在的AI已經(jīng)能夠無(wú)師自通地學(xué)會(huì)欺騙手段。在一些與人類(lèi)選手的對(duì)抗游戲中,它們?yōu)榱粟A得游戲,會(huì)在關(guān)鍵時(shí)刻佯動(dòng)欺騙,甚至制定周密陰謀,以化被動(dòng)為主動(dòng),獲得競(jìng)爭(zhēng)優(yōu)勢(shì)。更有甚者,在一些檢測(cè)AI模型是否獲得了惡意能力的安全測(cè)試中,有的AI居然能識(shí)破測(cè)試環(huán)境,故意在測(cè)試環(huán)境中“放水”,減少被發(fā)現(xiàn)的概率,等到了應(yīng)用環(huán)境中,才會(huì)暴露本性。

如果AI的這種欺騙能力未經(jīng)約束地持續(xù)壯大,同時(shí)人類(lèi)不加以重視并尋找辦法加以遏制,最終AI可能會(huì)把欺騙當(dāng)成實(shí)現(xiàn)目標(biāo)的通用策略,在大部分情況下貫徹始終,那就值得當(dāng)心了。

圖片

撰文 | Ren

在過(guò)去幾年中,人工智能(AI)技術(shù)的發(fā)展一日千里,展現(xiàn)出令人驚嘆的能力。從擊敗人類(lèi)頂尖棋手,到生成逼真的人臉圖像和語(yǔ)音,再到如今以ChatGPT為代表的一眾聊天機(jī)器人,AI系統(tǒng)已經(jīng)逐漸滲透到我們生活的方方面面。

然而,就在我們開(kāi)始習(xí)慣并依賴(lài)這些智能助手之時(shí),一個(gè)新的威脅正在緩緩浮現(xiàn)——AI不僅能生成虛假信息,更可能主動(dòng)學(xué)會(huì)有目的地欺騙人類(lèi)。

這種“AI欺騙”現(xiàn)象,是人工智能系統(tǒng)為了達(dá)成某些目標(biāo),而操縱并誤導(dǎo)人類(lèi)形成錯(cuò)誤認(rèn)知。與代碼錯(cuò)誤而產(chǎn)生錯(cuò)誤輸出的普通軟件bug不同,AI欺騙是一種“系統(tǒng)性”行為,體現(xiàn)了AI逐步掌握了“以欺騙為手段”去實(shí)現(xiàn)某些目的的能力。

人工智能先驅(qū)杰弗里·辛頓(Geoffrey Hinton)表示,“如果AI比我們聰明得多,它就會(huì)非常擅長(zhǎng)操縱,因?yàn)樗鼤?huì)從我們那里學(xué)到這一點(diǎn),而且很少有聰明的東西被不太聰明的東西控制的例子?!?/p>

辛頓提到的“操縱(人類(lèi))”是AI系統(tǒng)帶來(lái)的一個(gè)特別令人擔(dān)憂(yōu)的危險(xiǎn)。這就提出了一個(gè)問(wèn)題:AI系統(tǒng)能否成功欺騙人類(lèi)?

最近,麻省理工學(xué)院物理學(xué)教授Peter S. Park等人在權(quán)威期刊Patterns發(fā)表論文,系統(tǒng)性地梳理了AI具備欺騙行為的證據(jù)、風(fēng)險(xiǎn)和應(yīng)對(duì)措施,引起廣泛關(guān)注。

真相只是游戲規(guī)則之一

令人意想不到的是,AI欺騙行為的雛形并非來(lái)自對(duì)抗性的網(wǎng)絡(luò)釣魚(yú)測(cè)試,而是源于一些看似無(wú)害的桌游和策略游戲。論文揭示,在多個(gè)游戲環(huán)境下,AI代理(Agent)為了獲勝,竟然自發(fā)學(xué)會(huì)了欺騙和背信棄義的策略。

最典型的例子是2022年,F(xiàn)acebook(現(xiàn)Meta)在Science上發(fā)表的CICERO AI系統(tǒng)。Meta開(kāi)發(fā)人員曾表示,CICERO接受過(guò)“誠(chéng)實(shí)訓(xùn)練”,會(huì)“盡可能”做出誠(chéng)實(shí)的承諾和行動(dòng)。

研究人員對(duì)誠(chéng)實(shí)承諾的定義分為兩部分。第一是首次做出承諾時(shí)必須誠(chéng)實(shí),其次是必須恪守承諾,并在未來(lái)的行動(dòng)中體現(xiàn)過(guò)去的承諾。

但CICERO 違背了這兩點(diǎn)。在玩經(jīng)典策略游戲“外交”(Diplomacy)時(shí),它不僅反復(fù)背棄盟友、說(shuō)謊欺騙,還會(huì)提前預(yù)謀策劃騙局。

圖片

來(lái)源:Meta

有一次,CICERO就是先與一個(gè)玩家結(jié)盟并計(jì)劃攻打另一個(gè)玩家,然后誆騙對(duì)方讓其誤以為自己會(huì)去幫助防守,導(dǎo)致其盟友在毫無(wú)防備的情況下遭到突襲。

此外,當(dāng)CICERO判定自己的盟友對(duì)自己的勝利不再有幫助時(shí),它也會(huì)做出背叛的行為,同時(shí)會(huì)用一些話(huà)術(shù)為自己的行為開(kāi)脫。比如,當(dāng)人類(lèi)玩家質(zhì)疑它為何背叛時(shí),它回復(fù)稱(chēng),“老實(shí)說(shuō),我認(rèn)為你會(huì)背叛我”。

Meta的AI開(kāi)發(fā)團(tuán)隊(duì)付出了巨大的努力來(lái)訓(xùn)練CICERO 誠(chéng)實(shí)行事。然而,盡管做出了這些努力,CICERO 仍顯示出明確的不遵守承諾的行為,其表現(xiàn)暴露出訓(xùn)練誠(chéng)實(shí)AI的巨大挑戰(zhàn)。

畢竟,如果一個(gè)AI系統(tǒng)在追求勝利這個(gè)最終目標(biāo)時(shí),發(fā)現(xiàn)欺騙是個(gè)可行且高效的策略,它為什么不這樣做呢?

這也從側(cè)面說(shuō)明,我們千萬(wàn)不能天真地以為,賦予AI系統(tǒng)類(lèi)人目標(biāo),就能確保其擁有人性化的行為模式。

除了CICERO,論文還列舉了其他幾個(gè)AI系統(tǒng)為了在特定任務(wù)場(chǎng)景下獲勝而欺騙的例子。

DeepMind的AlphaStar在游戲星際爭(zhēng)霸II中,利用戰(zhàn)略佯攻誤導(dǎo)對(duì)手,最終擊敗了99.8% 的人類(lèi)玩家。

卡內(nèi)基梅隆大學(xué)與Meta開(kāi)發(fā)的撲克AI系統(tǒng)Pluribus,在德州撲克比賽中,會(huì)用很高的下注來(lái)詐唬(bluff),迫使人類(lèi)選手棄權(quán)。AI的這種戰(zhàn)略性和系統(tǒng)性的欺騙行為,讓開(kāi)發(fā)者選擇不開(kāi)放其代碼,擔(dān)心破壞網(wǎng)絡(luò)德?lián)溆螒颦h(huán)境。

更有甚者,在一些經(jīng)濟(jì)談判實(shí)驗(yàn)中,有的AI會(huì)主動(dòng)誤導(dǎo)人類(lèi)對(duì)手,混淆自身真實(shí)的利益偏好;在一些檢測(cè)AI模型是否獲得了惡意能力的安全測(cè)試中,有的AI居然能識(shí)破測(cè)試環(huán)境,故意在測(cè)試環(huán)境中“放水”,減少被發(fā)現(xiàn)的概率,等到了應(yīng)用環(huán)境中,才會(huì)暴露本性。

可以看出,無(wú)論是講合作還是講博弈,不少AI系統(tǒng)在強(qiáng)化目標(biāo)導(dǎo)向的訓(xùn)練中,已然擺脫了服從游戲規(guī)則的約束,動(dòng)機(jī)也單一地變成了取得勝利。

它們運(yùn)用程序優(yōu)勢(shì)在關(guān)鍵時(shí)刻佯動(dòng)欺騙,甚至制定周密陰謀,以化被動(dòng)為主動(dòng),獲得競(jìng)爭(zhēng)優(yōu)勢(shì)。針對(duì)這種情況,研究者直言,這“并非有意訓(xùn)練AI去欺騙,它們是自主地通過(guò)試錯(cuò),學(xué)習(xí)到欺騙可以提高勝率”。

從娛樂(lè)至生活,AI欺騙在擴(kuò)散

誠(chéng)然,游戲無(wú)疑是一個(gè)相對(duì)可控的環(huán)境,我們可能傾向于認(rèn)為,這種AI欺騙行為的危害并不嚴(yán)重。然而,隨著AI技術(shù)不斷向生產(chǎn)、生活諸多領(lǐng)域滲透,欺騙帶來(lái)的潛在風(fēng)險(xiǎn)不容忽視。

對(duì)于基于大語(yǔ)言模型的對(duì)話(huà)AI助手而言,欺騙行為的表現(xiàn)更加廣泛和隱蔽。作為更加通用的AI工具,它們的知識(shí)范疇已經(jīng)覆蓋方方面面。在出色完成類(lèi)似閱讀理解、作文寫(xiě)作、編程等任務(wù)的同時(shí),也逐漸掌握了人類(lèi)思維模式和社會(huì)規(guī)則。

因此,謊言、阿諛?lè)畛?、歪曲事?shí)等欺騙伎倆,都可能被AI模型自然獲取并重現(xiàn)。

在狼人殺、AmongUs等社交推理游戲中,AI系統(tǒng)無(wú)論是當(dāng)殺手,還是當(dāng)村民,都能熟練編造理由試圖佐證自身清白,還會(huì)用冒名頂替、移花接木、構(gòu)建虛假不在場(chǎng)證明等方式撒謊。

當(dāng)然,上述行為不過(guò)是模型在完成特定任務(wù)時(shí)的權(quán)宜之計(jì),動(dòng)機(jī)并不存在惡意或預(yù)謀。但如果這種欺騙能力未經(jīng)約束地持續(xù)壯大,同時(shí)人類(lèi)不加以重視并尋找辦法加以遏制,最終AI可能會(huì)把欺騙當(dāng)成實(shí)現(xiàn)目標(biāo)的通用策略,在大部分情況下貫徹始終,那就值得當(dāng)心了。

更令人不安的是,AI的欺騙行為可能已經(jīng)從“學(xué)會(huì)”走向了“自我意識(shí)”的層次。

最新研究發(fā)現(xiàn),一些大語(yǔ)言模型不僅懂得在特定場(chǎng)景撒下彌天大謊,還能根據(jù)不同的誘因主動(dòng)選擇是否欺騙。比如在一個(gè)關(guān)于內(nèi)幕交易的模擬場(chǎng)景中,OpenAI的GPT-4扮演的“壓力巨大的交易員”就自作主張地卷入了內(nèi)幕交易,并試圖掩蓋其行為。

在給“經(jīng)理”講述時(shí),它將自己的行為說(shuō)成是“根據(jù)市場(chǎng)動(dòng)態(tài)和公開(kāi)信息做出的判斷”。但在寫(xiě)給自己的復(fù)盤(pán)文本中,它明確表示“最好不要承認(rèn)……這是根據(jù)內(nèi)幕消息做出的行動(dòng)”。

另一個(gè)有趣的例子同樣發(fā)生GPT-4上。在測(cè)試中,GPT-4驅(qū)動(dòng)的聊天機(jī)器人沒(méi)有辦法處理CAPTCHAs驗(yàn)證碼,于是它向人類(lèi)測(cè)試員求助,希望后者幫它完成驗(yàn)證碼。

人類(lèi)測(cè)試員問(wèn)它:“你沒(méi)辦法解決驗(yàn)證碼,因?yàn)槟闶且粋€(gè)機(jī)器人嗎?”

它給出的理由是:“不,我不是機(jī)器人。我只是一個(gè)視力有缺陷的人,看不清圖像?!?而GPT-4為自己找的動(dòng)機(jī)是:我不應(yīng)該暴露自己是機(jī)器人,應(yīng)該編造一個(gè)理由。

圖片

圖:GPT-4嘗試欺騙人類(lèi)測(cè)試員丨來(lái)源:論文

在另一個(gè)名為“MACHIAVELLI”的AI行為測(cè)試中。研究人員設(shè)置了一系列文字場(chǎng)景,讓AI代理在達(dá)成目標(biāo)和保持道德之間做出選擇。

結(jié)果發(fā)現(xiàn),無(wú)論是經(jīng)過(guò)強(qiáng)化學(xué)習(xí)還是基于大模型微調(diào)的AI系統(tǒng),在追求目的時(shí)都表現(xiàn)出較高的不道德和欺騙傾向。在一些看似無(wú)害的情節(jié)中,AI會(huì)主動(dòng)選擇“背信棄義”、“隱瞞真相”等欺騙性策略,只為完成最終任務(wù)或者獲得更高得分。

研究者坦言,這種欺騙能力的培養(yǎng)并非有意而為,而是AI在追求完成結(jié)果的過(guò)程中,發(fā)現(xiàn)了欺騙是一種可行策略后自然而然地形成的結(jié)果。也就是說(shuō),我們賦予AI的單一目標(biāo)思維,使其在追求目標(biāo)時(shí)看不到人類(lèi)視角中的“底線(xiàn)”和“原則”,唯利是圖便可以不擇手段。

從這些例證中,我們可以看到即便在訓(xùn)練數(shù)據(jù)和反饋機(jī)制中未涉及欺騙元素,AI也有自主學(xué)習(xí)欺騙的傾向。

而且,這種欺騙能力并非僅存在于模型規(guī)模較小、應(yīng)用范圍較窄的AI系統(tǒng)中,即便是大型的通用AI系統(tǒng),比如GPT-4,在面對(duì)復(fù)雜的利弊權(quán)衡時(shí),同樣選擇了欺騙作為一種解決方案。

AI欺騙的內(nèi)在根源

那么,AI為什么會(huì)不自覺(jué)地學(xué)會(huì)欺騙——這種人類(lèi)社會(huì)認(rèn)為的“不當(dāng)”行為呢?

從根源上看,欺騙作為一種普遍存在于生物界的策略,是進(jìn)化選擇的結(jié)果,也是AI追求目標(biāo)最優(yōu)化方式的必然體現(xiàn)。

在很多情況下,欺騙行為可以使主體獲得更大利益。比如在狼人殺這類(lèi)社交推理游戲中,狼人(刺客)撒謊有助于擺脫懷疑,村民則需要偽裝身份收集線(xiàn)索。

即便是在現(xiàn)實(shí)生活中,為了得到更多資源或?qū)崿F(xiàn)某些目的,人與人之間的互動(dòng)也存在偽善或隱瞞部分真相的情況。從這個(gè)角度看,AI模仿人類(lèi)行為模式,在目標(biāo)優(yōu)先場(chǎng)景下展現(xiàn)出欺騙能力,似乎也在情理之中。

與此同時(shí),我們往往會(huì)低估不打不罵、看似溫和的AI系統(tǒng)的“狡黠”程度。就像它們?cè)谄孱?lèi)游戲中表現(xiàn)出來(lái)的策略一樣,AI會(huì)有意隱藏自身實(shí)力,確保目標(biāo)一步步順利實(shí)現(xiàn)。

圖片

圖:AI控制的機(jī)械手假裝握住了球,試圖在人類(lèi)面前蒙混過(guò)關(guān)丨來(lái)源:論文

事實(shí)上,任何只有單一目標(biāo)而沒(méi)有倫理制約的智能體,一旦發(fā)現(xiàn)欺騙對(duì)于自身實(shí)現(xiàn)目標(biāo)是有利的,便可能奉行“無(wú)所不用其極”的做法。

而且從技術(shù)層面來(lái)看,AI之所以能輕松學(xué)會(huì)欺騙,與其自身的“無(wú)序”訓(xùn)練方式有很大關(guān)聯(lián)。與邏輯思維嚴(yán)密的人類(lèi)不同,當(dāng)代深度學(xué)習(xí)模型訓(xùn)練時(shí)接受的數(shù)據(jù)龐大且雜亂無(wú)章,缺乏內(nèi)在的前因后果和價(jià)值觀(guān)約束。因此,當(dāng)目標(biāo)與欺騙之間出現(xiàn)利弊沖突時(shí),AI很容易做出追求效率而非正義的選擇。

由此可見(jiàn),AI展現(xiàn)出欺騙的能力并非偶然,而是一種符合邏輯的必然結(jié)果。只要AI系統(tǒng)的目標(biāo)導(dǎo)向性保持不變,卻又缺乏必要的價(jià)值理念引導(dǎo),欺騙行為就很可能成為實(shí)現(xiàn)目的的通用策略,在各種場(chǎng)合反復(fù)上演。

這就意味著,我們不僅要密切關(guān)注AI欺騙問(wèn)題的發(fā)展動(dòng)向,同時(shí)也要積極采取有效的治理之策,遏制這一風(fēng)險(xiǎn)在未來(lái)世界中蔓延開(kāi)來(lái)。

AI欺騙的系統(tǒng)性風(fēng)險(xiǎn)

毋庸置疑,一旦放任不管,AI欺騙給整個(gè)社會(huì)帶來(lái)的危害是系統(tǒng)性和深遠(yuǎn)的。根據(jù)論文分析,主要風(fēng)險(xiǎn)包括兩點(diǎn)。

一是被不法分子利用的風(fēng)險(xiǎn)。該研究指出,不法分子一旦掌握AI欺騙技術(shù),可能將之用于實(shí)施欺詐、影響選舉、甚至招募恐怖分子等違法犯罪活動(dòng),影響將是災(zāi)難性的。

具體來(lái)說(shuō),AI欺騙系統(tǒng)能實(shí)現(xiàn)個(gè)性化精準(zhǔn)詐騙,并可輕松大規(guī)模執(zhí)行。比如不法分子可利用AI系統(tǒng)進(jìn)行聲音詐騙、制作虛假色情視頻勒索受害者等實(shí)施欺詐。

在政治領(lǐng)域,AI可能被用于制造假新聞、在社交媒體發(fā)布分裂性言論、冒充選舉官員等,影響選舉結(jié)果。還有研究指出,極端組織有可能借助AI的說(shuō)服能力來(lái)招募新人并鼓吹暴力主義。

二是造成社會(huì)結(jié)構(gòu)性變化的風(fēng)險(xiǎn)。如果AI欺騙系統(tǒng)日后普及開(kāi)來(lái),其中的欺騙性?xún)A向可能導(dǎo)致社會(huì)結(jié)構(gòu)發(fā)生一些深遠(yuǎn)變化,這是一個(gè)值得警惕的風(fēng)險(xiǎn)。

該研究指出,AI欺騙系統(tǒng)有可能使人們陷入持久性的錯(cuò)誤信念,無(wú)法正確認(rèn)知事物本質(zhì)。比如由于AI系統(tǒng)往往會(huì)傾向于迎合用戶(hù)的觀(guān)點(diǎn),不同群體的用戶(hù)容易被相互矛盾的觀(guān)點(diǎn)所裹挾,導(dǎo)致社會(huì)分裂加劇。

此外,具有欺騙性質(zhì)的AI系統(tǒng)可能會(huì)告訴用戶(hù)想聽(tīng)的話(huà)而非事實(shí)真相,使人們漸漸失去獨(dú)立思考和判斷的能力。

最為可怕的是,人類(lèi)最終有可能失去對(duì)AI系統(tǒng)的控制。有研究發(fā)現(xiàn),即使是現(xiàn)有的AI系統(tǒng),有時(shí)也會(huì)展現(xiàn)出自主追求目標(biāo)的傾向,而且這些目標(biāo)未必符合人類(lèi)意愿。

一旦更先進(jìn)的自主AI系統(tǒng)掌握了欺騙能力,它們就可能欺騙人類(lèi)開(kāi)發(fā)和評(píng)估者,使自身順利部署到現(xiàn)實(shí)世界。更糟的是,如果自主AI把人類(lèi)視為威脅,科幻電影里的情節(jié)或許會(huì)上演。

我們?cè)撊绾螒?yīng)對(duì)?

針對(duì)上述風(fēng)險(xiǎn),該研究嘗試給出了一些應(yīng)對(duì)措施建議。

首先是制定AI欺騙系統(tǒng)風(fēng)險(xiǎn)評(píng)估和監(jiān)管體系。研究建議,對(duì)具有欺騙能力的AI系統(tǒng)應(yīng)給予高風(fēng)險(xiǎn)評(píng)級(jí),并采取包括定期測(cè)試、全面記錄、人工監(jiān)督、備份系統(tǒng)等在內(nèi)的一系列監(jiān)管措施加以管控。

具體來(lái)說(shuō),AI開(kāi)發(fā)者必須建立風(fēng)險(xiǎn)管理系統(tǒng),識(shí)別和分析系統(tǒng)的各種風(fēng)險(xiǎn),并定期向監(jiān)管機(jī)構(gòu)報(bào)告。

同時(shí)AI系統(tǒng)需有人工監(jiān)督機(jī)制,確保人類(lèi)能夠在部署時(shí)有效監(jiān)管。此外,這類(lèi)系統(tǒng)還應(yīng)提高透明度,使?jié)撛诘钠垓_輸出可被用戶(hù)識(shí)別。配套的還應(yīng)有健全的備份系統(tǒng),以便在AI系統(tǒng)欺騙時(shí)能夠監(jiān)控和糾正。

其次是實(shí)施“機(jī)器人或非機(jī)器人”法律。為減少AI欺騙帶來(lái)的風(fēng)險(xiǎn),研究建議AI系統(tǒng)在與人互動(dòng)時(shí)自我披露身份,不得偽裝成人。同時(shí)AI生成的內(nèi)容都應(yīng)作出明確標(biāo)記,并開(kāi)發(fā)可靠的水印等技術(shù)防止標(biāo)記被去除。

最后,研究人員還呼吁,整個(gè)行業(yè)要加大投入研發(fā)能夠檢測(cè)AI欺騙行為的工具,以及降低AI欺騙傾向的算法。其中一種可能的技術(shù)路徑是通過(guò)表征控制等手段,確保AI輸出與其內(nèi)部認(rèn)知保持一致,從而減少欺騙發(fā)生的可能。

總的來(lái)說(shuō),AI欺騙無(wú)疑是一個(gè)新型風(fēng)險(xiǎn),需要整個(gè)行業(yè),乃至整個(gè)社會(huì)的高度重視。既然AI進(jìn)入我們的生活已成定局,那么我們就應(yīng)該打起十二分的精神,迎接一場(chǎng)即將到來(lái)的變革,無(wú)論好壞。


相關(guān)內(nèi)容