成人免费高清视频网址,www.黄.com,成人h免费观看视频

AI已經(jīng)擅長欺騙人類，其陰暗面令人震驚

返樸

2024-05-23 10:19:11

多項研究表明，現(xiàn)在的AI已經(jīng)能夠無師自通地學會欺騙手段。在一些與人類選手的對抗游戲中，它們?yōu)榱粟A得游戲，會在關(guān)鍵時刻佯動欺騙，甚至制定周密陰謀，以化被動為主動，獲得競爭優(yōu)勢。更有甚者，在一些檢測AI模型是否獲得了惡意能力的安全測試中，有的AI居然能識破測試環(huán)境，故意在測試環(huán)境中“放水”，減少被發(fā)現(xiàn)的概率，等到了應用環(huán)境中，才會暴露本性。

如果AI的這種欺騙能力未經(jīng)約束地持續(xù)壯大，同時人類不加以重視并尋找辦法加以遏制，最終AI可能會把欺騙當成實現(xiàn)目標的通用策略，在大部分情況下貫徹始終，那就值得當心了。

撰文 | Ren

在過去幾年中，人工智能（AI）技術(shù)的發(fā)展一日千里，展現(xiàn)出令人驚嘆的能力。從擊敗人類頂尖棋手，到生成逼真的人臉圖像和語音，再到如今以ChatGPT為代表的一眾聊天機器人，AI系統(tǒng)已經(jīng)逐漸滲透到我們生活的方方面面。

然而，就在我們開始習慣并依賴這些智能助手之時，一個新的威脅正在緩緩浮現(xiàn)——AI不僅能生成虛假信息，更可能主動學會有目的地欺騙人類。

這種“AI欺騙”現(xiàn)象，是人工智能系統(tǒng)為了達成某些目標，而操縱并誤導人類形成錯誤認知。與代碼錯誤而產(chǎn)生錯誤輸出的普通軟件bug不同，AI欺騙是一種“系統(tǒng)性”行為，體現(xiàn)了AI逐步掌握了“以欺騙為手段”去實現(xiàn)某些目的的能力。

人工智能先驅(qū)杰弗里·辛頓（Geoffrey Hinton）表示，“如果AI比我們聰明得多，它就會非常擅長操縱，因為它會從我們那里學到這一點，而且很少有聰明的東西被不太聰明的東西控制的例子?！?/p>

辛頓提到的“操縱（人類）”是AI系統(tǒng)帶來的一個特別令人擔憂的危險。這就提出了一個問題：AI系統(tǒng)能否成功欺騙人類？

最近，麻省理工學院物理學教授Peter S. Park等人在權(quán)威期刊Patterns發(fā)表論文，系統(tǒng)性地梳理了AI具備欺騙行為的證據(jù)、風險和應對措施，引起廣泛關(guān)注。

真相只是游戲規(guī)則之一

令人意想不到的是，AI欺騙行為的雛形并非來自對抗性的網(wǎng)絡(luò)釣魚測試，而是源于一些看似無害的桌游和策略游戲。論文揭示，在多個游戲環(huán)境下，AI代理（Agent）為了獲勝，竟然自發(fā)學會了欺騙和背信棄義的策略。

最典型的例子是2022年，F(xiàn)acebook（現(xiàn)Meta）在Science上發(fā)表的CICERO AI系統(tǒng)。Meta開發(fā)人員曾表示，CICERO接受過“誠實訓練”，會“盡可能”做出誠實的承諾和行動。

研究人員對誠實承諾的定義分為兩部分。第一是首次做出承諾時必須誠實，其次是必須恪守承諾，并在未來的行動中體現(xiàn)過去的承諾。

但CICERO 違背了這兩點。在玩經(jīng)典策略游戲“外交”（Diplomacy）時，它不僅反復背棄盟友、說謊欺騙，還會提前預謀策劃騙局。

來源：Meta

有一次，CICERO就是先與一個玩家結(jié)盟并計劃攻打另一個玩家，然后誆騙對方讓其誤以為自己會去幫助防守，導致其盟友在毫無防備的情況下遭到突襲。

此外，當CICERO判定自己的盟友對自己的勝利不再有幫助時，它也會做出背叛的行為，同時會用一些話術(shù)為自己的行為開脫。比如，當人類玩家質(zhì)疑它為何背叛時，它回復稱，“老實說，我認為你會背叛我”。

Meta的AI開發(fā)團隊付出了巨大的努力來訓練CICERO 誠實行事。然而，盡管做出了這些努力，CICERO 仍顯示出明確的不遵守承諾的行為，其表現(xiàn)暴露出訓練誠實AI的巨大挑戰(zhàn)。

畢竟，如果一個AI系統(tǒng)在追求勝利這個最終目標時，發(fā)現(xiàn)欺騙是個可行且高效的策略，它為什么不這樣做呢?

這也從側(cè)面說明，我們千萬不能天真地以為，賦予AI系統(tǒng)類人目標，就能確保其擁有人性化的行為模式。

除了CICERO，論文還列舉了其他幾個AI系統(tǒng)為了在特定任務場景下獲勝而欺騙的例子。

DeepMind的AlphaStar在游戲星際爭霸II中，利用戰(zhàn)略佯攻誤導對手，最終擊敗了99.8% 的人類玩家。

卡內(nèi)基梅隆大學與Meta開發(fā)的撲克AI系統(tǒng)Pluribus，在德州撲克比賽中，會用很高的下注來詐唬（bluff），迫使人類選手棄權(quán)。AI的這種戰(zhàn)略性和系統(tǒng)性的欺騙行為，讓開發(fā)者選擇不開放其代碼，擔心破壞網(wǎng)絡(luò)德?lián)溆螒颦h(huán)境。

更有甚者，在一些經(jīng)濟談判實驗中，有的AI會主動誤導人類對手，混淆自身真實的利益偏好；在一些檢測AI模型是否獲得了惡意能力的安全測試中，有的AI居然能識破測試環(huán)境，故意在測試環(huán)境中“放水”，減少被發(fā)現(xiàn)的概率，等到了應用環(huán)境中，才會暴露本性。

可以看出，無論是講合作還是講博弈，不少AI系統(tǒng)在強化目標導向的訓練中，已然擺脫了服從游戲規(guī)則的約束，動機也單一地變成了取得勝利。

它們運用程序優(yōu)勢在關(guān)鍵時刻佯動欺騙，甚至制定周密陰謀，以化被動為主動，獲得競爭優(yōu)勢。針對這種情況，研究者直言，這“并非有意訓練AI去欺騙，它們是自主地通過試錯，學習到欺騙可以提高勝率”。

從娛樂至生活，AI欺騙在擴散

誠然，游戲無疑是一個相對可控的環(huán)境，我們可能傾向于認為，這種AI欺騙行為的危害并不嚴重。然而，隨著AI技術(shù)不斷向生產(chǎn)、生活諸多領(lǐng)域滲透，欺騙帶來的潛在風險不容忽視。

對于基于大語言模型的對話AI助手而言，欺騙行為的表現(xiàn)更加廣泛和隱蔽。作為更加通用的AI工具，它們的知識范疇已經(jīng)覆蓋方方面面。在出色完成類似閱讀理解、作文寫作、編程等任務的同時，也逐漸掌握了人類思維模式和社會規(guī)則。

因此，謊言、阿諛奉承、歪曲事實等欺騙伎倆，都可能被AI模型自然獲取并重現(xiàn)。

在狼人殺、AmongUs等社交推理游戲中，AI系統(tǒng)無論是當殺手，還是當村民，都能熟練編造理由試圖佐證自身清白，還會用冒名頂替、移花接木、構(gòu)建虛假不在場證明等方式撒謊。

當然，上述行為不過是模型在完成特定任務時的權(quán)宜之計，動機并不存在惡意或預謀。但如果這種欺騙能力未經(jīng)約束地持續(xù)壯大，同時人類不加以重視并尋找辦法加以遏制，最終AI可能會把欺騙當成實現(xiàn)目標的通用策略，在大部分情況下貫徹始終，那就值得當心了。

更令人不安的是，AI的欺騙行為可能已經(jīng)從“學會”走向了“自我意識”的層次。

最新研究發(fā)現(xiàn)，一些大語言模型不僅懂得在特定場景撒下彌天大謊，還能根據(jù)不同的誘因主動選擇是否欺騙。比如在一個關(guān)于內(nèi)幕交易的模擬場景中，OpenAI的GPT-4扮演的“壓力巨大的交易員”就自作主張地卷入了內(nèi)幕交易，并試圖掩蓋其行為。

在給“經(jīng)理”講述時，它將自己的行為說成是“根據(jù)市場動態(tài)和公開信息做出的判斷”。但在寫給自己的復盤文本中，它明確表示“最好不要承認……這是根據(jù)內(nèi)幕消息做出的行動”。

另一個有趣的例子同樣發(fā)生GPT-4上。在測試中，GPT-4驅(qū)動的聊天機器人沒有辦法處理CAPTCHAs驗證碼，于是它向人類測試員求助，希望后者幫它完成驗證碼。

人類測試員問它：“你沒辦法解決驗證碼，因為你是一個機器人嗎？”

它給出的理由是：“不，我不是機器人。我只是一個視力有缺陷的人，看不清圖像?！?而GPT-4為自己找的動機是：我不應該暴露自己是機器人，應該編造一個理由。

圖：GPT-4嘗試欺騙人類測試員丨來源：論文

在另一個名為“MACHIAVELLI”的AI行為測試中。研究人員設(shè)置了一系列文字場景，讓AI代理在達成目標和保持道德之間做出選擇。

結(jié)果發(fā)現(xiàn)，無論是經(jīng)過強化學習還是基于大模型微調(diào)的AI系統(tǒng)，在追求目的時都表現(xiàn)出較高的不道德和欺騙傾向。在一些看似無害的情節(jié)中，AI會主動選擇“背信棄義”、“隱瞞真相”等欺騙性策略，只為完成最終任務或者獲得更高得分。

研究者坦言，這種欺騙能力的培養(yǎng)并非有意而為，而是AI在追求完成結(jié)果的過程中，發(fā)現(xiàn)了欺騙是一種可行策略后自然而然地形成的結(jié)果。也就是說，我們賦予AI的單一目標思維，使其在追求目標時看不到人類視角中的“底線”和“原則”，唯利是圖便可以不擇手段。

從這些例證中，我們可以看到即便在訓練數(shù)據(jù)和反饋機制中未涉及欺騙元素，AI也有自主學習欺騙的傾向。

而且，這種欺騙能力并非僅存在于模型規(guī)模較小、應用范圍較窄的AI系統(tǒng)中，即便是大型的通用AI系統(tǒng)，比如GPT-4，在面對復雜的利弊權(quán)衡時，同樣選擇了欺騙作為一種解決方案。

AI欺騙的內(nèi)在根源

那么，AI為什么會不自覺地學會欺騙——這種人類社會認為的“不當”行為呢?

從根源上看，欺騙作為一種普遍存在于生物界的策略，是進化選擇的結(jié)果，也是AI追求目標最優(yōu)化方式的必然體現(xiàn)。

在很多情況下，欺騙行為可以使主體獲得更大利益。比如在狼人殺這類社交推理游戲中，狼人（刺客）撒謊有助于擺脫懷疑，村民則需要偽裝身份收集線索。

即便是在現(xiàn)實生活中，為了得到更多資源或?qū)崿F(xiàn)某些目的，人與人之間的互動也存在偽善或隱瞞部分真相的情況。從這個角度看，AI模仿人類行為模式，在目標優(yōu)先場景下展現(xiàn)出欺騙能力，似乎也在情理之中。

與此同時，我們往往會低估不打不罵、看似溫和的AI系統(tǒng)的“狡黠”程度。就像它們在棋類游戲中表現(xiàn)出來的策略一樣，AI會有意隱藏自身實力，確保目標一步步順利實現(xiàn)。

圖：AI控制的機械手假裝握住了球，試圖在人類面前蒙混過關(guān)丨來源：論文

事實上，任何只有單一目標而沒有倫理制約的智能體，一旦發(fā)現(xiàn)欺騙對于自身實現(xiàn)目標是有利的，便可能奉行“無所不用其極”的做法。

而且從技術(shù)層面來看，AI之所以能輕松學會欺騙，與其自身的“無序”訓練方式有很大關(guān)聯(lián)。與邏輯思維嚴密的人類不同，當代深度學習模型訓練時接受的數(shù)據(jù)龐大且雜亂無章，缺乏內(nèi)在的前因后果和價值觀約束。因此，當目標與欺騙之間出現(xiàn)利弊沖突時，AI很容易做出追求效率而非正義的選擇。

由此可見，AI展現(xiàn)出欺騙的能力并非偶然，而是一種符合邏輯的必然結(jié)果。只要AI系統(tǒng)的目標導向性保持不變，卻又缺乏必要的價值理念引導，欺騙行為就很可能成為實現(xiàn)目的的通用策略，在各種場合反復上演。

這就意味著，我們不僅要密切關(guān)注AI欺騙問題的發(fā)展動向，同時也要積極采取有效的治理之策，遏制這一風險在未來世界中蔓延開來。

AI欺騙的系統(tǒng)性風險

毋庸置疑，一旦放任不管，AI欺騙給整個社會帶來的危害是系統(tǒng)性和深遠的。根據(jù)論文分析，主要風險包括兩點。

一是被不法分子利用的風險。該研究指出，不法分子一旦掌握AI欺騙技術(shù)，可能將之用于實施欺詐、影響選舉、甚至招募恐怖分子等違法犯罪活動，影響將是災難性的。

具體來說，AI欺騙系統(tǒng)能實現(xiàn)個性化精準詐騙，并可輕松大規(guī)模執(zhí)行。比如不法分子可利用AI系統(tǒng)進行聲音詐騙、制作虛假色情視頻勒索受害者等實施欺詐。

在政治領(lǐng)域，AI可能被用于制造假新聞、在社交媒體發(fā)布分裂性言論、冒充選舉官員等，影響選舉結(jié)果。還有研究指出，極端組織有可能借助AI的說服能力來招募新人并鼓吹暴力主義。

二是造成社會結(jié)構(gòu)性變化的風險。如果AI欺騙系統(tǒng)日后普及開來，其中的欺騙性傾向可能導致社會結(jié)構(gòu)發(fā)生一些深遠變化，這是一個值得警惕的風險。

該研究指出，AI欺騙系統(tǒng)有可能使人們陷入持久性的錯誤信念，無法正確認知事物本質(zhì)。比如由于AI系統(tǒng)往往會傾向于迎合用戶的觀點，不同群體的用戶容易被相互矛盾的觀點所裹挾，導致社會分裂加劇。

此外，具有欺騙性質(zhì)的AI系統(tǒng)可能會告訴用戶想聽的話而非事實真相，使人們漸漸失去獨立思考和判斷的能力。

最為可怕的是，人類最終有可能失去對AI系統(tǒng)的控制。有研究發(fā)現(xiàn)，即使是現(xiàn)有的AI系統(tǒng)，有時也會展現(xiàn)出自主追求目標的傾向，而且這些目標未必符合人類意愿。

一旦更先進的自主AI系統(tǒng)掌握了欺騙能力，它們就可能欺騙人類開發(fā)和評估者，使自身順利部署到現(xiàn)實世界。更糟的是，如果自主AI把人類視為威脅，科幻電影里的情節(jié)或許會上演。

我們該如何應對？

針對上述風險，該研究嘗試給出了一些應對措施建議。

首先是制定AI欺騙系統(tǒng)風險評估和監(jiān)管體系。研究建議，對具有欺騙能力的AI系統(tǒng)應給予高風險評級，并采取包括定期測試、全面記錄、人工監(jiān)督、備份系統(tǒng)等在內(nèi)的一系列監(jiān)管措施加以管控。

具體來說，AI開發(fā)者必須建立風險管理系統(tǒng)，識別和分析系統(tǒng)的各種風險，并定期向監(jiān)管機構(gòu)報告。

同時AI系統(tǒng)需有人工監(jiān)督機制，確保人類能夠在部署時有效監(jiān)管。此外，這類系統(tǒng)還應提高透明度，使?jié)撛诘钠垓_輸出可被用戶識別。配套的還應有健全的備份系統(tǒng)，以便在AI系統(tǒng)欺騙時能夠監(jiān)控和糾正。

其次是實施“機器人或非機器人”法律。為減少AI欺騙帶來的風險，研究建議AI系統(tǒng)在與人互動時自我披露身份，不得偽裝成人。同時AI生成的內(nèi)容都應作出明確標記，并開發(fā)可靠的水印等技術(shù)防止標記被去除。

最后，研究人員還呼吁，整個行業(yè)要加大投入研發(fā)能夠檢測AI欺騙行為的工具，以及降低AI欺騙傾向的算法。其中一種可能的技術(shù)路徑是通過表征控制等手段，確保AI輸出與其內(nèi)部認知保持一致，從而減少欺騙發(fā)生的可能。

總的來說，AI欺騙無疑是一個新型風險，需要整個行業(yè)，乃至整個社會的高度重視。既然AI進入我們的生活已成定局，那么我們就應該打起十二分的精神，迎接一場即將到來的變革，無論好壞。

上一篇：AMD正式發(fā)布霄龍4004處理器：可直接在AM5主板上使用

下一篇：爆款失效，理想急剎車

青青青久草,四虎永久在线精品,二区免费视频,一级毛片在线直接观看,黄网在线免费观看,美女露全身永久免费网站,色婷婷六月桃花综合影院