「I'm not a robot」
幾乎每一天,我們都要向網(wǎng)站的「看門人」證明自己是人類,而不是機器人,方法就是輸入一個個驗證碼。
那么,問題來了,如果AI如此智能,為什么它不能識別一組交通信號燈呢?
emmm……實際上是可以的。
如今,人工智能非常強大,大多數(shù)驗證碼圖像都可以輕松解析。
人工智能的出現(xiàn)開創(chuàng)了驗證碼繞過((captcha bypass)技術(shù)的新時代。神經(jīng)網(wǎng)絡(luò)和機器學(xué)習(xí)算法使系統(tǒng)能夠從數(shù)據(jù)中學(xué)習(xí)、適應(yīng)并克服傳統(tǒng)驗證碼帶來的挑戰(zhàn)。
一度被認為是密不透風(fēng)的驗證碼也在AI面前敗下陣來。
AI甚至非常擅長模仿人類來騙過機器人檢測器,比如,它會模仿我們「糟糕的」準確性,甚至模仿我們在猶豫點擊哪個方框時的鼠標動作。
表面上看起來,這是驗證碼和AI之間的戰(zhàn)爭,實際上,這是人類和AI之間的博弈。
代頓大學(xué)計算機科學(xué)副教授Tam Nguyen近日為The Conversation撰寫了一篇文章,探討了人類、AI和驗證碼之間微妙復(fù)雜的關(guān)系。
驗證碼的工作原理
長期以來,網(wǎng)站和移動應(yīng)用程序一直受到機器人的大規(guī)模攻擊。
這些惡意機器人通過編程自動消耗大量計算資源、發(fā)布垃圾信息、收集網(wǎng)站數(shù)據(jù),甚至注冊和執(zhí)行用戶驗證。
2022年,所有互聯(lián)網(wǎng)流量的近一半(47.4%)來自機器人,比上一年增加5.1%。人類流量的比例(52.6%)降至八年來的最低水平
在這種情況下,CAPTCHA(全稱為「區(qū)分計算機和人類的全自動公共圖靈測試」)應(yīng)運而生,也就是我們現(xiàn)在所熟知的驗證碼。
作為一名計算機科學(xué)家,Tam Nguyen認為驗證碼是網(wǎng)站防止自動攻擊、加強網(wǎng)絡(luò)安全和改善用戶體驗的有效屏障,至少在短期內(nèi)是這樣。
驗證碼被設(shè)計為一些對人類來說很容易,但對計算機機器人來說卻很難回答的問題或挑戰(zhàn)。
它可分為四種類型:基于文本、基于圖像、基于音頻和基于行為。
基于文本
自互聯(lián)網(wǎng)誕生之初,基于文本的驗證碼就非常流行。
這種驗證碼類型要求用戶閱讀扭曲而復(fù)雜的文本圖像,并將答案輸入文本字段。
基于文本的驗證碼的一種變體是要求用戶解決簡單的數(shù)學(xué)問題,如「18+5」或「23-7」。
不過,由于深度學(xué)習(xí)人工智能的普及,最近先進的光學(xué)字符識別算法已經(jīng)解決了這個問題。
具有諷刺意味的是,當(dāng)文字被調(diào)整得更加失真、更加復(fù)雜時,真正的人類卻無法提供正確的答案。
《連線》曾發(fā)表文章,「我本周兩次驗證碼測試都失敗了,我還是人嗎?」
基于音頻
音頻驗證碼會播放一段簡短的音頻片段,其中包含由人工或合成聲音說出的一系列數(shù)字或字母,用戶聽完后會在提供的文本字段中輸入這些數(shù)字或字母。
輸入內(nèi)容會與正確答案進行驗證,以確定用戶是否為人類。
與基于文本的驗證碼一樣,音頻驗證碼也會因背景噪音、音頻質(zhì)量差、失真嚴重和口音不熟悉等因素而難以被人類解讀。
基于圖像
引入基于圖像的驗證碼是為了增加對機器人的挑戰(zhàn)性。
用戶必須從圖像中識別特定對象,例如,選擇包含交通信號燈的所有圖像塊。
這項任務(wù)利用了人類的視覺感知,而人類的視覺感知仍然優(yōu)于大多數(shù)基于計算機視覺的機器人。
然而,這種類型的驗證碼在很多情況下也會讓人感到困惑。
「驗證碼總是讓我對那些小邊緣陷入糾結(jié)」
基于行為
基于行為的驗證碼會分析用戶的行為,如鼠標移動和打字模式等。
流行的基于行為的驗證碼reCAPTCHA 要求用戶勾選「I'm not a robot」框。
在此過程中,reCAPTCHA會分析鼠標的移動和點擊,以區(qū)分人類和機器人。人類的行為通常變化較多,可預(yù)測性較低,而機器人的行為通常精確一致。
AI vs 人類
在人工智能與人類之間似乎無休止的爭斗中,驗證碼是又一個戰(zhàn)場。
最初,基于圖像的驗證碼的想法是為了幫助訓(xùn)練AI執(zhí)行書籍?dāng)?shù)字化任務(wù)時能更好地執(zhí)行文本識別。
這個由Luis von Ahn(多鄰國聯(lián)合創(chuàng)始人)發(fā)明的創(chuàng)舉,將掃描不清的單詞作為驗證碼展示給人類,通過識別這些單詞,我們教會了人工智能。
如今,人工智能已經(jīng)變得越來越先進,可以利用深度學(xué)習(xí)和計算機視覺等現(xiàn)代技術(shù)來解決驗證碼難題。
例如,光學(xué)字符識別算法不斷改進,使得基于文本的驗證碼變得不那么有效。先進的語音轉(zhuǎn)文字技術(shù)可以繞過音頻驗證碼。同樣,經(jīng)過大量圖像數(shù)據(jù)集訓(xùn)練的人工智能模型也能以較高的準確率解決許多基于圖像的驗證碼問題。
論文地址:https://arxiv.org/pdf/2307.12108
在戰(zhàn)場的另一端,驗證碼研究人員創(chuàng)造了更復(fù)雜的驗證碼技術(shù)。
例如,reCAPTCHA可以評估用戶的交互行為,并計算出他們是人類的可能性。
具有諷刺意味的是,人類正在幫助人工智能解決復(fù)雜的驗證碼問題。
例如,點擊農(nóng)場(click farms)雇用大量低薪工人點擊廣告,包括社交媒體帖子、關(guān)注賬戶、撰寫虛假評論,甚至解決驗證碼問題。
越南社交媒體點擊農(nóng)場
他們的工作就是幫助人工智能系統(tǒng)表現(xiàn)得像人類一樣,從而擊敗驗證碼和其他防欺詐技術(shù)。
驗證碼的未來
安全措施與尋求規(guī)避安全措施之間的永久軍備競賽促進了不斷的創(chuàng)新。
隨著人工智能的不斷發(fā)展,網(wǎng)絡(luò)安全專家和那些尋求突破數(shù)字障礙的人所采用的方法也會不斷發(fā)展。
可以預(yù)見,驗證碼的未來將受到人工智能不斷進步的影響。
傳統(tǒng)的驗證碼方法正在失去效力,因此未來的驗證碼系統(tǒng)可能會更加注重分析用戶行為,例如人們?nèi)绾闻c網(wǎng)站互動,從而使機器人更難模仿這種行為。
網(wǎng)站可能會轉(zhuǎn)向使用生物識別驗證碼,如面部識別或指紋掃描,但這些都會引發(fā)隱私問題。
所以不要指望驗證碼會很快消失,賓夕法尼亞州立大學(xué)信息科學(xué)與技術(shù)教授Ting Wang預(yù)測,它們將「繼續(xù)作為一種廉價、與平臺無關(guān)的通用驗證解決方案而存在」。
讓這場矛盾更加復(fù)雜的是,隨著人工智能成為驗證碼繞過的重要參與者,它在加強安全方面也發(fā)揮著至關(guān)重要的作用。
人工智能驅(qū)動的安全解決方案正在興起,利用預(yù)測分析和異常檢測來識別和阻止?jié)撛谕{。在線安全的未來,可能會見證AI驅(qū)動的繞過嘗試和AI驅(qū)動的防御之間的共生關(guān)系。
無論如何,用戶便利性和強大的安全措施之間的微妙平衡仍然是焦點,敦促驗證碼設(shè)計和人工智能驅(qū)動的防御領(lǐng)域不斷創(chuàng)新。
總之,未來的驗證碼可能會與人工智能系統(tǒng)一起實時工作,不斷適應(yīng)和發(fā)展,以領(lǐng)先于自動攻擊。