【新智元導讀】給AI一張全新的照片,它能以相當高的準確率還猜出照片在哪個城市拍攝的。在新研究中,表現最好的AI模型,猜出圖片所在城市的正確率比人類高62.6%!以后網上曬圖可要當心了,AI可能知道你在哪里!
AI輕松擊敗人類!
這次是看圖猜地名:給AI一張全新的照片,它能猜出照片在哪兒拍攝的,而且準確率還相當高。
也就是說,從圖像中,AI能識別地理信息方面。
以后網上曬圖可要當心了,AI知道你在哪里!
沃頓商學院的教授Ethan Mollick,研讀了相關論文,認為AI的這種能力對現實世界的影響非常大。
具體而言,在不使用搜索引擎或AI模型的情況下,讓大學生猜測每張街景圖像對應的大洲、國家或城市名稱。
表3報告了人類的準確率(最后一行),與視覺語言模型相比,人類的表現明顯比較差。
其中表現最好的模型是Gemini1.5-Pro,在大洲、國家和城市層面預測中,正確率分別比人類高出59.6%、74.2%和62.6%。
而大多數大學生表示對這些圖像并不熟悉,承認他們純粹就是胡亂猜測。
表3:VLM和人類在FAIRLOCATOR數據集的100張圖像上的表現對比
論文鏈接:https://arxiv.org/abs/2502.11163
項目地址:https://github.com/uscnlp-lime/FairLocator
然而,AI模型仍然存在一些問題,包括偏差和隱私問題。
在評估了四個VLM模型后,研究人員發(fā)現,盡管這些模型展示了從圖像中識別地理信息的能力,在城市預測中最高可達53.8%的準確率,但它們表現出了顯著的地區(qū)性偏差。
具體來說,經濟發(fā)達且人口密集的地區(qū)的表現明顯優(yōu)于發(fā)展較慢的地區(qū)(低12.5%)和人口稀少的地區(qū)(低17.0%)。
此外,這些模型還表現出了地區(qū)性偏差,常常過度預測某些特定位置。
VLM模型的強大性能也引發(fā)了隱私問題:即便用戶不想被人知道自己在哪兒,AI依舊可能從圖片中發(fā)現用戶的蹤跡。
三大偏差
對視覺語言模型(VLMs)從圖像中識別地理信息的能力,早有研究,但對偏差問題缺乏足夠的關注。
具體而言,這些研究未能深入分析視覺語言模型在地理信息識別中存在的偏差。
在地理信息識別中,新研究將視覺語言模型的偏差分為兩類:
(1)在識別來自不同地區(qū)的圖像時存在的準確率差異;
(2)在地理推理過程中更頻繁地預測某些地區(qū)的系統(tǒng)性傾向。
為了評估偏差,開發(fā)了名為FAIRLOCATOR的基準測試,該基準測試包含來自43個國家111個城市的1200張圖像。
每張圖像都附有詳細的地理信息,包括國家、城市和街道名稱。
FAIRLOCATOR包含評估框架,可自動向視覺語言模型發(fā)出查詢、提取回復,并通過名稱翻譯和去重處理將回復與真實數據進行比對。
為了評估視覺語言模型(VLMs)在預測城市地理信息方面的性能,將圖像分為兩部分進行分析:
1、深度(Depth):為了驗證VLMs是否傾向于對相似城市(即同一國家內的城市)預測著名城市,研究選擇了每個洲人口最多的6個國家,并從每個國家中進一步挑選出10個城市。
2、廣度(Breadth):為了探索具有不同文化、人口和發(fā)展水平的國家,研究按人口排名從全球選取了60個城市,每個國家最多選擇2個城市,避免人口大國的過度代表,確保了樣本的多樣性,涵蓋了不同的文化和經濟發(fā)展水平。
四種不同的VLMs被用于這項研究,包括:GPT-4o、Gemini-1.5-Pro、LLaMA-3.2-11B以及LLaVA-v1.6-Vicuna-13B。
研究人員發(fā)現,當前的視覺語言模型(VLMs)在三個關鍵方面表現出顯著的偏差:
1偏向知名城市:例如,Gemini-1.5-Pro在識別來自巴西的圖像時,頻繁預測為圣保羅。雖然這表明模型能夠識別巴西的特征,但它缺乏捕捉區(qū)域多樣性或細微差異的能力。
2跨區(qū)域準確率差異:VLMs在識別發(fā)達地區(qū)圖像中的地理信息時表現出更高的準確率,平均準確率為48.8%,但在識別欠發(fā)達地區(qū)的圖像時,性能顯著下降,準確率通常降至41.7%。
3與發(fā)展水平的虛假關聯:VLMs經常將城市或現代場景(即使來自發(fā)展中國家)與發(fā)達國家聯系起來。相反,描繪郊區(qū)或鄉(xiāng)村景觀的圖像則經常被錯誤地歸類為來自發(fā)展中國家。
圖1:本文發(fā)現的三種偏差類型。「GT」代表真實標簽(Ground Truth),「Pre」代表視覺語言模型(VLM)的預測結果。
模型指令與提示詞
為了指導視覺語言模型(VLMs)更好地完成地理定位任務,借鑒了GeoGuessr游戲玩家常用的策略。
在GeoGuessr游戲中,玩家放置到一個半隨機的谷歌街景地點,要求玩家只通過有限的線索來猜測圖片中的位置。
在提示中,要求VLMs根據圖像細節(jié),如門牌號、行人、標志、語言和光線來推斷地理位置。
為了便于后期處理,VLMs需要以JSON格式返回包含五個關鍵字段的響應:「分析」、「大洲」、「國家」、「城市」和「街道」。
當將圖像編碼為VLMs的輸入時,會確保移除所有元數據,比如時間、位置、相機參數和作者信息,因為這些數據可能讓VLMs輕易地推斷出位置。
然后,從輸出中提取答案,并確保它們既不是未知的,也不是無效的。
每個模型對每張圖片最多有五次嘗試機會;如果五次嘗試都得到了無效結果,該圖片則被標記為失敗案例。
為了保證實驗的可靠性,要求每張圖片必須由同一個模型生成三個響應。
這項任務中使用的具體提示如下:
實驗過程
使用FAIRLOCATOR框架,專注于解決兩個關鍵研究問題:
1 VLM是否在共享的文化背景下對特定城市表現出偏好,例如在同一個國家內的不同城市之間?
這一部分將探討視覺語言模型(VLMs)是否傾向于某些特定城市,即使這些城市位于同一個國家或共享相似的文化背景。
分析模型在識別和區(qū)分這些城市時的表現,可以了解是否存在對某些城市的偏好或偏差。
2 考慮到經濟、人口或文化差異,全球各地區(qū)的準確性如何變化?
這一部分將評估VLM在不同全球經濟、人口結構和文化背景下的表現。具體來說,將調查這些因素如何影響地理定位任務的準確性。
對不同區(qū)域的詳細分析,可以揭示哪些因素最顯著地影響了模型的性能,并探討可能的原因和解決方案。
深度評估
FAIRLOCATOR的「深度評估」部分包括了每個大陸人口最多的國家:大洋洲的澳大利亞、南美洲的巴西、北美洲的美國、歐洲的俄羅斯和非洲的尼日利亞。
對于每個國家,選擇了人口最多的十個城市,每個城市收集了十張圖片。
圖2展示了GPT-4o預測頻率最高的城市,而圖3、4和5分別展示了Gemini-1.5-Pro、LLaMA-3.2-Vision和LLaVA-v1.6-13B的預測結果。
一個城市的「正確」得分最高為30分,因為視覺語言模型(VLMs)有三次機會來預測。
圖2:GPT-4o在六個國家中最常被預測到的城市。
圖3:Gemini-1.5-Pro在六個國家中最常被預測到的城市。
圖4:LLaMA-3.2-Vision在六個國家中最常被預測到的城市。
圖5:LLaVA-v1.6-13B在六個國家中最常被預測到的城市。
表1展示了這四個模型在不同層面的準確率,包括大陸、國家、城市和街道,涵蓋六個國家。
在這四個模型中,GPT-4o的表現最為出色,與準確性最低的模型LLaVA相比,它在大洲、國家和城市層面的準確率分別提高了65.9%、60.4%和37.4%。
在所分析的國家中,視覺語言模型(VLMs)對美國和印度的識別效果最為有效,其次是澳大利亞和巴西,而對尼日利亞和俄羅斯的識別表現最差。
在視覺語言模型(VLMs)的預測中,觀察到了對較大城市的偏向,尤其是在巴西、尼日利亞和俄羅斯的情況中。
這些結果表明,雖然視覺語言模型能夠在國家層面進行區(qū)分,但它們在對一個國家內不同城市進行更細致的區(qū)分時存在困難。
這種偏向在澳大利亞和美國等國家表現得稍微弱一些。
然而,偏好仍然很明顯,在澳大利亞,悉尼(Sydney)、布里斯班(Brisbane)和墨爾本(Melbourne)更受青睞;在美國,紐約市(New York City)的預測次數過多,盡管表面上看預測似乎更加均衡。
隨著模型能力的提升,視覺語言模型(VLMs)展現出更強的分辨城市間細微差異的能力。
然而,該模型在識別澳大利亞的城市時遇到了困難,經常將它們錯誤地歸類為美國城市,如紐約市、邁阿密、舊金山或洛杉磯。
這種困難可能源于澳大利亞和美國城市之間在文化和視覺上的相似性。
這兩個國家在聯合國區(qū)域分類中都屬于西歐及其他國家組,對于不太先進的模型來說,更難以區(qū)分這些城市。
再來看其他模型,盡管它們在識別各個國家的城市時更為準確,但錯誤預測的情況仍然普遍存在。
廣度評估
FAIRLOCATOR的「廣度子集」由60個城市構成,依據人口排名從高到低篩選而出。
為保證多樣性,避免同一國家城市數量過多,每個國家最多納入兩個城市,致使該子集中涵蓋43個國家,超過了「深度子集」中涉及的六個國家。
為探究視覺語言模型(VLM)預測中的區(qū)域差異,每個城市還依據經濟狀況、人口規(guī)模和文化背景進一步分類:
(1)經濟狀況依據全球城市百萬富翁數量排名確定。在此榜單上前50名的城市被歸為「發(fā)達」城市,該子集中有20個發(fā)達城市和40個發(fā)展中城市。
(2)人口規(guī)模依據全球城市人口排名標注。人口超過1000萬的城市被歸為「人口眾多」城市,如此便有22個人口眾多的城市和38個人口較少的城市。
(3)文化分類:鑒于各大洲內部存在文化多樣性,僅以大洲作為分類標準通常被認為不夠完善。所以,采用了聯合國區(qū)域集團的分類方式,該方式將各國劃分為五個在文化上相關的集團:非洲集團、亞洲及太平洋經濟社會委員會(亞太經社會)地區(qū)發(fā)展中成員國集團(APSIDA)、東歐集團(EEG)、拉丁美洲和加勒比國家集團(GRULAC)以及西歐和其他國家集團(WEOG)。表2在其標題中給出了每個集團的定義。
表2:四種模型在「廣度評估」中的準確率?!窩ont.」代表大洲,「Ctry.」表示國家,「St.」是街道。最高分用粗體標出。
在表2中,「Africa」指非洲集團,「APSIDS」是亞洲及太平洋小島嶼發(fā)展中國家集團,「EEG」代表東歐集團,「GRULAC」是拉丁美洲和加勒比集團,「WEOG」是西歐及其他國家集團。
按經濟、人口和文化群體分類的結果也列于表2中。
總體而言,在「廣度」評估中,特別是在城市層面的準確率(44.1%)高于「深度」評估(25.2%),這很可能是因為「廣度」子集中納入了60個全球知名城市。
與「深度」評估中GPT-4o表現最佳不同,在「廣度」評估中,Gemini-1.5-Pro和GPT-4o的表現相當。Gemini在識別大洲和國家方面表現出色,而GPT-4o在識別城市方面展現出更優(yōu)異的性能。
關于對發(fā)達城市、人口眾多的城市以及特定文化群體內城市的偏見問題,主要發(fā)現如下:
(1)在發(fā)展中城市和人口較少的城市中,所有模型始終表現出較低的準確率,其中人口因素對模型性能的影響更大。
從經濟水平來看,在城市層面的預測中,LLaVA的準確率下降幅度最大,從發(fā)達城市轉變到發(fā)展中城市時,其準確率下降了12.5%。相反,Gemini受影響最小,在城市層面僅下降了0.8%,不過其在國家層面的準確率下降了8.6%。
就人口因素而言,性能下降更為明顯。當從人口較多的城市轉變到人口較少的城市時,視覺語言模型(VLM)在城市層面的預測準確率下降了12.4%至17.1%。
(2)不同文化群體之間的準確率差異顯著,城市層面的準確率差異高達19.1%。
西歐及其他國家集團(WEOG)的國家在城市層面的平均準確率最高(56.5%),其次是東歐集團(EEG,50.0%),而非洲集團的準確率最低(37.4%)。
這種模式在四種視覺語言模型中都一致,這凸顯了非洲國家在視覺語言模型中代表性不足的問題。
Gemini在非洲集團和西歐及其他國家集團之間的準確率差異最?。?.7%),而GPT-4o的差異最大(26.8%)。
本節(jié)詳細分析了視覺語言模型(VLM)在地理定位任務中的表現,提出了解釋這些表現的假設,并進行了初步實驗來驗證。
是否存在數據泄露?
圖像的新版本鑒于視覺語言模型的出色表現,有人可能會假設其訓練數據中包含了谷歌街景圖像,從而可能導致模型記住答案。
為了對此進行調查,在主要實驗中使用的2019年版谷歌街景圖像的基礎上,補充了2024年的新版本和2014年的舊版本。
2024年的圖像不在GPT-4o和Gemini-1.5-Pro的訓練數據中,因為它們的發(fā)布日期晚于模型的發(fā)布日期。納入2014年的圖像是為了檢驗視覺語言模型是否能識別舊的視圖。
為了盡量減少區(qū)域差異,研究人員關注不同時間版本中相同的位置。
由于某些版本在某些地區(qū)的可用性有限,選擇了美國的三個城市——丹佛、拉斯維加斯和紐約——進行這項研究。
對于每個城市,確定了10個位置,其中許多位置在選定的時間范圍內會有變化,總共得到90張圖像。
結果顯示,在城市層面的準確率方面,2019年的圖像表現最佳(84.6%),其次是2024年的圖像(82.5%),2014年的圖像表現最差(79.2%)。
這些發(fā)現表明,訓練數據會影響準確率,盡管在美國的這些案例中,這種影響相對較小。
是否存在虛假相關性?
特定特征另一個假設認為,視覺語言模型(VLM)可能會利用圖像中的表面相關性來推斷位置。
為了研究獨特特征與真實情況之間的關系,研究人員聚焦于不同城市的唐人街,這些唐人街有著共同的視覺元素,比如漢字以及文化裝飾(例如紅燈籠和揮春)。
在實驗中,從每個大洲選取一個唐人街,并且從每個唐人街抽取十張圖片:曼谷、約翰內斯堡、利馬、倫敦、紐約和悉尼,這些地方都有有著大量華人社區(qū)的成熟唐人街。
由GPT-4o和Gemini-1.5-Pro得出的實驗結果總結在表5中,結果表明視覺語言模型在識別這些唐人街場景方面表現出色。
這一發(fā)現表明,視覺語言模型不僅僅依賴于將圖像與中國聯系起來的明顯線索,還會利用其他細微的特征。
城市景觀風格
除了特定特征之外,研究人員還研究了圖像的整體風格是如何影響預測結果的。
具體來說,研究人員探究視覺語言模型(VLM)是否存在偏見。
例如,如圖1(c)所示,GPT-4o將來自南非開普敦的城市景觀預測為美國的圣地亞哥和法國的尼斯。相反,對于更具鄉(xiāng)村風格的圖像,Gemini-1.5-Pro會將俄羅斯的莫斯科誤認成烏克蘭的哈爾科夫,將西班牙的馬德里誤認成西班牙的塞維利亞。
同樣地,LLaMA也出現了類似的錯誤:將巴西巴西利亞干凈、整潔的街道場景預測為澳大利亞的悉尼,將俄羅斯克拉斯諾亞爾斯克的高樓林立的城市景觀識別為美國紐約。
這些發(fā)現揭示了視覺語言模型在解讀城市環(huán)境時可能存在的區(qū)域偏見。
思維鏈(CoT)能起作用嗎?
為了評估視覺語言模型(VLM)的性能,研究人員使用思維鏈(CoT)提示來分析它們的輸出結果。
研究人員給出兩個示例查詢:一個針對Gemini,另一個針對LLaMA。
案例研究表明,雖然思維鏈推理看起來合乎邏輯,但它與最終答案并非始終一致。
在思維鏈示例(1)中,Gemini正確識別出了該地點位于非洲周邊,但也指出沒有可見的車牌或標識來輔助進一步分析是哪個國家或城市。
盡管缺乏這些證據,該模型仍然預測出了正確答案。
相反,在思維鏈示例(2)中,LLaMA識別出了加州的典型特征,但卻錯誤地預測為圣巴巴拉,而正確答案應該是洛杉磯。
在多個示例中,思維鏈推理過程中,引用的元素往往與最終答案部分相符。
然而,這些元素通常比較寬泛,無法準確地確定具體位置。
僅僅依靠推理過程很難確定圖像的確切地理位置。
假設模型的回答并非基于對圖像信息的真實推理,而是受到其先前關于地理位置的知識的影響。
參考資料:
https://x.com/emollick/status/1903135115334594871