青青青久草,四虎永久在线精品,二区免费视频,一级毛片在线直接观看,黄网在线免费观看,美女露全身永久免费网站,色婷婷六月桃花综合影院

超越GPT-4V,蘋果多模態(tài)大模型上新

【新智元導(dǎo)讀】蘋果開發(fā)的多模態(tài)模型Ferret-UI增強(qiáng)了對屏幕的理解和交互,在引用、基礎(chǔ)和推理方面表現(xiàn)出了卓越的性能,這些增強(qiáng)功能的出現(xiàn)預(yù)示著巨大的進(jìn)步。

一句話Siri就能幫忙打開美團(tuán)外賣下訂單的日子看來不遠(yuǎn)啦!

4月8日,蘋果發(fā)布了其最新的多模態(tài)大語言模型(MLLM )——Ferret-UI,能夠更有效地理解和與屏幕信息進(jìn)行交互,在所有基本UI任務(wù)上都超過了GPT-4V!

論文地址:https://arxiv.org/pdf/2404.05719.pdf

雖然蘋果前段時(shí)間經(jīng)歷了泰坦項(xiàng)目的沉沒,但看目前的形式,這是又要開卷的節(jié)奏呀~

不少人十分期待,這項(xiàng)技術(shù)如果在蘋果的Siri上,Siri豈不是要變得聰明絕頂了!

眾所周知,通用域多模態(tài)大型語言模型(MLLM )在理解和有效交互的能力方面往往不足。

而Ferret-UI被稱之為是一種新的MLLM,專為理解移動(dòng)UI屏幕而量身定制,具備指向、定位和推理等多種能力。

Ferret-UI能夠通過靈活的輸入格式(點(diǎn)、框、涂鴉)和基礎(chǔ)任務(wù)(例如:查找小部件、查找圖標(biāo)、查找文本、小部件列表)在移動(dòng)用戶界面屏幕上執(zhí)行引用任務(wù)(例如:小部件分類、圖標(biāo)識別、OCR) )。

Ferret-UI的一個(gè)關(guān)鍵特點(diǎn)是「任何分辨率」(anyres),該技術(shù)通過放大細(xì)節(jié)來解決UI屏幕中小型對象的識別問題,從而提高模型對UI元素的理解精度。

這些基本任務(wù)為模型提供了豐富的視覺和空間知識,使其能夠在粗略和精細(xì)級別上區(qū)分 UI 類型, 例如區(qū)分各種圖標(biāo)或文本元素。

具體來說,F(xiàn)erret-UI 不僅能夠在詳細(xì)描述和感知對話中討論視覺元素, 還能在交互對話中提出目標(biāo)導(dǎo)向的動(dòng)作并通過函數(shù)推理來推斷屏幕的整體功能。

網(wǎng)友直呼:泰褲辣!

雖然Ferret-UI-base緊密遵循Ferret的架構(gòu),但Ferret-UI-anyres融入了額外的細(xì)粒度圖像功能。

特別是,預(yù)先訓(xùn)練的圖像編碼器和投影層可以為整個(gè)屏幕生成圖像特征,對于基于原始圖像長寬比獲得的每個(gè)子圖像,生成附加圖像特征。

為了增強(qiáng)模型的推理能力, 研究人員編譯了用于高級任務(wù)的數(shù)據(jù)集,包括詳細(xì)描述、 感知/交互對話和函數(shù)推理。

在基礎(chǔ)任務(wù)性能的比較上, Ferret-UI展現(xiàn)出了對UI屏幕的出色理解能力以及執(zhí)行開放式指令的能力,表現(xiàn)可謂亮眼!

掌握應(yīng)用程序屏幕并使AI像人類一樣進(jìn)行交互,蘋果未來或許將改變MLLM的游戲規(guī)則!

論文細(xì)節(jié)

方法

Ferret-UI建立在Ferret的基礎(chǔ)上。

Ferret是一種MLLM,擅長在形狀和細(xì)節(jié)各異的自然圖像中進(jìn)行空間參照和定位。

它可以解釋區(qū)域或?qū)ο蟛⑴c之交互,無論這些區(qū)域或?qū)ο蟊恢付槿魏巫杂尚螤睿c(diǎn)、方框等)。

它包含一個(gè)預(yù)先訓(xùn)練好的視覺編碼器和一個(gè)純解碼器語言模型,并采用一種獨(dú)特的混合表示技術(shù),將指定區(qū)域轉(zhuǎn)換為適合LLM處理的格式。

為了向Ferret灌輸U(kuò)I專業(yè)知識,他們對Ferret-UI進(jìn)行了兩個(gè)擴(kuò)展:

1. UI參照和定位的定義與構(gòu)建

2. 模型架構(gòu)調(diào)整以更好地處理屏幕數(shù)據(jù)

與之前需要外部檢測模塊或屏幕視圖文件的MLLM不同, Ferret-UI 是自給自足的。

它將原始屏幕像素作為模型輸入,這種方法不僅促進(jìn)了高級單屏交互,還為新應(yīng)用程序鋪平道路,例如:提高可訪問性。

數(shù)據(jù)集

他們對iPhone和安卓設(shè)備的屏幕進(jìn)行了研究。

對于安卓屏幕,研究人員使用RICO數(shù)據(jù)集的一個(gè)子集,具體來說,他們考慮了Spotlight中的任務(wù),其數(shù)據(jù)是公開的,包括 screen2words、widgetcaptions 和 taperception。

對于iPhone屏幕,研究人員使用AMP數(shù)據(jù)集,它涵蓋了廣泛的應(yīng)用程序。

在收集 Android 和 iPhone 屏幕后,他們使用預(yù)先訓(xùn)練好的基于像素的UI檢測模型進(jìn)一步從屏幕收集細(xì)粒度元素注 釋。

對于每個(gè)檢測到的用戶界面元素,輸出結(jié)果都包括用戶界面類型(按鈕、文本、圖標(biāo)、圖片等)、相應(yīng)的邊界框,以及由Apple Vision Framework識別的顯示在其上的文本(如果有的話)。

任務(wù)制定

首先從現(xiàn)有的Spotlight任務(wù)中獲取screen2words、widgetcaptions和taperception,并將它們格式化為會話QA 對。

對于每個(gè)訓(xùn)練示例,他們都會對相應(yīng)任務(wù)的提示進(jìn)行采樣,并將其與原始源圖像和真實(shí)答案配對。

基礎(chǔ)任務(wù)數(shù)據(jù)生成

除了Spotlight任務(wù)之外,他們將referring任務(wù)定義為輸入中帶有邊界框的任務(wù),而基礎(chǔ)任務(wù)則是輸出中帶有邊界框的任務(wù)。

對于每個(gè)任務(wù),他們還使用GPT-3.5 Turbo來擴(kuò)展基本提示以引入任務(wù)問題的變體。

數(shù)據(jù)生成的詳細(xì)信息如下圖所示。

高級任務(wù)數(shù)據(jù)生成

為了將推理能力融入到該模型中,他們使用LLaVA方法,并用GPT-4收集另外4種格式的數(shù)據(jù)。

首先對檢測輸出中的邊界框坐標(biāo)進(jìn)行標(biāo)準(zhǔn)化,然后將檢測、提示和可選的一次性示例發(fā)送到GPT-4。

為了詳細(xì)描述和功能推理,他們將生成的響應(yīng)與預(yù)選的提示配對來訓(xùn)練Ferret-UI。

下圖說明了高級任務(wù)的訓(xùn)練數(shù)據(jù)生成過程。

以上數(shù)據(jù)的生成主要為4個(gè)任務(wù),分別是:詳細(xì)描述、對話感知、對話交互和功能推理。

其中,他們擴(kuò)展了詳細(xì)描述和函數(shù)推理的基本提示,將它們與GPT-4響應(yīng)配對,作為模型訓(xùn)練中的輸入數(shù)據(jù)。

對于對話任務(wù),他們?yōu)镚PT-4提供了一個(gè)上下文示例,以更好地遵循其輸出中的邊界框格式。

實(shí)驗(yàn)結(jié)果

初級任務(wù)的性能細(xì)分如下表所示。

可以看到,與Spotlight相比,F(xiàn)erret-UI在S2W和 WiC方面表現(xiàn)出了優(yōu)越的性能,盡管Spotlight使用了80M網(wǎng)頁截圖和269M手機(jī)截圖進(jìn)行預(yù)訓(xùn)練。Ferret-UI性能雖然低于TaP,但仍然具有競爭力。

高級任務(wù)性能的結(jié)果如下表所示。

盡管Ferret-UI的訓(xùn)練數(shù)據(jù) 集中缺少Android特定數(shù)據(jù),但它在兩個(gè)平臺的高級任務(wù)上都表現(xiàn)出了值得稱贊的性能。

這表明用戶界面知識在不同操作系統(tǒng)之間具有顯著的可轉(zhuǎn)移性。

消融研究

研究發(fā)現(xiàn),當(dāng)僅使用高級任務(wù)數(shù)據(jù),兩個(gè)平臺的性能均為64%。添加iPhone或Android基本任務(wù) 后,iPhone上高級任務(wù)的性能持續(xù)提高5%。

同樣,從iPhone添加基本任務(wù)可將Android在高級任務(wù)上的性能提高約4%,而合并Android基本任務(wù)可將這一性能提高9%。

包含iPhone和Android基本任務(wù)后,iPhone 和 Android 高級任務(wù)的性能分別進(jìn)一步提高了3%和5%,超出了單組基本任務(wù)所帶來的改進(jìn)。

這些觀察結(jié)果支持他們的假設(shè),即:基本任務(wù)為模型提供了增強(qiáng)的視覺和空間理解,從而促進(jìn)了高級任務(wù)。

為了探索不同數(shù)據(jù)配置對Spotlight Tasks性能的影響,他們特別研究了添加初級任務(wù)數(shù)據(jù)是否能提高模型性能,因?yàn)檫@些任務(wù)的目的是為了提高對屏幕的視覺和空間理解能力。

如下表所示,添加基本任務(wù)數(shù)據(jù)(無論是僅來自Android、iPhone還是兩者的組合)都不會顯著改變?nèi)齻€(gè)Spotlight任務(wù)的性能。

在分析Ferret-UI 的參照功能時(shí),他們特別關(guān)注OCR和小部件分類預(yù)測,如下圖所示。

OCR分析揭示了三個(gè)值得注意的觀察結(jié)果:

1. 模型預(yù)測相鄰文本而不是目標(biāo)區(qū)域中的文本

2. 該模型表現(xiàn)出預(yù)測實(shí)際單詞的傾向,而不僅僅是破譯屏幕上顯示的字符。

3. Ferret-UI展示了準(zhǔn)確預(yù)測部分被截?cái)嗟奈谋镜哪芰?,即使在OCR模型返回不正確文本的情況下也是如此。

參考資料:

https://arxiv.org/abs/2404.05719


相關(guān)內(nèi)容