看片免费黄,免费看黄网站在线看

超越GPT-4V，蘋果多模態(tài)大模型上新

新智元

2024-04-10 14:51:08

【新智元導(dǎo)讀】蘋果開發(fā)的多模態(tài)模型Ferret-UI增強(qiáng)了對屏幕的理解和交互，在引用、基礎(chǔ)和推理方面表現(xiàn)出了卓越的性能，這些增強(qiáng)功能的出現(xiàn)預(yù)示著巨大的進(jìn)步。

一句話Siri就能幫忙打開美團(tuán)外賣下訂單的日子看來不遠(yuǎn)啦！

4月8日，蘋果發(fā)布了其最新的多模態(tài)大語言模型（MLLM ）——Ferret-UI，能夠更有效地理解和與屏幕信息進(jìn)行交互，在所有基本UI任務(wù)上都超過了GPT-4V！

論文地址：https://arxiv.org/pdf/2404.05719.pdf

雖然蘋果前段時(shí)間經(jīng)歷了泰坦項(xiàng)目的沉沒，但看目前的形式，這是又要開卷的節(jié)奏呀~

不少人十分期待，這項(xiàng)技術(shù)如果在蘋果的Siri上，Siri豈不是要變得聰明絕頂了！

眾所周知，通用域多模態(tài)大型語言模型（MLLM ）在理解和有效交互的能力方面往往不足。

而Ferret-UI被稱之為是一種新的MLLM，專為理解移動(dòng)UI屏幕而量身定制，具備指向、定位和推理等多種能力。

Ferret-UI能夠通過靈活的輸入格式（點(diǎn)、框、涂鴉）和基礎(chǔ)任務(wù)（例如：查找小部件、查找圖標(biāo)、查找文本、小部件列表）在移動(dòng)用戶界面屏幕上執(zhí)行引用任務(wù)（例如：小部件分類、圖標(biāo)識別、OCR））。

Ferret-UI的一個(gè)關(guān)鍵特點(diǎn)是「任何分辨率」（anyres），該技術(shù)通過放大細(xì)節(jié)來解決UI屏幕中小型對象的識別問題，從而提高模型對UI元素的理解精度。

這些基本任務(wù)為模型提供了豐富的視覺和空間知識，使其能夠在粗略和精細(xì)級別上區(qū)分 UI 類型，例如區(qū)分各種圖標(biāo)或文本元素。

具體來說，F(xiàn)erret-UI 不僅能夠在詳細(xì)描述和感知對話中討論視覺元素，還能在交互對話中提出目標(biāo)導(dǎo)向的動(dòng)作并通過函數(shù)推理來推斷屏幕的整體功能。

網(wǎng)友直呼：泰褲辣！

雖然Ferret-UI-base緊密遵循Ferret的架構(gòu)，但Ferret-UI-anyres融入了額外的細(xì)粒度圖像功能。

特別是，預(yù)先訓(xùn)練的圖像編碼器和投影層可以為整個(gè)屏幕生成圖像特征，對于基于原始圖像長寬比獲得的每個(gè)子圖像，生成附加圖像特征。

為了增強(qiáng)模型的推理能力，研究人員編譯了用于高級任務(wù)的數(shù)據(jù)集，包括詳細(xì)描述、感知/交互對話和函數(shù)推理。

在基礎(chǔ)任務(wù)性能的比較上， Ferret-UI展現(xiàn)出了對UI屏幕的出色理解能力以及執(zhí)行開放式指令的能力，表現(xiàn)可謂亮眼！

掌握應(yīng)用程序屏幕并使AI像人類一樣進(jìn)行交互，蘋果未來或許將改變MLLM的游戲規(guī)則！

論文細(xì)節(jié)

方法

Ferret-UI建立在Ferret的基礎(chǔ)上。

Ferret是一種MLLM，擅長在形狀和細(xì)節(jié)各異的自然圖像中進(jìn)行空間參照和定位。

它可以解釋區(qū)域或?qū)ο蟛⑴c之交互，無論這些區(qū)域或?qū)ο蟊恢付槿魏巫杂尚螤睿c(diǎn)、方框等）。

它包含一個(gè)預(yù)先訓(xùn)練好的視覺編碼器和一個(gè)純解碼器語言模型，并采用一種獨(dú)特的混合表示技術(shù)，將指定區(qū)域轉(zhuǎn)換為適合LLM處理的格式。

為了向Ferret灌輸U(kuò)I專業(yè)知識，他們對Ferret-UI進(jìn)行了兩個(gè)擴(kuò)展：

1. UI參照和定位的定義與構(gòu)建

2. 模型架構(gòu)調(diào)整以更好地處理屏幕數(shù)據(jù)

與之前需要外部檢測模塊或屏幕視圖文件的MLLM不同， Ferret-UI 是自給自足的。

它將原始屏幕像素作為模型輸入，這種方法不僅促進(jìn)了高級單屏交互，還為新應(yīng)用程序鋪平道路，例如：提高可訪問性。

數(shù)據(jù)集

他們對iPhone和安卓設(shè)備的屏幕進(jìn)行了研究。

對于安卓屏幕，研究人員使用RICO數(shù)據(jù)集的一個(gè)子集，具體來說，他們考慮了Spotlight中的任務(wù)，其數(shù)據(jù)是公開的，包括 screen2words、widgetcaptions 和 taperception。

對于iPhone屏幕，研究人員使用AMP數(shù)據(jù)集，它涵蓋了廣泛的應(yīng)用程序。

在收集 Android 和 iPhone 屏幕后，他們使用預(yù)先訓(xùn)練好的基于像素的UI檢測模型進(jìn)一步從屏幕收集細(xì)粒度元素注釋。

對于每個(gè)檢測到的用戶界面元素，輸出結(jié)果都包括用戶界面類型（按鈕、文本、圖標(biāo)、圖片等）、相應(yīng)的邊界框，以及由Apple Vision Framework識別的顯示在其上的文本（如果有的話）。

任務(wù)制定

首先從現(xiàn)有的Spotlight任務(wù)中獲取screen2words、widgetcaptions和taperception，并將它們格式化為會話QA 對。

對于每個(gè)訓(xùn)練示例，他們都會對相應(yīng)任務(wù)的提示進(jìn)行采樣，并將其與原始源圖像和真實(shí)答案配對。

基礎(chǔ)任務(wù)數(shù)據(jù)生成

除了Spotlight任務(wù)之外，他們將referring任務(wù)定義為輸入中帶有邊界框的任務(wù)，而基礎(chǔ)任務(wù)則是輸出中帶有邊界框的任務(wù)。

對于每個(gè)任務(wù)，他們還使用GPT-3.5 Turbo來擴(kuò)展基本提示以引入任務(wù)問題的變體。

數(shù)據(jù)生成的詳細(xì)信息如下圖所示。

高級任務(wù)數(shù)據(jù)生成

為了將推理能力融入到該模型中，他們使用LLaVA方法，并用GPT-4收集另外4種格式的數(shù)據(jù)。

首先對檢測輸出中的邊界框坐標(biāo)進(jìn)行標(biāo)準(zhǔn)化，然后將檢測、提示和可選的一次性示例發(fā)送到GPT-4。

為了詳細(xì)描述和功能推理，他們將生成的響應(yīng)與預(yù)選的提示配對來訓(xùn)練Ferret-UI。

下圖說明了高級任務(wù)的訓(xùn)練數(shù)據(jù)生成過程。

以上數(shù)據(jù)的生成主要為4個(gè)任務(wù)，分別是：詳細(xì)描述、對話感知、對話交互和功能推理。

其中，他們擴(kuò)展了詳細(xì)描述和函數(shù)推理的基本提示，將它們與GPT-4響應(yīng)配對，作為模型訓(xùn)練中的輸入數(shù)據(jù)。

對于對話任務(wù)，他們?yōu)镚PT-4提供了一個(gè)上下文示例，以更好地遵循其輸出中的邊界框格式。

實(shí)驗(yàn)結(jié)果

初級任務(wù)的性能細(xì)分如下表所示。

可以看到，與Spotlight相比，F(xiàn)erret-UI在S2W和 WiC方面表現(xiàn)出了優(yōu)越的性能，盡管Spotlight使用了80M網(wǎng)頁截圖和269M手機(jī)截圖進(jìn)行預(yù)訓(xùn)練。Ferret-UI性能雖然低于TaP，但仍然具有競爭力。

高級任務(wù)性能的結(jié)果如下表所示。

盡管Ferret-UI的訓(xùn)練數(shù)據(jù) 集中缺少Android特定數(shù)據(jù)，但它在兩個(gè)平臺的高級任務(wù)上都表現(xiàn)出了值得稱贊的性能。

這表明用戶界面知識在不同操作系統(tǒng)之間具有顯著的可轉(zhuǎn)移性。

消融研究

研究發(fā)現(xiàn)，當(dāng)僅使用高級任務(wù)數(shù)據(jù)，兩個(gè)平臺的性能均為64%。添加iPhone或Android基本任務(wù) 后，iPhone上高級任務(wù)的性能持續(xù)提高5%。

同樣，從iPhone添加基本任務(wù)可將Android在高級任務(wù)上的性能提高約4%，而合并Android基本任務(wù)可將這一性能提高9%。

包含iPhone和Android基本任務(wù)后，iPhone 和 Android 高級任務(wù)的性能分別進(jìn)一步提高了3%和5%，超出了單組基本任務(wù)所帶來的改進(jìn)。

這些觀察結(jié)果支持他們的假設(shè)，即：基本任務(wù)為模型提供了增強(qiáng)的視覺和空間理解，從而促進(jìn)了高級任務(wù)。

為了探索不同數(shù)據(jù)配置對Spotlight Tasks性能的影響，他們特別研究了添加初級任務(wù)數(shù)據(jù)是否能提高模型性能，因?yàn)檫@些任務(wù)的目的是為了提高對屏幕的視覺和空間理解能力。

如下表所示，添加基本任務(wù)數(shù)據(jù)（無論是僅來自Android、iPhone還是兩者的組合）都不會顯著改變?nèi)齻€(gè)Spotlight任務(wù)的性能。

在分析Ferret-UI 的參照功能時(shí)，他們特別關(guān)注OCR和小部件分類預(yù)測，如下圖所示。

OCR分析揭示了三個(gè)值得注意的觀察結(jié)果：

1. 模型預(yù)測相鄰文本而不是目標(biāo)區(qū)域中的文本

2. 該模型表現(xiàn)出預(yù)測實(shí)際單詞的傾向，而不僅僅是破譯屏幕上顯示的字符。

3. Ferret-UI展示了準(zhǔn)確預(yù)測部分被截?cái)嗟奈谋镜哪芰?，即使在OCR模型返回不正確文本的情況下也是如此。

參考資料：

https://arxiv.org/abs/2404.05719

上一篇：蔚來李斌：150度電池包的象征意義大于實(shí)際意義

下一篇：當(dāng)下中國最有錢公司一覽：阿里騰訊京東前三小米超比亞迪理想

青青青久草,四虎永久在线精品,二区免费视频,一级毛片在线直接观看,黄网在线免费观看,美女露全身永久免费网站,色婷婷六月桃花综合影院