具身智能還是一個(gè)相對遙遠(yuǎn)和長線的東西,按0-100算的話,現(xiàn)在最多走到了0.1?
2024年剛開始一個(gè)月,機(jī)器人領(lǐng)域已經(jīng)十分熱鬧。
前腳,斯坦福大學(xué)華人團(tuán)隊(duì)開源的既會(huì)做家務(wù)、又會(huì)煎蛋煮飯的MobileALOHA機(jī)器人,剛在全網(wǎng)刷屏,讓不少人直呼“用機(jī)器人養(yǎng)老有望”。后腳,馬斯克就發(fā)了一段特斯拉“擎天柱”(Optimus)人形機(jī)器人疊襯衫的炫技視頻,并緊接著透露Optimus最早將在2025年實(shí)現(xiàn)交付,狠狠刷了一波存在感。
這種熱鬧景象從2023年就開始了。業(yè)界觀察,過去一年間,在大模型以及具身智能熱潮的帶動(dòng)下,整個(gè)機(jī)器人行業(yè)的各種動(dòng)作都快了起來。不管是政策端、學(xué)術(shù)端,還是產(chǎn)業(yè)端,都發(fā)生了不少變化。
“2023年,具身智能賽道十分火熱,一下子就有十幾家公司出來?!遍L期追蹤并投資機(jī)器人行業(yè)的云啟資本合伙人陳昱告訴數(shù)智前線。這些公司中,既有原來做機(jī)器人研究的,也有從自動(dòng)駕駛公司出來的創(chuàng)業(yè)者,試圖將在自動(dòng)駕駛行業(yè)積累的經(jīng)驗(yàn),復(fù)用到具身智能賽道。
而這波具身智能熱潮,像漣漪一樣一圈圈外延。一位在國內(nèi)某知名航運(yùn)公司從事物聯(lián)網(wǎng)應(yīng)用的人士就向數(shù)智前線透露,自己在去年下半年關(guān)注到具身智能,并專門去了不少相關(guān)展會(huì),進(jìn)行學(xué)習(xí)研討。
具身智能到底是什么?為什么突然在機(jī)器人領(lǐng)域爆火?又將給機(jī)器人行業(yè)帶來怎樣的變革?
01
舊概念,新熱潮
2023年5月,英偉達(dá)創(chuàng)始人黃仁勛突然拋出一個(gè)大膽預(yù)測:人工智能的下一個(gè)浪潮將是具身智能(Embodied AI)。簡單來說,就是能理解、推理并與物理世界互動(dòng)的智能系統(tǒng),比如機(jī)器人、自動(dòng)駕駛汽車。
具身智能并非新概念,1950年,“計(jì)算機(jī)科學(xué)之父”圖靈就曾在論文中提到過它,只不過過去幾十年間都未見太大進(jìn)展。
最近一兩年,隨著AI技術(shù)的突破,以及關(guān)鍵零部件性價(jià)比的逐漸提升,情況有所改變。學(xué)術(shù)界以李飛飛、姚期智、盧策吾等為代表,都發(fā)布了“具身智能”相關(guān)的學(xué)術(shù)論文或不斷推動(dòng)具身智能的發(fā)展。
“大模型的出現(xiàn),讓行業(yè)內(nèi)的人覺得既然機(jī)器可以理解語言了,它就能夠通過語言的邏輯理解整個(gè)世界?!?獵豹移動(dòng)CEO傅盛說。
中關(guān)村智友研究院院長王田苗進(jìn)一步解釋,大模型出現(xiàn)后,具身智能相當(dāng)于一個(gè)成長速度極快的孩子,能夠通過人機(jī)交互,將宏觀的任務(wù)分解為一系列思維鏈路和子任務(wù),并利用自動(dòng)編程,逐步自主地完成任務(wù)。期間,具身智能將逐漸學(xué)習(xí)和成長,同時(shí)在復(fù)雜環(huán)境下可以利用感知、視覺和觸覺等功能來校準(zhǔn)行為動(dòng)作或控制模型的誤差,以適應(yīng)環(huán)境變化。
與具身智能不同,傳統(tǒng)機(jī)器人每一項(xiàng)智能都是人來定義和編程實(shí)現(xiàn)的。
大模型雖然并非走向具身智能的唯一路徑,但業(yè)界普遍認(rèn)為,機(jī)器人擁抱AI大模型的過程就是具身智能機(jī)器人的實(shí)現(xiàn)過程。
“其中,具身智能對人形機(jī)器人影響最大?!币晃粰C(jī)器人領(lǐng)域人士告訴數(shù)智前線,四足或人形機(jī)器人將是具身智能的最佳載體。馬斯克的觀點(diǎn)還要更激進(jìn)一點(diǎn),他預(yù)測,未來人形機(jī)器人的需求將遠(yuǎn)超電動(dòng)汽車,達(dá)到100億-200億臺(tái),且最終單價(jià)有望低于2萬美元,低于一部車的價(jià)格。多重因素下,人形機(jī)器人在市場上的熱度明顯高漲。
面對具身智能這一確定的未來趨勢,產(chǎn)業(yè)端和政策端都已快速反應(yīng)。
在政策端,主要國家及地區(qū)都把機(jī)器人產(chǎn)業(yè)發(fā)展上升到了國家戰(zhàn)略。2023年10月,工信部等部委一連拋出多份重磅文件,并給出了官方發(fā)展目標(biāo):到2025年,人形機(jī)器人實(shí)現(xiàn)批量生產(chǎn),2027年綜合實(shí)力達(dá)到世界先進(jìn)水平。
而在產(chǎn)業(yè)端,不管是谷歌、特斯拉、英偉達(dá)、阿里、小米,還是機(jī)器人創(chuàng)業(yè)公司,高校里的技術(shù)團(tuán)隊(duì),甚至產(chǎn)業(yè)鏈企業(yè),都在積極跟進(jìn)相關(guān)產(chǎn)品和技術(shù)布局。
比如英偉達(dá)發(fā)布了多模態(tài)具身智能系統(tǒng)NvidiaVIMA,微軟在探索如何將ChatGPT擴(kuò)展到機(jī)器人領(lǐng)域,OpenAI投資了挪威人形機(jī)器人公司1X Technologies,阿里千問大模型在實(shí)驗(yàn)接入工業(yè)機(jī)器人……
谷歌是更為顯眼的存在。依托旗下兩大AI研究機(jī)構(gòu)——谷歌大腦和DeepMind,谷歌在具身智能上擁有眾多技術(shù)路線,且各路線間有著技術(shù)延續(xù)性。
2023年3月,谷歌發(fā)布參數(shù)量高達(dá)5620億的多模態(tài)具身視覺語言模型PaLM-E,6月,推出全球第一個(gè)可以解決和適應(yīng)多種任務(wù)的機(jī)器人AI智能體“RoboCat”,7月,又基于RT-1和PaLM-E,升級得到了融合視覺、語言、動(dòng)作能力的多模態(tài)大模型RT-2。據(jù)悉,基于RT-2的機(jī)器人,不僅能直接聽懂自然語言指令,還會(huì)主動(dòng)思考,當(dāng)聽到“撿起滅絕的動(dòng)物”指令,能準(zhǔn)確理解其中含義,并完成從恐龍、鯨魚、獅子三種塑料玩具中抓取恐龍的連續(xù)性動(dòng)作。
資本層面也動(dòng)作頻頻,尤其在人形機(jī)器人領(lǐng)域,融資消息不斷。2023年年初,華為天才少年“稚暉君”離職創(chuàng)業(yè),成立智元機(jī)器人,一度被資本追著“喂飯”,成功創(chuàng)下一年6輪融資的“奇跡”。年末,“國內(nèi)人形機(jī)器人第一股”優(yōu)必選在港股掛牌上市,人類歷史上首次由人形機(jī)器人敲鑼的上市儀式由此出現(xiàn)。銀河通用、宇樹科技、加速進(jìn)化等大批人形機(jī)器人公司也都在這一年獲得融資。
02
八仙過海,各顯神通
業(yè)界在進(jìn)行各種“機(jī)器人+大模型”的探索和嘗試。
雖然工業(yè)機(jī)器人如工業(yè)機(jī)械臂、AGV、巡檢機(jī)器人等應(yīng)用廣泛,但有數(shù)據(jù)顯示,2022年,我國工業(yè)機(jī)器人總體滲透率僅在2%左右。面向勞動(dòng)力成本上升、人力資源趨緊的大趨勢,機(jī)器人的提升空間巨大。
更重要的是,當(dāng)前的機(jī)器人大多是靠著預(yù)先編程,來重復(fù)執(zhí)行固定的動(dòng)作,泛化能力低,一旦進(jìn)入新場景,就需要程序員重新編程和調(diào)整,費(fèi)時(shí)且費(fèi)力。
基于這些痛點(diǎn)和需求,一些機(jī)器人企業(yè)正在加速與大模型的結(jié)合。比如工業(yè)機(jī)器人企業(yè),此前在噴涂、焊接、打磨等場景中積累了不少數(shù)據(jù)集,正在探索將這些經(jīng)驗(yàn)形成專家知識(shí),結(jié)合大模型的能力,快速形成新產(chǎn)品的加工路徑,以減少機(jī)器人調(diào)試布置的時(shí)間?!斑@將更適應(yīng)小批量、多品種、柔性化的產(chǎn)品生產(chǎn)。”北京航空航天大學(xué)副教授陶永告訴數(shù)智前線。
一位行業(yè)人士也透露,他們投資的一家機(jī)器人企業(yè)正在嘗試將打磨機(jī)器人和大模型結(jié)合,解決過去“很多件打不了、換件時(shí)間長”等問題。該方案目前已完成驗(yàn)證,將在今年放量。
廣州高新興機(jī)器人正在將大模型和巡邏機(jī)器人結(jié)合?!皺C(jī)器人看似智能,但它的智能是人定義出來的?!惫径麻L柏林告訴數(shù)智前線,比如在落地部署時(shí),就要對機(jī)器人進(jìn)行精心調(diào)教,做大量配置,部署周期以半月計(jì)。如果通過大模型,把任務(wù)下發(fā)到機(jī)器人,它能自動(dòng)生成配置,就能降低落地成本。
工業(yè)機(jī)器人之外,另一個(gè)比較成熟的細(xì)分領(lǐng)域——掃地機(jī)器人,也正在嘗試引入大模型的能力。比如追覓,在去年9月官宣將與華為云機(jī)器人平臺(tái)合作,為掃地機(jī)器人等產(chǎn)品注入大模型“云智力”??拼笥嶏w去年10月推出的首款A(yù)I掃拖機(jī)器人,也搭載了星火認(rèn)知大模型的能力,試圖讓掃地機(jī)器人能聽懂用戶通過APP語音輸入的長語句或口語化的清掃需求。
在更廣泛的服務(wù)機(jī)器人領(lǐng)域,更多探索也在繼續(xù)。比如獵戶星空,據(jù)稱已將自研大模型技術(shù)應(yīng)用到機(jī)器人業(yè)務(wù)——“大模型機(jī)器人全家桶”中。其中,餐廳場景下的“招財(cái)豹”系列機(jī)器人服務(wù)員在升級后,相當(dāng)于擁有了一個(gè)生成式AI大腦,與消費(fèi)者的交互自然度以及回復(fù)的專業(yè)度、準(zhǔn)確率都大幅提升。
人形機(jī)器人領(lǐng)域也不例外,包括宇樹科技、達(dá)闥科技、追覓、智元機(jī)器人等公司在2023年,推出過集成了AI大模型能力的人形機(jī)器人或四足機(jī)器人。達(dá)闥科技還在2023年7月,專門推出了機(jī)器人多模態(tài)人工智能大模型RobotGPT。
優(yōu)必選也在2023世界機(jī)器人大會(huì)上,對外發(fā)布人形機(jī)器人智能多模態(tài)交互系統(tǒng)。據(jù)悉,它能自然響應(yīng)用戶對話,也會(huì)通過多輪交互的形式,準(zhǔn)確提煉對話中的語義,生成可執(zhí)行的任務(wù)指令。
機(jī)器人企業(yè)大部分都很歡迎大模型的到來?!碧沼揽偨Y(jié)稱,盡管現(xiàn)階段而言,大家更多還是在探索和嘗試中,在機(jī)器人領(lǐng)域真正大規(guī)模的推廣和應(yīng)用尚未實(shí)現(xiàn)。
而據(jù)他觀察,一些大模型廠商也在主動(dòng)找到機(jī)器人企業(yè)進(jìn)行合作。比如科大訊飛,就和宇樹科技合作,在去年10月推出了首個(gè)“大模型+具身智能”人形機(jī)器人。據(jù)悉,該人形機(jī)器人在復(fù)雜任務(wù)拆解準(zhǔn)確率上,提升了 95%,強(qiáng)化學(xué)習(xí)泛化抓取成功率提升了30%。
03
具身智能剛走到0.1?
1月初,在看到MobileALOHA機(jī)器人項(xiàng)目聯(lián)合負(fù)責(zé)人親自放出MobileALOHA執(zhí)行任務(wù)失敗的視頻,并解釋“機(jī)器人還沒有準(zhǔn)備好接管世界”后,一位機(jī)器人行業(yè)人士在朋友圈表達(dá)了自己對這一項(xiàng)目的肯定,以及對具身智能iPhone時(shí)刻的期待。
“iPhone時(shí)刻之后,以人機(jī)器人為代表的通用機(jī)器人將走入千家萬戶?!痹撊耸勘硎荆瑫r(shí)強(qiáng)調(diào),具身智能的iPhone時(shí)刻仍需較長時(shí)間才會(huì)到來,這就好比智能手機(jī)的iPhone時(shí)刻并非iPhone1發(fā)布的時(shí)間,而是以iPhone4的發(fā)布作為標(biāo)志。
"具身智能還是一個(gè)相對遙遠(yuǎn)和長線的東西,還遠(yuǎn)遠(yuǎn)沒有達(dá)到像大家當(dāng)初見到ChatGPT時(shí)那種驚艷程度和變革性的階段。”云啟資本合伙人陳昱告訴數(shù)智前線,大家目前還只是看到了潛在的技術(shù)發(fā)展方向,而且是一個(gè)需要長期投入和持續(xù)鉆研的方向,“有點(diǎn)像15年前的自動(dòng)駕駛”。
陳昱舉例稱,就市場上的融資量級來看,具身智能也還遠(yuǎn)遠(yuǎn)比不上大模型企業(yè),“大家現(xiàn)在全憑預(yù)期和想象投資?!痹谒磥?,具身智能要真正大規(guī)模商業(yè)化應(yīng)用,至少還要8至10年,“按0-100算的話,現(xiàn)在最多走到了0.1?!?/p>
而在此之前,具身智能機(jī)器人作為一個(gè)硬件、軟件均涉及的復(fù)雜系統(tǒng),要想真正實(shí)現(xiàn),還有算法、工程技術(shù)、數(shù)據(jù)、場景和復(fù)雜軟硬件等諸多層面的挑戰(zhàn)要解。
在2023世界機(jī)器人大會(huì)上,圖靈獎(jiǎng)獲得者、中國科學(xué)院院士姚期智曾在談到機(jī)器人時(shí)稱,未來AGI需有具身實(shí)體,具身機(jī)器人還面臨四大主要挑戰(zhàn):
第一,機(jī)器人不能夠像大語言模型一樣有一個(gè)基礎(chǔ)大模型直接一步到位,做到最底層的控制。
第二,計(jì)算能力的挑戰(zhàn),即使是谷歌研發(fā)的Robotics Transformer模型,要做到機(jī)器人控制,距離實(shí)際需要的控制水平仍有許多事情要做。
第三,如何把機(jī)器人多模態(tài)的感官感知全部融合起來,仍面臨諸多難題需要解決。
第四,機(jī)器人的發(fā)展需要收集很多數(shù)據(jù),也面臨很多安全隱私問題。
解決技術(shù)上的種種挑戰(zhàn)外,業(yè)界人士認(rèn)為,類比自動(dòng)駕駛的發(fā)展,在具身智能機(jī)器人領(lǐng)域,找到可商業(yè)化閉環(huán)和可數(shù)據(jù)閉環(huán)的“L2”級駕駛,也尤為重要。
上述機(jī)器人領(lǐng)域人士告訴數(shù)智前線,機(jī)器人領(lǐng)域商業(yè)化的進(jìn)程,就好比一個(gè)天平。天平的一邊,是機(jī)器人能夠?qū)崿F(xiàn)什么樣的功能,能創(chuàng)造多少價(jià)值,另一邊,則是為了實(shí)現(xiàn)這樣的價(jià)值,用戶需要付出的成本?!爱?dāng)天平的收益大于成本時(shí),機(jī)器人就會(huì)在這個(gè)領(lǐng)域里實(shí)現(xiàn)大規(guī)模應(yīng)用?!?/p>
此前工業(yè)場景的工業(yè)機(jī)器人、酒店或餐飲門店場景的服務(wù)機(jī)器人、家用的掃地機(jī)器人,都已經(jīng)完成或初步完成這樣的階段。這些場景的機(jī)器人與大模型去結(jié)合,是目前能較快看到一些效果和價(jià)值的方向。而人形和四足機(jī)器人領(lǐng)域,雖仍處于成本高于價(jià)值的階段,但在大模型和具身智能熱潮的催動(dòng)下,正在迎來商業(yè)化應(yīng)用的前夕。
實(shí)際上,不少人士認(rèn)為,2024年將有望成為人形機(jī)器人商業(yè)化元年?!按蠹叶荚诏偪裾覉鼍?/span>?!?/p> 部分頭部企業(yè)已經(jīng)鎖定一些場景,并展開驗(yàn)證。比如中國電科21所,預(yù)計(jì)今年一季度將人形機(jī)器人投入智慧物流生產(chǎn)場景中做應(yīng)用驗(yàn)證。智元機(jī)器人則透露,今年下半年首先在工業(yè)制造領(lǐng)域?qū)崿F(xiàn)商業(yè)化落地,此前已和一些頭部汽車公司、3C制造商接觸。優(yōu)必選據(jù)稱在和比亞迪合作,率先在比亞迪的產(chǎn)線上去做一些初步應(yīng)用。而追覓選擇讓人形機(jī)器人首先在“咖啡拉花”上實(shí)現(xiàn)進(jìn)化,力爭今年能看到機(jī)器人在部分場景里落地應(yīng)用。 不過,這只是第一步,距離真正的具身智能機(jī)器人成為現(xiàn)實(shí),走進(jìn)千家萬戶,仍然還有很長一段路要走。