人工智能(AI),可以同時操控數(shù)百機器人“協(xié)同作戰(zhàn)”了。
來自康斯坦茨大學(xué)和國際理論物理中心的研究團隊開發(fā)了一種基于 AI 的控制策略,成功讓200 個微型機器人變身為“AI 智能體”,獨立作出決策,在團隊的協(xié)作下實現(xiàn)復(fù)雜的集體行為。
在實驗中,微型機器人協(xié)同完成“大件物品的運輸”任務(wù)的成功率超過了 90%,并在 3000 次動作內(nèi)精確達成目標。
研究團隊表示,這種控制策略可以訓(xùn)練成群的微型機器人完成集體操縱或運輸物體等任務(wù),如移動微型機械、可編程給藥膠囊和其他先進的片上實驗室應(yīng)用的復(fù)雜和自動化組裝。
在演示模擬中,經(jīng)過訓(xùn)練的微型機器人群成功在無法穿越的固定障礙物面前旋轉(zhuǎn)以及把一根桿運輸?shù)教囟ㄎ恢茫?span style="font-weight: 700;">甚至學(xué)會了利用結(jié)構(gòu)化環(huán)境,將障礙物作為鉸鏈來更高效地運輸桿。
另外,微機器人群還能完成更復(fù)雜的集體行為,如同時旋轉(zhuǎn)兩根和三根桿。在分布式控制框架的支持下,獨立運動的微型機器人能夠充分發(fā)揮各自的優(yōu)勢,相互協(xié)作,實現(xiàn)對多個物體的高效操控。
在技術(shù)實現(xiàn)上,研究團隊采用了多智能體強化學(xué)習(xí)(MARL)算法,并結(jié)合了“反事實獎勵”(CR)機制,為每個微型機器人設(shè)計了個性化的獎勵系統(tǒng),從而引導(dǎo)其朝著集體目標努力。
這種方法讓微型機器人在協(xié)作中學(xué)會如何優(yōu)化自己的行為,使得整個集群的表現(xiàn)更加高效。
研究還發(fā)現(xiàn),經(jīng)過 MARL 訓(xùn)練的微型機器人能夠有效克服熱噪聲和環(huán)境噪聲,即使在一些蜂群成員出現(xiàn)故障時也能保持正常工作,還具有較強的魯棒性。
在實驗中,當(dāng) 20% 的機器人出現(xiàn)故障時,集群的任務(wù)完成效率幾乎不受影響;甚至當(dāng)故障比例達到 50% 時,集群的效率仍能維持 30% 的初始水平。
相關(guān)研究論文以“Counterfactual rewards promote collective transport using individually controlled swarm microrobots”為題,已發(fā)表在科學(xué)期刊 Science Robotics 上。
值得一提的是,據(jù)個人主頁顯示,該論文的通訊作者之一顧紅日(Hongri Gu)即將履新——從 2025 年 1 月起,加入香港科技大學(xué),擔(dān)任助理教授。
顧紅日,本科畢業(yè)于浙江大學(xué)機電工程專業(yè),在康斯坦茨大學(xué)物理系從事科研工作期間,他與該論文的另一位通訊作者 Clemens Bechinger 教授攜手探究了活性物質(zhì)集體狀態(tài)應(yīng)用,將強化學(xué)習(xí)融入到微型機器人集群研究,并研究了表面間的磁摩擦,這也是這項研究成功的關(guān)鍵。
成功率超 90%,半數(shù)故障依然「能打」
受自然界群體行為啟發(fā),科學(xué)家們一直在探索如何讓機器人集群協(xié)同完成復(fù)雜任務(wù)。無論是空中的微型飛行器、陸地上的機動立方體機器人,還是水中的機器魚群,都表現(xiàn)出了群體協(xié)作的巨大潛力。
然而,微型機器人集群研究仍然面臨諸多挑戰(zhàn)。
在微觀尺度下,熱噪聲、布朗運動等因素干擾了機器人的軌跡,同時激光等驅(qū)動方式在控制多個機器人時,由于彼此之間的強耦合作用,也進一步增加了精確控制單個微型機器人的復(fù)雜性。隨著尺寸不斷縮小,將傳感器、微控制器、微執(zhí)行器等集成到微型機器人中變得愈加困難,這也限制了其獨立完成復(fù)雜任務(wù)的能力。另外,群體機器人控制通常依賴電、磁、聲等全局場來實現(xiàn)集體行為,但通常比較簡單且效率低下,難以滿足復(fù)雜任務(wù)的需求。
為了克服上述挑戰(zhàn),研究團隊結(jié)合“多智能體強化學(xué)習(xí)”與“反事實獎勵”機制,將控制的復(fù)雜問題轉(zhuǎn)化為如何設(shè)計合適的獎勵函數(shù),從而讓每個機器人在協(xié)作中優(yōu)化行為。
然而,簡單地給所有智能體賦予相同的團隊獎勵,容易引發(fā) “懶惰智能體問題”。因此,研究團隊在學(xué)習(xí)過程中引入了反事實獎勵機制,讓機器人根據(jù)個體貢獻自動優(yōu)化行為,而無需依賴復(fù)雜的環(huán)境模型,簡化了集體任務(wù)的控制過程。
圖 | 受自然啟發(fā)的獨立控制微型機器人系統(tǒng)中的大型貨物集體運輸
研究團隊首先聚焦于一個復(fù)雜任務(wù)——大型桿狀物體的旋轉(zhuǎn)。由于桿體尺寸較大且流體阻力顯著,單個微型機器人無法對其產(chǎn)生有效作用,必須依靠集群的協(xié)同力量才能完成任務(wù)。
為了訓(xùn)練機器人完成這一任務(wù),團隊使用了由 30 到 35 個微型機器人組成的集群,并通過激光驅(qū)動控制它們圍繞桿進行操作。在訓(xùn)練初期,由于神經(jīng)網(wǎng)絡(luò)的初始權(quán)重隨機,機器人行為十分混亂,幾乎沒有規(guī)律可言。
然而,隨著訓(xùn)練的進行,部分機器人偶然與桿發(fā)生碰撞,產(chǎn)生微小的旋轉(zhuǎn),并因此獲得獎勵。這一反饋促使機器人逐漸意識到與桿互動并推動桿是獲取獎勵的有效方式。
經(jīng)過約 20 個回合的訓(xùn)練,機器人集群開始協(xié)調(diào)一致地從桿的兩端施加推力,推動桿順時針旋轉(zhuǎn)。隨著訓(xùn)練的深入,桿的旋轉(zhuǎn)速度逐漸加快并趨于穩(wěn)定,機器人之間的協(xié)作效率顯著提高,集群的整體表現(xiàn)也逐步優(yōu)化。
接下來,研究團隊將任務(wù)難度提升,要求機器人將桿運輸?shù)街付ㄎ恢?,并朝著預(yù)定方向進行精準控制。為了精確判斷機器人對任務(wù)的貢獻,研究人員采用了反事實獎勵機制,將桿劃分為 60 個小片段,并通過這些片段間的成對距離變化來作為關(guān)鍵性能指標。
實驗結(jié)果顯示,微型機器人集群在不到 3000 次動作的訓(xùn)練中,成功將桿推送到目標區(qū)域,成功率高達 90% 以上。在整個任務(wù)過程中,機器人集群在任務(wù)分解、策略選擇以及協(xié)同操作方面顯示出強大的能力。
為了進一步驗證微型機器人集群的可靠性與適應(yīng)性,研究團隊進 行了魯棒性和可擴展性測試。
在魯棒性測試中,研究團隊通過引入故障情境,故意使部分機器人出現(xiàn)故障。實驗結(jié)果表明,即使在 20% 至 50% 的機器人故障情況下,集群依然能夠保持較高的任務(wù)完成效率,當(dāng)故障比例超過 50% 時,集群的性能略有下降,但仍能維持約 30 % 的水平。
在可擴展性測試中,研究團隊通過改變機器人數(shù)量,考察不同規(guī)模集群的性能表現(xiàn)。結(jié)果發(fā)現(xiàn),當(dāng)集群規(guī)模接近訓(xùn)練時的規(guī)模(約 35 個機器人)時,系統(tǒng)表現(xiàn)更佳;而當(dāng)機器人數(shù)量減少至 20 個時,集群的性能仍能保持穩(wěn)定。令人驚訝的是,即使只有 9 個機器人,集群的性能也能保持 50% 左右。然而,當(dāng)機器人數(shù)量超過訓(xùn)練規(guī)模的兩倍時,集群的性能有所下降。這是因為機器人之間的相互作用變得更加復(fù)雜,導(dǎo)致在有限空間內(nèi)的干擾增多,影響了整體效率。
不足與展望
這項研究不僅在微型機器人集群控制領(lǐng)域取得了顯著的進展,還展示了群體智能在微觀尺度的巨大潛力,但仍然面臨一些挑戰(zhàn)。
首先,現(xiàn)有的微型機器人集群控制系統(tǒng)依賴激光驅(qū)動,這限制了其在深層生物體內(nèi)(如人體內(nèi)的靶向藥物輸送)等復(fù)雜環(huán)境中的應(yīng)用。激光的穿透深度有限,且依賴特定推進機制,使得這些微型機器人在某些應(yīng)用場景中面臨技術(shù)瓶頸。
此外,微型機器人仍面臨諸多硬件相關(guān)的問題,包括計算、傳感器和執(zhí)行資源的限制,以及微型執(zhí)行器在與環(huán)境和其他機器人互動時的精度問題。這些因素都限制了微型機器人系統(tǒng)的進一步應(yīng)用。
盡管如此,研究團隊表示,這些微型機器人有望被用于運輸生物樣本、病毒檢測、個性化藥物釋放等任務(wù),甚至可能在組織工程和定制制造等領(lǐng)域得到應(yīng)用。
未來,隨著微型機器人技術(shù)的不斷發(fā)展,我們是否可以在人體內(nèi)部,甚至是在極端環(huán)境下,實現(xiàn)這些微型機器人集群的智能應(yīng)用呢?
這一邊界,或?qū)⒃谙乱淮渭夹g(shù)突破中被重新定義。