AI戰(zhàn)勝了人類世界冠軍,這次是駕駛無人機
人工智能再次戰(zhàn)勝了人類冠軍。
這一次,是在無人機競速領(lǐng)域。
(資料圖片)
來自蘇黎世大學(xué)機器人與感知研究組的 Elia Kaufmann 博士團(tuán)隊及其英特爾團(tuán)隊聯(lián)合設(shè)計了一種自動駕駛系統(tǒng)——Swift,該系統(tǒng)駕駛無人機的能力可在一對一冠軍賽中戰(zhàn)勝人類對手。
這一重磅研究成果,剛剛以封面文章的形式發(fā)表在了最新一期的 Nature雜志上。
圖|最新一期 Nature 封面。(來源:Nature)
在一篇同期發(fā)表在 Nature 上的新聞與觀點文章中,荷蘭代爾夫特理工大學(xué)的研究院 Guido de Croon 教授寫道,“Kaufmann 等人的研究是機器人學(xué)家克服現(xiàn)實差距的一個很好的案例。盡管 Swift 使用 AI 學(xué)習(xí)技術(shù)和傳統(tǒng)工程算法的巧妙組合進(jìn)行訓(xùn)練,但該系統(tǒng)應(yīng)該在一個更真實多變的環(huán)境中進(jìn)一步開發(fā),從而充分釋放這項技術(shù)的潛力。”
盡管如此,研究團(tuán)隊表示,該研究標(biāo)志著移動機器人學(xué)和機器智能的一個里程碑,或可啟發(fā)在其他物理系統(tǒng)中部署基于混合學(xué)習(xí)的解決方案,如自動駕駛的地面車輛、飛行器和個人機器人。
融合 AI 與工程算法的智能訓(xùn)練
當(dāng)前,基于深度強化學(xué)習(xí)的人工智能系統(tǒng)在雅達(dá)利游戲、國際象棋、《星際爭霸》和 GT 賽車等游戲中已經(jīng)超越了人類冠軍。然而,這些成就全部發(fā)生在虛擬環(huán)境中,而非真實世界中。
無人機競速對經(jīng)驗飛行員和 AI 都具挑戰(zhàn),但 AI 而言,更具挑戰(zhàn)性。因為在虛擬環(huán)境中,資源幾乎是無限的,而轉(zhuǎn)向現(xiàn)實世界意味著必須使用有限的資源。對于無人機來說,情況尤為如此,因為取代人類飛行員的傳感器和計算設(shè)備必須被搭載到空中。
圖片來自:nature
另外,現(xiàn)實世界比虛擬世界更加不可預(yù)測。雖然模擬的比賽無人機可以按照預(yù)先編程的軌跡完美地行駛,但對一個無人機發(fā)出的單一指令可能產(chǎn)生多種效果,影響難以預(yù)測,對于通過 AI 訓(xùn)練的無人機尤為復(fù)雜。
傳統(tǒng)的端到端學(xué)習(xí)方法難以將虛擬環(huán)境的映射轉(zhuǎn)移到現(xiàn)實世界,虛擬和現(xiàn)實兩者之間存在著現(xiàn)實差距,而現(xiàn)實差距構(gòu)成了機器人領(lǐng)域中主要的挑戰(zhàn)之一。
在該研究中,Swift 系統(tǒng)通過將 AI 學(xué)習(xí)技術(shù)與傳統(tǒng)工程算法融合,實現(xiàn)了智能訓(xùn)練。首先,該系統(tǒng)通過人工神經(jīng)網(wǎng)絡(luò)處理無人機從相機中獲取的圖像,從而精準(zhǔn)地檢測到門的角落。然后,利用雙目視覺軟件用來計算無人機的速度。
圖片來自:nature
Swift 系統(tǒng)的創(chuàng)新之處在于另一個人工神經(jīng)網(wǎng)絡(luò),將無人機的狀態(tài)映射到調(diào)整推力和旋轉(zhuǎn)速率的命令。利用強化學(xué)習(xí),通過模擬中的試錯過程來優(yōu)化從環(huán)境中獲得的獎勵。在這個算法中,該系統(tǒng)采用了強化學(xué)習(xí),而非端到端學(xué)習(xí),從而可以通過抽象概念來彌合現(xiàn)實與模擬之間的差距。
由于狀態(tài)編碼的抽象層次高于原始圖像,強化學(xué)習(xí)模擬器不再需要復(fù)雜的視覺環(huán)境。這一優(yōu)化減少了模擬系統(tǒng)與真實系統(tǒng)之間的差異,提升了模擬速度,使得系統(tǒng)能夠在大約 50 分鐘內(nèi)完成學(xué)習(xí)。
圖片來自:nature
據(jù)論文描述,Swift 由兩個關(guān)鍵模塊組成:observation policy 和 control policy。其中,observation policy 由一個視覺慣性估計器和一個門檢測器組成,可以將高維視覺和慣性信息轉(zhuǎn)化為任務(wù)特定的低維編碼;control policy 由一個兩層感知器表示,可以接受低維編碼,并將其轉(zhuǎn)化為無人機指令。
超越人類飛行員的速度和性能
此次比賽的賽道是由一位外部世界級 FPV飛行員設(shè)計的。賽道包括七個正方形的門,排列在一個 30×30×8 米的空間內(nèi),組成了一圈長達(dá) 75 米的賽道。
此外,該賽道具有特色鮮明且具有挑戰(zhàn)性的機動動作,包括 Split-S 等。即使發(fā)生碰撞,只要飛行器能夠繼續(xù)飛行,飛行員依舊可以繼續(xù)比賽。如果發(fā)生碰撞且兩架無人機均無法完成賽道,距離更遠(yuǎn)的無人機獲勝。
圖片來自:nature
Swift 與 Alex Vanover、Thomas Bitmatta和 Marvin Schaepper等人進(jìn)行了多場比賽。
其中,Swift 在與 A. Vanover 的 9 場比賽中贏得了 5 場,在與 T. Bitmatta 的 7 場比賽中贏得了 4 場,在與 M. Schaepper 的 9 場比賽中贏得了 6 場。
另外,Swift 共有 10 次失利,其中 40% 因與對手碰撞,40% 因與門碰撞,20% 因比人類飛行員飛行較慢。
總體而言,Swift 在與每位人類飛行員的大多數(shù)比賽中取得了勝利。另外,Swift 還創(chuàng)下了最快的比賽時間記錄,比人類飛行員 A. Vanover 的最佳成績快了半秒鐘。
從數(shù)據(jù)分析中可以看出,Swift 在整體上比所有人類飛行員都要快,尤其在起飛和緊急轉(zhuǎn)彎等關(guān)鍵部分表現(xiàn)更為出色。Swift 的起飛反應(yīng)時間更短,平均比人類飛行員提前 120 毫秒。而且,Swift 的加速度更大,在第一個門處達(dá)到更高的速度。
此外,Swift 在急轉(zhuǎn)彎時表現(xiàn)出更緊密的機動動作,這可能是因為它在較長時間尺度上優(yōu)化了軌跡。與此相反,人類飛行員更傾向于在較短時間尺度內(nèi)規(guī)劃動作,最多考慮到未來一個門的位置。
圖片來自:nature
此外,Swift 在整體賽道上實現(xiàn)了最高的平均速度,找到了最短的比賽線路,并成功地將飛行器保持在極限附近飛行。在時間試驗中,Swift 與人類冠軍進(jìn)行比較,自主無人機表現(xiàn)出更加一致的圈速,平均值和方差都較低,而人類飛行員的表現(xiàn)則更加因個體情況而異,平均值和方差較高。
綜合分析表明,自主無人機 Swift 在比賽中展現(xiàn)出了出色的性能,不僅在速度上表現(xiàn)優(yōu)越,還在飛行策略上具備獨特的特點,使其能夠在整個比賽中保持高水平的表現(xiàn)。
不只是無人機競速
這項研究探索了基于來自物理環(huán)境的嘈雜和不完整傳感輸入的自主無人機競速,展示了一個自主物理系統(tǒng)在競速中取得了冠軍級的表現(xiàn),有時甚至可以超越人類世界冠軍,突顯了機器人在受歡迎體育項目中達(dá)到世界冠軍級表現(xiàn)的重要意義,為機器人技術(shù)和智能取得了重要里程碑。
然而,與人類飛行員相比,研究中的系統(tǒng)并未經(jīng)過撞擊后的恢復(fù)訓(xùn)練。這限制了系統(tǒng)在撞擊后繼續(xù)飛行的能力,而人類飛行員可以在硬件損壞的情況下繼續(xù)競賽。
另外,與人類飛行員相比,Swift 系統(tǒng)對環(huán)境變化的適應(yīng)能力較弱,使用的相機刷新率較低;盡管該方法在自主無人機競速中表現(xiàn)優(yōu)異,但其在其他現(xiàn)實系統(tǒng)和環(huán)境中的泛化能力尚未充分探究。
顯然,Kaufmann 及其團(tuán)隊的成就不僅僅局限于無人機競速領(lǐng)域,這項技術(shù)或許可能會在軍事應(yīng)用中找到用武之地。而且,他們的技術(shù)可使無人機更平穩(wěn)、更快速、更長程,有助于機器人在駕駛、清潔、檢查等領(lǐng)域更有效地利用有限的資源。
但要實現(xiàn)這些目標(biāo),研究團(tuán)隊依然需要解決諸多挑戰(zhàn)。正如 Croon 在評論文章中所說,“為了在任何競賽環(huán)境中都能打敗人類飛行員,該系統(tǒng)必須能應(yīng)對外部干擾,如風(fēng),光照條件變化,定義不太清晰的各種門,其他競速無人機和許多其他因素。”
標(biāo)簽:
相關(guān)熱詞搜索: