無(wú)人機(jī)能干體力活!
時(shí)間: 2020-05-09 13:48:12
智東西5月7日消息,近日,F(xiàn)acebook和加州大學(xué)伯克利分校的研究人員研發(fā)出一種方法,可以使無(wú)人機(jī)“負(fù)重”飛行。根據(jù)模擬結(jié)果,無(wú)人機(jī)可以撿起、運(yùn)輸、卸下有效載荷,同時(shí)保持平穩(wěn)的飛行狀態(tài)。人們一直希望能用無(wú)人機(jī)在倉(cāng)庫(kù)或其他工業(yè)環(huán)境中運(yùn)送貨物。但之前的研究顯示,搭載有效載荷會(huì)削弱無(wú)人機(jī)的飛行性能,甚至有可能造成無(wú)人機(jī)故障。在本項(xiàng)研究中,研究人員創(chuàng)造性地用元學(xué)習(xí)方法解決了這個(gè)問題。據(jù)了解,這是元學(xué)習(xí)方法首次用于解決無(wú)人機(jī)負(fù)重問題。這項(xiàng)研究發(fā)表在學(xué)術(shù)網(wǎng)站arXiv上,論文名稱為《用基于模型的元強(qiáng)化學(xué)習(xí)實(shí)現(xiàn)攜帶有效載荷飛行(Model-Based Meta-Reinforcement Learning for Flight with Suspended Payloads)》。一、元學(xué)習(xí):讓模型根據(jù)經(jīng)驗(yàn)舉一反三裝載重物會(huì)對(duì)無(wú)人機(jī)的動(dòng)力學(xué)模型造成不可預(yù)估的影響。之前的研究嘗試用自適應(yīng)控制和學(xué)習(xí)方法來(lái)解決問題,但這些方法有一些局限性。首先,由于無(wú)人機(jī)作業(yè)環(huán)境的復(fù)雜性,建模十分困難。在工業(yè)環(huán)境中,需要無(wú)人機(jī)運(yùn)送的貨物質(zhì)量是不可先驗(yàn)的,針對(duì)孤立的物理狀態(tài)建模并不能幫助無(wú)人機(jī)適應(yīng)所有的情況,因此人工設(shè)計(jì)的動(dòng)力學(xué)模型不足以實(shí)現(xiàn)在線控制。另外,機(jī)器學(xué)習(xí)模型通常需要較長(zhǎng)的數(shù)據(jù)校準(zhǔn)過程。但在無(wú)人機(jī)飛行過程中,拾取有效載荷后必須快速適應(yīng),不然就有可能偏離飛行路線甚至發(fā)生嚴(yán)重故障。為了解決這些問題,F(xiàn)acebook和加州大學(xué)伯克利分校的研究人員提出了基于模型的元強(qiáng)化學(xué)習(xí)方法。“元學(xué)習(xí)(Meta Learning)”是一種機(jī)器學(xué)習(xí)方法,可以提升模型的學(xué)習(xí)效率,讓模型“學(xué)會(huì)如何去學(xué)習(xí)”。研究人員訓(xùn)練了一個(gè)基于深層神經(jīng)網(wǎng)絡(luò)的動(dòng)力學(xué)預(yù)測(cè)模型,來(lái)幫助無(wú)人機(jī)適應(yīng)不同有效載荷,并用一個(gè)四軸無(wú)人機(jī)搭載重量未知的有效載荷來(lái)驗(yàn)證模型效果。▲在無(wú)人機(jī)上裝載一個(gè)掛鉤,使其能夠吊起貨物二、預(yù)測(cè)模型:幫助無(wú)人機(jī)不斷優(yōu)化飛行動(dòng)作神經(jīng)網(wǎng)絡(luò)動(dòng)力學(xué)預(yù)測(cè)模型以無(wú)人機(jī)當(dāng)前的狀態(tài)和動(dòng)作作為輸入。當(dāng)無(wú)人機(jī)裝載了有效載荷后,預(yù)測(cè)模型利用變分推斷(variational inference)方法,根據(jù)當(dāng)下有效載荷的質(zhì)量、系繩的長(zhǎng)度等狀態(tài)參數(shù)快速推斷出后驗(yàn)概率,幫助無(wú)人機(jī)適應(yīng)新的飛行狀態(tài)。該模型用長(zhǎng)度為T的時(shí)序數(shù)據(jù)進(jìn)行訓(xùn)練,以此優(yōu)化神經(jīng)網(wǎng)絡(luò)的權(quán)重(weight)參數(shù)。研究人員假設(shè)有效載荷參數(shù)是未知的,用一個(gè)具有分布參數(shù)的潛變量(latent variable)K來(lái)表示它們,通過調(diào)整K值來(lái)模擬攜帶不同有效載荷的情況。在模型訓(xùn)練階段,研究人員手動(dòng)駕駛載有不同有效載荷的無(wú)人機(jī)按照隨機(jī)軌跡飛行,并收集這部分訓(xùn)練數(shù)據(jù)。然后,研究人員運(yùn)行元學(xué)習(xí)方法,使模型學(xué)習(xí)共享的動(dòng)力學(xué)模型參數(shù)和對(duì)不同有效載荷的適應(yīng)參數(shù)。然后,研究人員檢測(cè)模型的訓(xùn)練成果。模型利用當(dāng)前任務(wù)的所有數(shù)據(jù)在線推導(dǎo)出最優(yōu)潛變量?;趧?dòng)力學(xué)模型的控制器據(jù)此規(guī)劃無(wú)人機(jī)動(dòng)作,使無(wú)人機(jī)按照既定路線飛行。在整個(gè)飛行過程中,模型會(huì)持續(xù)儲(chǔ)存數(shù)據(jù),不斷推導(dǎo)出最優(yōu)潛變量、優(yōu)化無(wú)人機(jī)動(dòng)作,直至到達(dá)目的地。三、無(wú)人機(jī)能負(fù)重完成躲避、裝卸貨任務(wù)研究人員用四軸無(wú)人機(jī)進(jìn)行了演示。為了使無(wú)人機(jī)能夠自行定位航線,研究人員在無(wú)人機(jī)上搭載了攝像機(jī)模塊。首先在設(shè)定飛行軌跡的情況下進(jìn)行演示。研究人員設(shè)定的飛行軌跡用紅色線條表示,模型實(shí)時(shí)規(guī)劃出的飛行軌跡用白色線條表示,無(wú)人機(jī)最終選擇的最佳飛行軌跡用藍(lán)色線條表示。根據(jù)模擬結(jié)果,無(wú)人機(jī)基本能夠按照指定路線飛行。研究人員還在設(shè)定方形飛行軌跡和圓形飛行軌跡的情況下進(jìn)行了演示,并對(duì)比了元學(xué)習(xí)算法模型和其他模型。結(jié)果顯示,元學(xué)習(xí)算法模型的路線錯(cuò)誤更少。研究人員還指出,隨著元學(xué)習(xí)算法不斷適應(yīng),無(wú)人機(jī)的飛行性能會(huì)繼續(xù)優(yōu)化。在研究人員模擬出的幾種實(shí)際應(yīng)用場(chǎng)景中,無(wú)人機(jī)也較好地完成了任務(wù)。1、躲避障礙物2、撿拾、運(yùn)輸、卸下貨物3、用指揮棒實(shí)時(shí)規(guī)劃飛行路線4、跟蹤目標(biāo)飛行結(jié)語(yǔ):計(jì)劃進(jìn)一步提升模型自主性Facebook和加州大學(xué)伯克利分校的研究人員利用基于模型的元強(qiáng)化學(xué)習(xí)方法,有效提升了無(wú)人機(jī)裝載有效載荷飛行的能力。研究人員表示,將繼續(xù)進(jìn)行研究,致力于使無(wú)人機(jī)能夠完成更加復(fù)雜的有效載荷運(yùn)輸任務(wù)。根據(jù)論文,目前該模型還需要研究人員指定有效載荷被撿起和放下的時(shí)間。接下來(lái)研究人員計(jì)劃開發(fā)一種算法,使模型能夠自主決定裝卸貨的時(shí)間。