
人類很自然地就學(xué)會(huì)如何將他們?cè)谑澜缟系奈恢门c他們從世界上收集到的信息聯(lián)系起來(lái),并學(xué)習(xí)如何根據(jù)此類信息采取行動(dòng)。例如,如果有人向另一個(gè)人扔球,而時(shí)間足夠的話,人類可以學(xué)會(huì)衡量他們與球的關(guān)系,并舉起手來(lái)接住球,該過(guò)程稱為“主動(dòng)感知”(active perception),可讓人類根據(jù)感覺(jué)預(yù)測(cè)未來(lái)的動(dòng)作。
人類的感覺(jué)系統(tǒng)和運(yùn)動(dòng)系統(tǒng)是統(tǒng)一的,意味著一個(gè)事件的記憶包含了此類信息的組合。另一方面,機(jī)器人和無(wú)人機(jī)等系統(tǒng)的攝像頭和運(yùn)動(dòng)是獨(dú)立的系統(tǒng),有獨(dú)立的數(shù)據(jù)流。如果能夠?qū)⒋祟悢?shù)據(jù)結(jié)合,機(jī)器人和無(wú)人機(jī)就能夠創(chuàng)造自己的“記憶”,并能更有效地學(xué)習(xí)以模仿主動(dòng)感知。
研究人員使用了iniLabs的DAVIS 240b DVS(動(dòng)態(tài)視覺(jué)傳感器)和高通公司的 Flight Proboard。DAVIS 240b DVS只會(huì)對(duì)場(chǎng)景中的變化做出反應(yīng),類似于人類眼睛中的神經(jīng)元只在感受到光線變化時(shí)才會(huì)發(fā)出信號(hào),而高通的 Flight Proboard安裝在一個(gè)四軸無(wú)人機(jī)上。
使用一種稱為多維二進(jìn)制向量(HBV)的數(shù)據(jù)表現(xiàn)形式,無(wú)人機(jī)攝像頭的信息和無(wú)人機(jī)速度信息被存儲(chǔ)在相同的數(shù)據(jù)記錄中。然后,卷積神經(jīng)網(wǎng)絡(luò)(CNN)只有DVS的視覺(jué)記錄可作為參考,需要記住無(wú)人機(jī)采取的動(dòng)作。卷積神經(jīng)網(wǎng)絡(luò)能夠通過(guò)參考攝像頭和速度數(shù)據(jù)結(jié)合產(chǎn)生的“記憶”,在所有的實(shí)驗(yàn)中,都能100%地準(zhǔn)確完成任務(wù)。
相比于兩個(gè)分開(kāi)的數(shù)據(jù)流,該實(shí)驗(yàn)的原理是可以讓機(jī)器視覺(jué)系統(tǒng)更快地參考事件和反應(yīng)數(shù)據(jù),在捕捉到特定的視覺(jué)數(shù)據(jù)時(shí),可讓機(jī)器人或自動(dòng)駕駛汽車預(yù)測(cè)未來(lái)采取的動(dòng)作,即基于輸入的感知數(shù)據(jù)預(yù)測(cè)動(dòng)作。或者,更簡(jiǎn)單地說(shuō),想象未來(lái)發(fā)生的事件,并提前思考好下一步動(dòng)作。