計算機視覺創企Roboflow:自動駕駛汽車訓練語料庫遺漏關鍵數據

時間:2020-02-19

來源:中國無人駕駛網

0

導語:計算機視覺創企Roboflow:自動駕駛汽車訓練語料庫遺漏關鍵數據

機器學習模型的性能取決于其訓練的數據集的質量,而在自動駕駛領域,讓此種性能不會受到失誤的影響是至關重要的。據外媒報道,計算機視覺初創公司Roboflow發布了一份報告,據該公司創始人Brad Dwyer所說,用于訓練自動駕駛汽車模型的語料庫確實遺漏了關鍵數據。

 

計算機視覺創企Roboflow:自動駕駛汽車訓練語料庫遺漏關鍵數據

Dwyer表示,Udacity數據集2包含1.5萬張白天在山景城和附近城市開車時拍攝的照片,其中就遺漏了關鍵數據。在大約5000個樣本中,有數千輛未標記的車輛,數百名未標記的行人以及數十名未標記的騎自行車的車,占總數的33%(而217個樣本中根本都沒有任何注釋,此類樣本涵蓋了汽車、卡車、路燈或行人)。更糟糕的是,還有“幻覺”注釋以及除了“嚴重”加大的邊界框(邊界框指代感興趣的對象),還有重復注釋的邊界框。

考慮到標簽是讓人工智能(AI)系統理解模式的含義(如有人走到了汽車前面),并基于此類知識評估未來事件,上述現象是很有問題的。錯誤標記或未標記的物體可能會導致準確性低、決策糟糕,從而為自動駕駛汽車帶來災難。

 

AI很容易因為數據集不完整或不正確導致偏差,這很好理解。例如,單詞嵌入(word embedding)是一種常見的算法訓練技術,需要將單詞與向量連接起來的,不可避免地會捕捉到源文本和對話中隱含的偏見內容,在最糟糕的情況下,此種偏見還會被放大。此外,相比于白人,很多面部識別系統錯誤識別有色人種的次數更多,而且谷歌圖片(Google Photos)曾經將深膚色的人識別為“大猩猩。”

 

但是,如果將表現不佳的AI用于汽車,就會造成更大的傷害。目前,還沒有自動駕駛汽車引發碰撞事故的記錄,但是目前公共道路上的自動駕駛汽車數量很少。不過,這種情況很可能會改變,根據市場營銷公司ABI的數據,到2025年,將有多達800萬輛無人駕駛汽車上路;而Research and Markets公司預計,到2030年,美國將有大約2000萬輛無人駕駛汽車投入使用。

如果數百萬的汽車運行的是有缺陷的AI模型,帶來的影響可能是毀滅性的,會讓公眾更加不信任無人駕駛汽車。有兩項研究 – 一項由布魯金斯學會(Brookings Institution)和一項由高速公路與汽車安全倡議者(AHAS)表示,大多數美國人并不相信無人駕駛汽車的安全性。在布魯金斯學會進行的調查中,超過60%的受訪者表示,傾向于不乘坐自動駕駛汽車;而在AHAS的調查中,近70%的受訪者對于與自動駕駛汽車共享道路表示了擔憂。

解決數據集問題的方法可能在于更好地進行標記。根據Udacity數據集2的GitHub頁面所說,眾包語料庫注釋公司Autti結合使用機器學習與人工監工的方式來處理標記,目前尚不清楚是否此種方法導致了上述錯誤,不過嚴格的驗證程序可能有助于發現上述錯誤。

低速無人駕駛產業綜合服務平臺版權與免責聲明:

凡本網注明[來源:低速無人駕駛產業綜合服務平臺]的所有文字、圖片、音視和視頻文件,版權均為低速無人駕駛產業綜合服務平臺獨家所有。如需轉載請與0755-85260609聯系。任何媒體、網站或個人轉載使用時須注明來源“低速無人駕駛產業綜合服務平臺”,違反者本網將追究其法律責任。

本網轉載并注明其他來源的稿件,均來自互聯網或業內投稿人士,版權屬于原版權人。轉載請保留稿件來源及作者,禁止擅自篡改,違者自負版權法律責任。

如涉及作品內容、版權等問題,請在作品發表之日起一周內與本網聯系,否則視為放棄相關權利。

關注低速無人駕駛產業聯盟公眾號獲取更多資訊

最新新聞