機器學習模型的性能取決于其訓練的數據集的質量,而在自動駕駛領域,讓此種性能不會受到失誤的影響是至關重要的。據外媒報道,計算機視覺初創公司Roboflow發布了一份報告,據該公司創始人Brad Dwyer所說,用于訓練自動駕駛汽車模型的語料庫確實遺漏了關鍵數據。

Dwyer表示,Udacity數據集2包含1.5萬張白天在山景城和附近城市開車時拍攝的照片,其中就遺漏了關鍵數據。在大約5000個樣本中,有數千輛未標記的車輛,數百名未標記的行人以及數十名未標記的騎自行車的車,占總數的33%(而217個樣本中根本都沒有任何注釋,此類樣本涵蓋了汽車、卡車、路燈或行人)。更糟糕的是,還有“幻覺”注釋以及除了“嚴重”加大的邊界框(邊界框指代感興趣的對象),還有重復注釋的邊界框。
考慮到標簽是讓人工智能(AI)系統理解模式的含義(如有人走到了汽車前面),并基于此類知識評估未來事件,上述現象是很有問題的。錯誤標記或未標記的物體可能會導致準確性低、決策糟糕,從而為自動駕駛汽車帶來災難。
AI很容易因為數據集不完整或不正確導致偏差,這很好理解。例如,單詞嵌入(word embedding)是一種常見的算法訓練技術,需要將單詞與向量連接起來的,不可避免地會捕捉到源文本和對話中隱含的偏見內容,在最糟糕的情況下,此種偏見還會被放大。此外,相比于白人,很多面部識別系統錯誤識別有色人種的次數更多,而且谷歌圖片(Google Photos)曾經將深膚色的人識別為“大猩猩。”
但是,如果將表現不佳的AI用于汽車,就會造成更大的傷害。目前,還沒有自動駕駛汽車引發碰撞事故的記錄,但是目前公共道路上的自動駕駛汽車數量很少。不過,這種情況很可能會改變,根據市場營銷公司ABI的數據,到2025年,將有多達800萬輛無人駕駛汽車上路;而Research and Markets公司預計,到2030年,美國將有大約2000萬輛無人駕駛汽車投入使用。
如果數百萬的汽車運行的是有缺陷的AI模型,帶來的影響可能是毀滅性的,會讓公眾更加不信任無人駕駛汽車。有兩項研究 – 一項由布魯金斯學會(Brookings Institution)和一項由高速公路與汽車安全倡議者(AHAS)表示,大多數美國人并不相信無人駕駛汽車的安全性。在布魯金斯學會進行的調查中,超過60%的受訪者表示,傾向于不乘坐自動駕駛汽車;而在AHAS的調查中,近70%的受訪者對于與自動駕駛汽車共享道路表示了擔憂。
解決數據集問題的方法可能在于更好地進行標記。根據Udacity數據集2的GitHub頁面所說,眾包語料庫注釋公司Autti結合使用機器學習與人工監工的方式來處理標記,目前尚不清楚是否此種方法導致了上述錯誤,不過嚴格的驗證程序可能有助于發現上述錯誤。