宣傳稿靠邊站!我們從技術角度告訴你特斯拉Autopilot V9為何這麼強-愛新聞

宣傳稿靠邊站!我們從技術角度告訴你特斯拉Autopilot V9為何這麼強

今年10月,跳票已久的Autopilot V9版本終於落地,Musk吹過的牛也在一步步實現。

媒體上關於Autopilot V9的溢美之詞不絕於耳,但卻沒人能從技術角度說說這次的V9到底牛在哪裡。好在民間有大神,在特斯拉論壇上,就有一位神經網絡從業者對9進行了深入剖析。看完他的分析,你對Musk的崇拜恐怕要再多幾分。

新智駕對神經網絡工程師jimmy-d的論壇發言進行了整理和編譯,各位讀者可千萬別錯過這份營養滿滿的技術大餐。

統一的攝像頭網絡讓8顆攝像頭火力全開

與前一個版本的V8類似,我認為V9的神經網絡中也用到了“攝像頭網絡”,它能直接處理來自攝像頭的輸出。當然這還不夠,特斯拉還準備了一套“後置處理網絡”,它能將“攝像頭網絡”生成的數據變成更高級別的抽象,而且已經擁有了可操作性。與V8相比,V9有了巨大的躍升。

這個“攝像頭網絡”到底強大到什麼地步呢?

它能一次控制8顆攝像頭。需要注意的是,V9上所有攝像頭採集的圖片和視頻權重都是一樣的(V8有所不同,不同攝像頭採集的數據重要程度不同)。

具體來說特斯拉這8顆攝像頭:

前置的3顆與後置的1顆處理分辨率均為1280x960(釋放了攝像頭的最高分辨率);

剩下的4顆攝像頭則用了640x480的處理分辨率(其實這4顆攝像頭與前後那4顆最高分辨率相同,但在這裡只用到了其分辨率的四分之一)。

*注:特斯拉的8顆攝像頭包括3顆前置攝像頭,它們中有一顆是窄視角攝像頭,覆蓋範圍可達250米,一顆是中程攝像頭(主攝像頭),能看150米遠,另一顆則是廣角攝像頭,但覆蓋範圍僅60米。另外車尾還有1顆攝像頭,剩下4顆則對稱安裝在車輛轉向燈下放和B柱上。

除此之外,這8顆攝像頭均升級到了3條色彩通道(紅綠藍3條色彩通道),且用上了雙層架構設計。與其相比,V8上的2條色彩通道(紅綠2條色彩通道)+單層架構設計就寒酸多了。而且別忘了,V8的攝像頭分辨率只有640x416,且只有主攝像頭和窄視角攝像頭有這“待遇”。

傳聞稱V8的多個版本也給那4顆比較“閒”的攝像頭配備了神經網絡,但它到底派沒派上用場恐怕只有特斯拉內部人員才知道。

可以肯定的是,V8時代Autopilot駕駛時只用到了主攝像頭和窄視角攝像頭,而那顆前置廣角攝像頭是用來感應雨水的。不過在V9上,這8顆攝像頭確實是火力全開。

除了擺脫攝像頭“閒置”的罵名,V9的神經網絡處理能力還大幅提升。拿主攝像頭來說,1280x960的分辨率與3條色彩通道和雙層架構設計疊加,每幀文件大小就能達到1280x960x3x2字節,換算過來就是7.3M。反觀V8的主攝像頭,每幀輸入只有0.5M,數據量是V9的1/13。

與穀歌的Inception V1神經網絡相比(兩者用了類似的底層架構概念),V9的攝像頭網絡規模要大上10倍,算力更是提升了200倍。

雖然側方的4顆攝像頭分辨率只有主攝像頭的1/4,但8顆攝像頭火力全開,13倍的數據輸入量雖然加大了ECU的壓力,但也能提供更為精細的物體細節。

更為有趣的是,攝像頭接口發生了改變,V9上每一幀都是成對處理。不過,這些成對處理得畫面還是有時間偏差的,延遲大致在10-100毫秒,這樣才能呈現出動作,而動作能提供深度信息並將物體從背景中分離出來,幫助車輛識別並預測物體軌跡(包括車輛自己的軌跡)。

對系統的基礎感知來說,這個升級至關重要。

圖像處理網絡效率大躍升

在V8上,主攝像頭和窄視角攝像頭用了相同的架構,但權重有差異。

這點並無問題,畢竟兩顆攝像頭有完全不同的視場。分別訓練兩顆攝像頭會大大降低物體識別的難度,同時神經網絡的規模和訓練量也會有所下降。不過這也意味著你必須打造兩個不同的訓練數據集並分別對它們進行評估,而且在運行時兩個不同的神經網絡還要交替上線。

在V9上,特斯拉則用上了獨立的圖像處理網絡(Camera Agnostic,意為獨立於攝像頭),它能在相同權重下處理任何攝像頭的輸出數據。同時也能解決V8上神經網絡的問題並提升其穩定性。

這種解決方案也意味著神經網絡必須更了解物體到底長什麼樣,無論鏡頭畸變有何不同(畸變無法用物理方式修復)。此外,獨立的圖像處理網絡很燒錢,因為它需要大量的訓練、海量的數據庫和一個規模龐大的神經網絡。

當然,特斯拉選擇這樣一個解決方案也不是為了給自己找麻煩。這套獨立的圖像處理網絡在計算效率上有了較大提升。當它只需要依照一個權重時,就不用頻繁在GPU中寫入各種數據。更重要的是,你可以在一個數據集的框架下大批量處理各種攝像頭採集的圖像了。這樣一來,同等的硬件就能獲得性能加成。

我從來沒想過有廠商願意搞這種獨立的圖像處理網絡,特斯拉真給力!

怪物級別的神經網絡

如果要用一個詞形容V9的神經網絡,恐怕你腦海裡第一個蹦出來的詞是怪物,但事實上它比怪物還要強悍。當你將神經網絡裡的一個權重乘以5,就會發現你得到的不只是5倍的能力提升。

在表達能力上,神經網絡的提升服務更是幾何級的。打個比方,如果V8的表達能力是10,那麼V9就是100000,絕對是爆炸性的性能飛躍。不過,想用好這個性能飛躍,就需要訓練數據也配合著增加,你“餵給”神經網絡的數據量可能是原來的數百萬倍。

(*注:其實數據方面特斯拉並不擔心,畢竟和Waymo相比,它們奔跑在路上的車輛要多得多。數據顯示,2016年年底特斯拉售出車型的行駛里程已經高達35億英里,隨著大量Model 3入役,想必Musk的數據庫都快塞不下這些數據了,而時不時就實現一個里程碑的Waymo才累積了1000萬英里的路測歷程。)

簡單來說,這套神經網絡比我見過的任何視覺神經網絡都要龐大,只是想想它需要的學習數據我都感覺不可思議。為了萬無一失我甚至算了很多遍,但最終我驚奇的發現,限制我的並非計算方法,而是我的想像力。

V9神經網絡上的變化讓車輛有能力識別任何方向上的每個物體,其探測距離甚至能達到數百米。同時,它還能抓住這些物體的瞬間動作。如果考慮到攝像頭視場的重疊,每出現一個物體,至少會被兩顆攝像頭髮現,這就大大提升了車輛安全性。

在V9上,特斯拉是不是用了半監督學習?特斯拉使用的數據肯定有一部分不帶標籤,畢竟誰能找來這麼多人給天量的數據加標籤?

在我看來,特斯拉的模擬測試設計師們肯定打造了一台專門生成數據標籤的機器,不過即使這樣恐怕加了標籤的數據也不夠用。而且,特斯拉去哪找這麼狂暴的數據中心來訓練神經網絡呢?難道Musk是谷歌背後的神秘人,能從Larry Page那弄來一整個倉庫的TPU?

也許Musk又在醞釀什麼神秘的殺手鐧了。

總而言之,在V9上我看到了特斯拉的能力和野心。

特斯拉總是能實現業內專家都無法想像的進步,這種通過改進“放大”計算能力、訓練數據和產業資源的能力是特斯拉的核心競爭力之一,同時也降低了未來研發路上的不確定性。

從這個角度來看,特斯拉的“視覺優先/全神經網絡”模式確實前程遠大。作為一名神經網絡界的從業人員,我為特斯拉感到驕傲。

宣傳稿靠邊站! 我們從技術角度告訴你特斯拉Autopilot V9為何這麼強

發佈留言