從感知融合方法看自動駕駛的發(fā)展趨勢
發(fā)布時間:2022-08-08
感知作為自動駕駛系統(tǒng)的信息輸入模塊,決定著整個自動駕駛系統(tǒng)的下限。無論是自動駕駛感知還是機器人感知目標都是不斷的通過數(shù)字化的方法逼近真實的物理世界,而這個真實的物理世界只是僅限于人類可感知的范圍,例如,車道線、交通燈、行駛障礙物等等。這個過程的大前提是人類已經知道了物理世界的分類或者屬性,只是讓機器和系統(tǒng)復制人類的反應。不管是純視覺路線還是多源融合路線,本質是感知系統(tǒng)方案的區(qū)別,一個側重縱向一個側重橫向。
以特斯拉為代表的純視覺方案還是以Waymo為代表的多源傳感融合檔案,其實自動駕駛系統(tǒng)感知模塊通常會有多個傳感器,通過多維度達到信息的冗余和信息的互補,但是不同的傳感器之間的信息存在沖突的可能性。例如,雷達識別到障礙物,而攝像頭顯示可以通行,這種情況下就需要多源傳感器的信息交互和融合。任何傳感器在感知物理世界方面都存在一定的優(yōu)劣勢,每一個傳感器都有獨立的感知算法,所以需要以系統(tǒng)的角度設計整個自動駕駛的感知方案。
從硬件層面感知主要包括攝像頭、雷達、高精度地圖、IMU等等,在軟件算法層面可以粗略的劃分為數(shù)據(jù)獲取、體征提取和完成感知任務三個環(huán)節(jié),按照信息的發(fā)生前后,多源感知融合又可以劃分為前融合、特征融合和后融合,可以說感知融合的方法變化也是驅動自動駕駛行業(yè)的內因,也是自動駕駛技術發(fā)展的三個不同的階段。
第一階段感知數(shù)據(jù)后融合。后融合也叫目標級融合,是指單個傳感器分別完成原始數(shù)據(jù)的采集,獨立進行特征提取和目標檢測,完成感知任務后再進行預測結果融合。其優(yōu)勢有幾點:第一點、后融合比較容易實現(xiàn)自動駕駛功能,對車端的算力和帶寬需求也較低,2021年mobileye量產的EyeQ5芯片算力達到25TOPS、英偉達的Xavier單芯片算力30TOPS、特斯拉的FSD3.0芯片可達144 TOPS也就是說在感知后融合時期,芯片的算力不是******的瓶頸,相比現(xiàn)在動輒上千TOPS的算力,后融合100TOPS就可以實現(xiàn)輔助駕駛功能,其次后融合策略只需要傳輸識別結果而非原始數(shù)據(jù),對感知通信帶寬的要求也大大降低;
第二點、每種傳感器識別的結果輸入到感知融合模塊,該模塊對各種傳感器在不同場景下的識別結果設置不同的置信度,最終根據(jù)融合策略進行決策,這樣可以實現(xiàn)快速產品化。例如在特斯拉早期的白色開車事故中,毫末波雷達已經識別到障礙物,攝像頭沒有反應,在攝像頭的高置信度下就是可通行。在特斯拉自動駕駛的感知網(wǎng)絡中,對于視覺信號來說雷達信號就是噪聲,去掉感知融合這對于視覺技術的挑戰(zhàn)是巨大的。自動駕駛視覺零部件巨頭Mobileye經過十年的研發(fā)從后裝輔助駕駛走向前裝量產,為客戶提供單目一體化解決方案,將感知識別結果進行封裝輸出,可以向識別結果的決策權交給客戶進行決策,而不直接參與下游的控制。在前裝市場提供芯片和算法可以迅速幫助車企進行自動駕駛功能的升級,后裝市場提供成形的輔助駕駛產品擴展汽車存量市場。憑借這套產品組合,Mobileye在2016年底拿下全球汽車安全駕駛系統(tǒng)70%以上的市場份額;
第三點,感知算法的解耦性較好,不同的感知算法之間理論上可以互為備份冗余。在自動駕駛行業(yè)發(fā)展的初期,對自動駕駛的功能定義處于粗放式的狀態(tài),對感知精度要求不高,因此后融合方案憑借優(yōu)勢成為自動駕駛的主流,即使強如特斯拉,也在2020年之前采用后融合感知方案。隨著自動駕駛技術的發(fā)展,對產品定義更加細化,感知精度的需求也在提高,至于精確到什么程度,這就是自動駕駛技術邊界的定義。第二階段感知數(shù)據(jù)的前融合后融合需要根據(jù)先驗知識對傳感器進行置信度的設置,本質上是一種基于規(guī)則的方法,并且在感知信息后融合的過程中,低置信度的數(shù)據(jù)信息會被過濾,這樣會產生傳感器原始數(shù)據(jù)的丟失,并且隨著時間序列誤差會累積。進入到2020年,科技行業(yè)以數(shù)據(jù)驅動的范式席卷所有的行業(yè),自動駕駛也從基于規(guī)則的方法轉向基于知識學習,再加上車端大算力芯片開始“卷”起來,也為自動駕駛感知前融合創(chuàng)造了硬件基礎。
前融合是將空間和時間對齊直接融合不同模態(tài)的原始傳感器數(shù)據(jù)再從融合后的綜合數(shù)據(jù)中提取特征向量進行識別。這種方法從數(shù)據(jù)的獲取量方面解決了原始數(shù)據(jù)的丟失問題,提高了感知算法的精度,與此同時還可以省去原先在傳感器中的處理芯片。例如特斯拉在九頭蛇感知網(wǎng)絡架構中,直接將攝像頭的原始光子計數(shù)作為輸入,擴大了視覺感知的范圍。
然而,特斯拉能做出來的,其他人真不一定能搞定。前融合雖然符合數(shù)據(jù)驅動的范式,但是也面臨著幾個關鍵問題:其一、攝像頭的原始數(shù)據(jù)是多維且特征復雜數(shù)據(jù),在low vision的處理就是將數(shù)據(jù)降維輸出。將原始數(shù)據(jù)作為感知網(wǎng)絡的輸入,需要較高的算法設計能力,并且這個能力的培養(yǎng)需要大量的測試數(shù)據(jù)成本;其二、將原始數(shù)據(jù)在空間和時間序列上的對齊融合提取特征向量,需要車端大算力芯片的支撐,這個過程是云端訓練也無法取代。第三階段感知數(shù)據(jù)特征級的融合。在自然語言處理領域大殺四方的Transformer模型架構引入到視覺感知領域后,自動駕駛感知在BEV空間中進行跨模態(tài)特征融合的網(wǎng)絡架構效果有了一個質的提升,這也是眾多廠商相仿特斯拉的純視覺路線的根基所在。
特征級融合是先從傳感器的原始數(shù)據(jù)中提取代表性的特征,再把這些特征融合成單一的特征向量進行識別,相比于前融合需要的算力和算法需求幕后融合數(shù)據(jù)的丟失問題,特征級融合可以降低數(shù)據(jù)的維度從而降低感知網(wǎng)絡對算力的需求。傳統(tǒng)的BEV空間轉換方法主要是基于規(guī)則的逆透視變換,正如人類的眼睛一樣相機所采集的圖像是2D的,因透視關系的存在會出現(xiàn)近大遠小的情況。
逆透視變換就是將成像過程進行抽象和簡化從而得到證實世界坐標系和圖像坐標系之間的映射關系。可以看出這種規(guī)則的方法對于遠距離的區(qū)域中將2D圖像投影到BEV空間的精度會失真。這一點在特斯拉AI day上有詳細講解。2020年英偉達在ECCV 2020上發(fā)布關于LSS算法的論文,核心是通過顯式估計圖像的深度信息,對采集到的環(huán)視圖像進行特征提取、并根據(jù)估計出來的離散深度信息,實現(xiàn)圖像特征向BEV空間特征的轉換。自此BEV空間轉換從規(guī)則到學習型轉變,在BEV空間中基于深度學習的方法實現(xiàn)感知的特征級融合。
自動駕駛行業(yè)的起伏內在原因是感知算法的變化,傳感器的多少只是算法變化的外在表現(xiàn)。自動駕駛系統(tǒng)也是一個高度復雜不完美信息的博弈過程,隨著大模型感知方法的引入,系統(tǒng)對數(shù)據(jù)的依賴程度提高。無論是全數(shù)據(jù)的前融合還是基于深度學習的特征級融合,本質上都是對物理世界的度量尺度,純視覺也好多源傳感也罷,都是度量物理世界的一種方式。在后融合階段,自動駕駛產品以功能模塊的方式存在,行業(yè)是一種離散的狀態(tài),這也造就了Mobileye這樣的行業(yè)巨頭的崛起。隨著自動駕駛對物理世界映射輸入方法的變化,自動駕駛行業(yè)開始轉向聚攏狀態(tài),掀起全棧自研的浪潮,主要分為兩方面,一方面是只有走特斯拉的全棧自研才能獲得更多的數(shù)據(jù),打破底層數(shù)據(jù)壁壘,通過數(shù)據(jù)驅動實現(xiàn)產品迭代;另一方面自動駕駛產品更加聚焦場景化,產品定義場景其實是對技術的顆粒度提出更細的要求。
以深度學習為代表的自回歸的方法實現(xiàn)自動駕駛感知技術是當前主流的趨勢,隨即帶動整個自動駕駛產業(yè)鏈的變化。每一次自動駕駛感知技術的變化也是自動駕駛開發(fā)方式的調整和供應鏈的重構。在Transformer+BEV的大模型感知架構下,主要會體現(xiàn)在幾個方面:第一是數(shù)據(jù)和算力成為關鍵因素。參照了自然語言處理領域的經驗,理論上在數(shù)據(jù)和算力足夠充足的前提下,自動駕駛視覺可以實現(xiàn)從感知到認知的躍遷,但不是最終的解決方案,感知神經網(wǎng)絡可以收斂的前提下,隨著網(wǎng)絡深度增加,網(wǎng)絡的表現(xiàn)先是逐漸增加至飽和,然后迅速下降,針對這個問題AI大神何凱明等人提出了殘差連接解決網(wǎng)絡退化的問題,增加了網(wǎng)絡的復雜性和不可解釋性。從數(shù)學層面講自動駕駛系統(tǒng)就是一個多項式非線性方程局部空間的求解,通俗一點就是最經典的例子就是大家最熟悉的俄羅斯方塊;第二是自動駕駛產品的完備性無法準確定義,這也會導致原本汽車行業(yè)的一些規(guī)則面臨巨大的改變,而算法的完備性主要體現(xiàn)在數(shù)據(jù)集上的理論效果和部署在應用產品中的實際效果,這就必然會產生一個效果差距,并且這個差距是一直存在。所以,為了彌補這個差距,自動駕駛技術發(fā)展一定是以數(shù)據(jù)+物理世界機理的融合方式存在,跳出先驗知識的框架才能創(chuàng)造新的價值,而自動駕駛感知數(shù)據(jù)的融合方法的變化也是逐漸弱化先驗方式的過程。所以,自動駕駛的感知很重要,因為這是人類認知世界的一種方式,也是因為認知世界的方式驅動整個行業(yè)的前進。 十字甫 汽車觀察者聯(lián)盟