自動駕駛的系統(tǒng)分為感知、決策和執(zhí)行三大模塊,車內(nèi)外的數(shù)據(jù)流是以感知為始,車輛的執(zhí)行為終,整個系統(tǒng)和計算機(jī)系統(tǒng)類似輸入信息——計算處理——輸出結(jié)果。感知模塊作為自動駕駛系統(tǒng)的初始條件輸入,一定程度上決定著自動駕駛系統(tǒng)的下限,同樣,機(jī)器視覺從感知到認(rèn)知的進(jìn)化過程中,自動駕駛將會是一個重要的應(yīng)用場景,汽車的智能化也是機(jī)器智能的子領(lǐng)域。人類對機(jī)器智能的探索過程也是人類不斷對物理世界開展計算的過程,1950年英國計算機(jī)科學(xué)家圖靈提出的圖靈測試,通過模擬一個智能對話來判斷機(jī)器是否具備人類水平的智能,本質(zhì)上也是對數(shù)字計算能力的邊界探索。自動駕駛也是汽車周圍環(huán)境的數(shù)字計算處理,也是不斷逼近模擬真實物理世界的過程。
從人類科學(xué)的發(fā)展歷程中可以發(fā)現(xiàn),所有新技術(shù)新產(chǎn)品的基礎(chǔ)都是物理方法和數(shù)學(xué)理論的支撐。自動駕駛是在計算機(jī)體系的大廈上建造的自動駕駛系統(tǒng)具備甚至超越人類的駕駛水平,目標(biāo)的參照物是以人為核心,實現(xiàn)智能化產(chǎn)品的需求管理、設(shè)計方法、交互邏輯。所以,自動駕駛系統(tǒng)和人的生物系統(tǒng)具有相似性,這種相似性主要體現(xiàn)在兩個層面。
第一個層面是系統(tǒng)層面。從生物學(xué)的角度看,人的眼睛是人類器官中最重要的器官,居五官之首。視覺在人們認(rèn)識客觀世界的過程中起到極其重要的作用,通常外界環(huán)境感知信息90%是由視覺完成。同理在自動駕駛系統(tǒng)中,環(huán)境感知中的視覺扮演著十分重要的角色,尤其是在特斯拉汽車的純視覺自動駕駛系統(tǒng)的影響和產(chǎn)品落地成本壓力之下,單傳感器的視覺在自動駕駛系統(tǒng)中的重要性更加明顯。
自動駕駛的技術(shù)探索也是發(fā)起在計算機(jī)視覺領(lǐng)域,在上世紀(jì)70年代自動駕駛技術(shù)在學(xué)術(shù)界的探索期,視覺算法主要是基于簡單的規(guī)則和啟發(fā)式方法來處理和識別簡單的形狀和模式;90年代,計算機(jī)在處理速度和存儲技術(shù)方面性能提高,計算機(jī)視覺系統(tǒng)應(yīng)用范圍進(jìn)一步擴(kuò)大,自動駕駛技術(shù)的探索開始萌芽;2010年左右,深度學(xué)習(xí)技術(shù)在計算機(jī)視覺領(lǐng)域廣泛發(fā)展,神經(jīng)網(wǎng)絡(luò)算法引入自動駕駛視覺感知算法之中,自動駕駛系統(tǒng)的感知效果有了質(zhì)的提升,與此同時自動駕駛成為科技領(lǐng)域的新風(fēng)口,資本和創(chuàng)業(yè)者涌入自動駕駛賽道??梢哉f自動駕駛技術(shù)的進(jìn)步也是計算機(jī)視覺技術(shù)發(fā)展的歷程,視覺能否實現(xiàn)無人駕駛有待驗證,但是自動駕駛一定是需要視覺技術(shù)的支撐;
第二個層面是更深一點的視覺技術(shù)層面。在對物理世界的感知層面,相比圖靈機(jī)時代的符號主義,以聯(lián)結(jié)主義時代通過模仿動物神經(jīng)網(wǎng)絡(luò)行為特征,進(jìn)行分布式并行信息處理的算法模型進(jìn)一步拉近了數(shù)字世界和物理世界的距離,首先是神經(jīng)網(wǎng)絡(luò)中感知機(jī)所用的元模型最早是在1943年提出的M-P模型,該模型將輸入信號進(jìn)行加權(quán)平均運(yùn)算,若超過某一個閾值則向后傳遞信號否則被抑制,有點類似半導(dǎo)體的二極管原理很通俗易懂,但是實現(xiàn)的方式和效果卻需要一定的工程能力;
其次模型訓(xùn)練的理論依據(jù)是在1949年提出的赫布學(xué)習(xí)規(guī)則。所以說,人類對智能的探索從未停止過,1956年達(dá)特茅斯會議首次提出人工智能的概念發(fā)展至今,隨著數(shù)據(jù)和算力的提升,人工智能又迎來一次躍遷。在計算機(jī)視覺感知領(lǐng)域以神經(jīng)網(wǎng)絡(luò)為主干可以劃分為小模型時期和當(dāng)下流行的大模型時期,小模型的代表是深度神經(jīng)網(wǎng)絡(luò)、卷積神經(jīng)網(wǎng)絡(luò)、循環(huán)神經(jīng)網(wǎng)絡(luò)等等,大模型的代表是Transformer架構(gòu)。
從小模型到大模型并不是理論上的顛覆和切換,首先是視覺算法技術(shù)的延續(xù),正是這種延續(xù)性和相似性讓視覺感知的商業(yè)化范圍擴(kuò)大,間接的影響自動駕駛乃至智能化的技術(shù)發(fā)展;其次是用物理的思維認(rèn)知數(shù)字世界。從神經(jīng)網(wǎng)絡(luò)的變化過程中可以看出這一趨勢,深度神經(jīng)網(wǎng)絡(luò)是多層感知機(jī)網(wǎng)絡(luò),具有三個基本類型的層,輸入層、隱藏層和輸出層,不同層之間的感知機(jī)是全連接,逐層單向傳遞信號,本質(zhì)上是對像素點的一一對比學(xué)習(xí)。在自動駕駛感知中,輸入層得到的數(shù)據(jù)是圖像,而圖像是一個多維的數(shù)據(jù),在識別的過程中需要設(shè)置大量輸入神經(jīng)元及多個隱藏層,顯然這種神經(jīng)網(wǎng)絡(luò)模型的參數(shù)量很大,結(jié)果就是訓(xùn)練難度增大并且算力要求很高。
在物理學(xué)上,伽利略經(jīng)典的兩個鐵球同時落地的實驗標(biāo)志著科學(xué)的新紀(jì)元,物理方法的核心是尋找事物所遵守的基本法則和原則,例如無論圓的半徑多大,圓周率是不變的、伽利略推翻亞里士多德的理論,證明物體下落的快慢和物體的重量無關(guān),例如測量國界線的長度,即使在歐幾里得幾何圖形中也無法用米尺測量,但是可以在地圖中使用比例尺和測量單位的手段獲得界限的長度。在這個過程中,物理世界和數(shù)字之間的邏輯關(guān)系是不變的,通過事物的特征獲取了事物的全貌。這種思路在視覺感知領(lǐng)域的應(yīng)用正如一張圖片中人臉的識別,并不需要對每個像素點進(jìn)行一一對比學(xué)習(xí),而是先搜索臉部輪廓以及五官及其他特征,當(dāng)這些特征同時出現(xiàn)時,就可以判定圖片中是人臉,這種思路在算法中就是卷積神經(jīng)網(wǎng)絡(luò),本質(zhì)上是在數(shù)據(jù)輸入深度神經(jīng)網(wǎng)絡(luò)之前進(jìn)行數(shù)據(jù)的特征提取后的降維,從而提高神經(jīng)網(wǎng)絡(luò)的運(yùn)行效率,降低對算力的要求。
然而在卷積神經(jīng)網(wǎng)絡(luò)對數(shù)據(jù)進(jìn)行特征提取降維之后會丟失一些有價值的信息,忽略整體和局部之間的關(guān)聯(lián)性,這種關(guān)聯(lián)性除了空間還有時間序列的關(guān)聯(lián)。例如再回到人臉識別的例子中,神經(jīng)網(wǎng)絡(luò)提取了臉部輪廓和五官的特征之后就可以判定是人臉,但是在一張圖片中,如果五官和臉部輪廓是分離的,按照卷積神經(jīng)網(wǎng)絡(luò)仍然有概率將圖片識別為人臉。第二例子,在自動駕駛中,視覺感知需要完成目標(biāo)的跟蹤以及盲區(qū)的預(yù)測等任務(wù),這就需要在神經(jīng)網(wǎng)絡(luò)中具備處理時間序列的信息。這就是在傳統(tǒng)的深度神經(jīng)網(wǎng)絡(luò)中的隱藏層中引入循環(huán),也就是在每一個隱藏層上的感知機(jī)都有上一時刻的隱藏層上而所有記憶連接,在輸出層的體現(xiàn)除了輸出當(dāng)前時刻的輸入信息以外,又加入了之前某時刻的輸出相關(guān)。這樣一來,在感知算法層面可以實現(xiàn)時間和空間的計算和擴(kuò)展,物理中的體現(xiàn)即為維度的處理過程。循環(huán)神經(jīng)網(wǎng)絡(luò)的弊端在于硬件需要更大的緩存同時整個網(wǎng)絡(luò)對數(shù)據(jù)的并行處理能力下降從而限制計算效率。
在物理領(lǐng)域,一般機(jī)械效率的計算是輸出功與輸入功的百分比,做功的多少也是和時間和空間緊密相關(guān)。而在算法領(lǐng)域,算法的效率分析主要分為兩類,第一類是時間效率,也就是時間復(fù)雜度,主要是衡量算法的運(yùn)行速度;第二種是空間效率,也就是空間復(fù)雜度,主要衡量運(yùn)行算法所需要的額外空間,典型的例如硬件存儲。無論是物理還是數(shù)字算法都在時間和空間的維度進(jìn)行優(yōu)化,提升系統(tǒng)的運(yùn)轉(zhuǎn)效率,同時這兩個維度也是一切系統(tǒng)和產(chǎn)品設(shè)計最本源的出發(fā)點。在感知算法層面,空間的體現(xiàn)就是泛化性,時間的體現(xiàn)就是并行計算效率。小模型的時代,神經(jīng)網(wǎng)絡(luò)只能處理標(biāo)準(zhǔn)過的物體進(jìn)行相似性比對,通過不斷地對比學(xué)習(xí)完成識別任務(wù),存在存儲時間長度有限以及順序依賴的問題。
2017年谷歌發(fā)表論文提出Transformer網(wǎng)絡(luò)架構(gòu),其基本思想是假設(shè)一個有邏輯的序列,關(guān)鍵是為每一個元素(token)找到其他元素(token)的關(guān)系權(quán)重。Transformer網(wǎng)絡(luò)架構(gòu)最早是在自然語言處理領(lǐng)域大殺四方,自然語言處理是一個序列任務(wù),Transformer網(wǎng)絡(luò)架構(gòu)處理自然語言處理中有天然的優(yōu)勢。2020年,Vision transformer網(wǎng)絡(luò)將圖片按序列切成小片后再輸入到transformer模型架構(gòu)中,標(biāo)志著transformer正式進(jìn)入計算機(jī)視覺感知領(lǐng)域。從語言語音處理到視覺圖像處理,也是視覺感知技術(shù)從規(guī)則經(jīng)驗到數(shù)據(jù)驅(qū)動的過程,語言處理的本質(zhì)是信號的處理,Transformer網(wǎng)絡(luò)架構(gòu)的應(yīng)用將語言語音和視覺圖像集中到了統(tǒng)一的基礎(chǔ)框架之下,再次凸顯出物理方法在數(shù)字算法領(lǐng)域的應(yīng)用。Transformer網(wǎng)絡(luò)架構(gòu)引入了注意力機(jī)制,只對重要的信息關(guān)注而非全部的信息,在時間性方面具有更高的并行計算效率,在空間性能方面具有更強(qiáng)的泛化性。
2021年特斯拉汽車在AI day上展示了Transformer網(wǎng)絡(luò)架構(gòu)在自動駕駛領(lǐng)域的應(yīng)用,預(yù)示著自動駕駛視覺感知技術(shù)正式進(jìn)入大模型時代。
自然語言處理和圖像識別二者都可以統(tǒng)一在信息論的技術(shù)框架之下,而自然語言是一個時間序列的輸入,而圖像識別會涉及到維度空間的變化,理解維度的變化也就是認(rèn)知世界坐標(biāo)的變化。BEV鳥瞰圖是將三維視角進(jìn)行降維,以“上帝視角”描述感知物理世界的坐標(biāo),所以不僅僅是應(yīng)用在純視覺、也可以是多源傳感器融合甚至在車路協(xié)同中。也就是說,BEV+Transformer網(wǎng)絡(luò)架構(gòu)的大模型在一定程度上可以解決自動駕駛感知的時間性和空間性的問題,感知效果將會有質(zhì)的提升,但是是否會成為終極的自動駕駛感知方案仍然需要產(chǎn)品和技術(shù)發(fā)展的驗證。
從特斯拉汽車到國內(nèi)自動駕駛相關(guān)的企業(yè)的策略中可以看出,自動駕駛的下一個競爭場景是城市輔助駕駛,相比以前高速場景,城市場景首先是出現(xiàn)頻率更高,用戶更加剛需;其次城市場景面臨的長尾問題更加復(fù)雜,更加能體現(xiàn)技術(shù)的領(lǐng)先性;最后城市場景更加偏向C端市場,這就意味著對自動駕駛系統(tǒng)的成本約束更大。BEV+Transformer網(wǎng)絡(luò)架構(gòu)的大模型現(xiàn)階段可以在底層技術(shù)上提高算法效率同時增加了算法的可擴(kuò)展性,下一步需要考慮的就是成本問題,在自動駕駛系統(tǒng)上做減法。
第一階段、降低高精度地圖的輸入權(quán)重。首先有個大前提,所有的智能體一定是需要地圖的,地圖是理解物理世界的空間分布、相關(guān)關(guān)系和發(fā)展趨勢的重要手段。車載高精度地圖數(shù)據(jù)規(guī)模巨大,制圖和更新耗費資源較多,地圖的精度和系統(tǒng)的成本出現(xiàn)博弈。在BEV空間坐標(biāo)下,自動駕駛車輛通過將不同視角的視覺圖像統(tǒng)一轉(zhuǎn)換到上帝視角,相當(dāng)于實時生成地圖信息,為決策規(guī)劃提供道路拓?fù)湫畔?。所以,行業(yè)內(nèi)“輕地圖、重感知”成為自動駕駛當(dāng)前的主流方案。例如小鵬汽車,增加車載算力,利用多相機(jī)和雷達(dá)數(shù)據(jù)融合,直接輸出BEV下交通參與者的靜態(tài)和動態(tài)信息,一定程度上具備了實時生成地圖的能力。這一點小鵬汽車、毫末智行等國內(nèi)眾多的視覺方案和特斯拉是相似的。解決一個問題,新的問題又出現(xiàn)了,純視覺方案的******的問題在于在訓(xùn)練集中沒有出現(xiàn)過的物體,系統(tǒng)是無法識別的,也就意味著現(xiàn)階段的純視覺技術(shù)一定會有約束性,長尾問題一直存在。
第二階段、占用網(wǎng)絡(luò),將視覺識別體素化。2022年特斯拉汽車在AI day上展示了Occupancy Network新一代的視覺感知技術(shù),先將三維空間劃分為體素(小立方體),再去預(yù)測每個體素是被占用還是空閑,通過體素的概率值預(yù)測可行駛區(qū)域。BEV是一個2D的圖像空間,而占用網(wǎng)絡(luò)是升級為3D的處理空間,這樣就可以通過視覺技術(shù)彌補(bǔ)部分激光雷達(dá)的作用。并且在特斯拉汽車在HW4.0中預(yù)留了4D毫米波雷達(dá)接口,這是彌補(bǔ)視覺算法中識別物的高度信息。
第三階段、基于大模型的端到端自動駕駛模型。端到端的自動駕駛系統(tǒng)本質(zhì)目標(biāo)是建立一個驅(qū)動模型,以時間為序列將輸入信息映射到控制執(zhí)行側(cè)。在自動駕駛行業(yè)初期,2016年英偉達(dá)發(fā)表論文《End to End Learning for Self-driving Cars 》介紹了實現(xiàn)車道保持功能的端到端模型。一時間端到端的方法成就了眾多的自動駕駛demo車,然而面對嵌入式量產(chǎn)成本和可解釋性的要求,自動駕駛的端到端方法逐漸被冷落,這也是眾多自動駕駛創(chuàng)業(yè)公司面對量產(chǎn)出現(xiàn)的根本性的難題。
大模型在視覺感知領(lǐng)域的興起又一次將端到端的方法引入到自動駕駛行業(yè)。2023年CVPR******論文《Planning-oriented Autonomous Driving》(以路徑規(guī)劃為導(dǎo)向的自動駕駛),論文首次提出感知決策一體化的自動駕駛通用大模型UniAD,開創(chuàng)了以全局任務(wù)為目標(biāo)的自動駕駛大模型架構(gòu)先河,提高了自動駕駛系統(tǒng)的擴(kuò)展性。在今年CVPR的workshop中,特斯拉汽車的感知負(fù)責(zé)人也發(fā)表演講,介紹了通過BEV網(wǎng)絡(luò)進(jìn)行特征提取后建立的基礎(chǔ)模型——World Model,然后可以通過微調(diào)來實現(xiàn)下游任務(wù),這種方法和語言大模型中的預(yù)訓(xùn)練+微調(diào)的范式很像,以World Model作為自動駕駛基礎(chǔ)模型下游任務(wù)包括占用、路面、物體、車道線、紅綠燈。雖然特斯拉汽車并沒有明確押注大模型的端到端自動駕駛方向,但是可以肯定的是他們一定也在這方面有探索嘗試,具體就看今年的AIday是否會有驚喜。
理想汽車在6月份的家庭科技日發(fā)布自動駕駛技術(shù)進(jìn)展,采用BEV大模型,實時感知和理解環(huán)境中的道路結(jié)構(gòu)信息,針對復(fù)雜路況、使用自研的神經(jīng)先驗網(wǎng)絡(luò)提前進(jìn)行路口神經(jīng)先驗網(wǎng)絡(luò)特征的提取和存儲,再與車端感知大模型融合得到感知結(jié)果。,針對信號燈識別,訓(xùn)練了端到端的信號燈意圖網(wǎng)絡(luò),用大模型可以實現(xiàn)端到端信號燈意圖識別。
從生物學(xué)的角度來看,端到端的方法更類似人類的信息處理過程。然而端到端需要大量的數(shù)據(jù)訓(xùn)練并且存在不可解釋性。這一點和當(dāng)年飛機(jī)的出現(xiàn)有點相似,鳥飛派和空氣動力學(xué)派最終勝出的是空氣動力學(xué)派。按照這種思路,端到端的方法將會是一條斷頭路,但是在AI時代,一切基礎(chǔ)原理都有可能被重構(gòu),所以未來自動駕駛是基于大模型的端到端還是從場景到駕駛行為的映射不好預(yù)測,唯一可以確定的就是大模型時代端到端方法也是一條探索自動駕駛的新途徑。
無論是自動駕駛產(chǎn)品還是底層算法,人類的目標(biāo)始終都是通過數(shù)字無限逼近真實物理世界,在科學(xué)的范疇之內(nèi),物理世界理論上是可以測量計算的,例如前面提到人的視覺可以處理90%的信息。然而人類的肉眼只能看到5%的世界,例如電磁波,超聲波這些視覺是無法感知到,所以作為一個機(jī)器智能體,應(yīng)該是在時間維度和空間維度領(lǐng)先于人類,而不是和人類持平。作者: