摘要:本文將對(duì)無(wú)人駕駛汽車感知系統(tǒng)的架構(gòu)與關(guān)鍵技術(shù)進(jìn)行簡(jiǎn)析。分為三大部分:感知系統(tǒng)基本介紹、傳感器配置與多傳感器深度融合、車載感知系統(tǒng)架構(gòu)、感知技術(shù)的挑戰(zhàn)。
一、感知系統(tǒng)基本介紹
Perception(感知)系統(tǒng)是以多種傳感器的數(shù)據(jù)與高精度地圖的信息作為輸入,經(jīng)過(guò)一系列的計(jì)算及處理,對(duì)自動(dòng)駕駛車的周圍環(huán)境精確感知的系統(tǒng)。
它能夠?yàn)橄掠文K提供豐富的信息,包括障礙物的位置、形狀、類別及速度信息,也包括對(duì)一些特殊場(chǎng)景的語(yǔ)義理解(例如施工區(qū)域,交通信號(hào)燈及交通路牌等)。
1、感知系統(tǒng)的構(gòu)成與子系統(tǒng)
傳感器:涉及到傳感器的安裝,視場(chǎng)角,探測(cè)距離,數(shù)據(jù)吞吐,標(biāo)定精度,時(shí)間同步等。因?yàn)樽詣?dòng)駕駛使用的傳感器比較多,時(shí)間同步的解決方案至關(guān)重要。
目標(biāo)檢測(cè)及分類:為了保證自動(dòng)駕駛的安全,感知系統(tǒng)需要達(dá)到近似百分之百的召回率及非常高的準(zhǔn)確率。目標(biāo)檢測(cè)及分類往往會(huì)涉及到深度學(xué)習(xí)方面的工作,包括3D點(diǎn)云及2D Image(圖片)上的物體檢測(cè)及多傳感器深度融合等。
多目標(biāo)追蹤:跟進(jìn)多幀的信息計(jì)算并預(yù)測(cè)障礙物的運(yùn)動(dòng)軌跡。
場(chǎng)景理解:包括交通信號(hào)燈,路牌,施工區(qū)域,以及特殊類別,比如校車,警車。
2、機(jī)器學(xué)習(xí)分布式訓(xùn)練基礎(chǔ)架構(gòu)及相關(guān)評(píng)價(jià)系統(tǒng)
數(shù)據(jù):大量的標(biāo)注數(shù)據(jù),這里包括3D點(diǎn)云數(shù)據(jù)及2D的圖片數(shù)據(jù)等。
3、傳感器詳解
目前自動(dòng)駕駛應(yīng)用的傳感器主要分為三類:激光雷達(dá)(LiDAR),相機(jī)(Camera),毫米波雷達(dá)(Radar)。
開(kāi)頭提到,感知系統(tǒng)的輸入為多種傳感器數(shù)據(jù)和高精地圖,而上圖展示了感知系統(tǒng)物體檢測(cè)的輸出結(jié)果,即能夠檢測(cè)車輛周圍的障礙物,如車輛、行人、自行車等,同時(shí)結(jié)合高精度地圖,感知系統(tǒng)也會(huì)對(duì)周邊的Background(環(huán)境背景)信息進(jìn)行輸出。
如上圖所示,綠顏色的塊狀代表一輛乘用車,橙色代表一輛摩托車,黃色代表一位行人,灰色則是檢測(cè)到的環(huán)境信息,如植被。
感知系統(tǒng)結(jié)合多幀的信息(上圖),還能對(duì)運(yùn)動(dòng)的行人和車輛的速度、方向、軌跡預(yù)測(cè)等進(jìn)行精確的輸出。
二、傳感器配置與多傳感器深度融合
了解了關(guān)于感知系統(tǒng)從輸入到輸出的大致介紹,接下來(lái),我簡(jiǎn)要介紹一下小馬智行第三代自動(dòng)駕駛系統(tǒng)PonyAlpha的傳感器安裝方案以及多傳感器深度融合的解決方案。
1、傳感器安裝方案
目前PonyAlpha傳感器安裝方案的感知距離能夠覆蓋車周360度、范圍200米以內(nèi)。
具體來(lái)看,這套方案用到了3個(gè)激光雷達(dá),在車的頂部和兩側(cè)。同時(shí),通過(guò)多個(gè)廣角的攝像頭來(lái)覆蓋360度的視野。遠(yuǎn)處的視野方面,前向的毫米波雷達(dá)以及長(zhǎng)焦相機(jī)將感知距離擴(kuò)到200米的范圍,使其可以探測(cè)到更遠(yuǎn)處的物體信息。這套傳感器配置能保證我們的自動(dòng)駕駛車輛在居民區(qū)、商業(yè)區(qū)、工業(yè)區(qū)這樣的場(chǎng)景進(jìn)行自動(dòng)駕駛。
2、多傳感器深度融合解決方案
2.1 多傳感器深度融合的基礎(chǔ)
多傳感器深度融合的方案首要解決的是將不同的傳感器的數(shù)據(jù)標(biāo)定到同一個(gè)坐標(biāo)系里,包括了相機(jī)的內(nèi)參標(biāo)定,激光雷達(dá)到相機(jī)的外參標(biāo)定,毫米波雷達(dá)到GPS的外參標(biāo)定等等。
傳感器融合重要前提是使標(biāo)定精度達(dá)到到極高水平,不論對(duì)于結(jié)果層面的傳感器融合還是元數(shù)據(jù)層面的傳感器融合,這都是必要的基礎(chǔ)。
通過(guò)上圖你會(huì)發(fā)現(xiàn),我們的感知系統(tǒng)將3D的激光點(diǎn)云精準(zhǔn)地投射到影像上,可見(jiàn)傳感器標(biāo)定的精度是足夠高的。
2.2 不同傳感器的標(biāo)定方案
整個(gè)傳感器標(biāo)定的工作基本上已做到完全自動(dòng)化的方式。
首先是相機(jī)內(nèi)參的標(biāo)定(上圖),這是為了修正由相機(jī)自身特性導(dǎo)致的圖像扭曲等。相機(jī)內(nèi)參的標(biāo)定平臺(tái)使每一個(gè)相機(jī)能夠在兩到三分鐘之內(nèi)完成傳感器的標(biāo)定。
其次是激光雷達(dá)與GPS/IMU的外參標(biāo)定(上圖),激光雷達(dá)的原始數(shù)據(jù)是基于雷達(dá)坐標(biāo)系,因此我們需要將點(diǎn)由雷達(dá)坐標(biāo)系轉(zhuǎn)換為世界坐標(biāo)系,這就涉及到激光雷達(dá)與GPS/IMU相對(duì)位置關(guān)系的計(jì)算。我們的標(biāo)定工具在室外通過(guò)優(yōu)化的方案,能夠快速找到最優(yōu)的位置關(guān)系。
第三是相機(jī)到激光雷達(dá)的融合(上圖)。激光雷達(dá)的感知環(huán)境是360度旋轉(zhuǎn)的方式,每旋轉(zhuǎn)一周是100毫秒,而相機(jī)是某一瞬時(shí)曝光,為了保證相機(jī)的曝光與激光雷達(dá)的旋轉(zhuǎn)保證同步,需要對(duì)二者進(jìn)行時(shí)間同步,即通過(guò)Lidar來(lái)觸發(fā)相機(jī)曝光。比如說(shuō),可以通過(guò)激光雷達(dá)的位置信息來(lái)觸發(fā)對(duì)應(yīng)位置相機(jī)的曝光時(shí)間,以達(dá)到相機(jī)與激光雷達(dá)的精確同步。
3D(激光雷達(dá))和2D(相機(jī))彼此互補(bǔ),二者更好的融合可使得感知得到更精確的輸出。
最后是毫米波雷達(dá)(Radar)與GPS/IMU的標(biāo)定(上圖),同樣是將Radar數(shù)據(jù)由Local(本地)坐標(biāo)系將其轉(zhuǎn)換到世界坐標(biāo)系,我們將通過(guò)真實(shí)的3D環(huán)境來(lái)計(jì)算Radar與GPS/IMU的相對(duì)位置關(guān)系。好的標(biāo)定結(jié)果能夠保證感知系統(tǒng)給出200米距離以內(nèi)障礙車的車道信息(如位于車道內(nèi)或壓車道線等)等。
下面這個(gè)demo簡(jiǎn)明生動(dòng)地展示了多傳感器深度融合的部分處理效果。
三、車載感知系統(tǒng)架構(gòu)
那么車載感知系統(tǒng)架構(gòu)是什么樣的?它的解決方案又是什么?
上圖展示了整個(gè)車載感知系統(tǒng)的架構(gòu)。首先激光雷達(dá)、相機(jī)、毫米波雷達(dá)三種傳感器數(shù)據(jù)須進(jìn)行時(shí)間同步,將所有的時(shí)間誤差控制在毫秒級(jí)。結(jié)合傳感器數(shù)據(jù),感知系統(tǒng)以幀為基礎(chǔ)(frame-based)進(jìn)行檢測(cè)(detection)、分割(segmentation)、分類(classification)等計(jì)算,最后利用多幀信息進(jìn)行多目標(biāo)跟蹤,將相關(guān)結(jié)果輸出。這個(gè)過(guò)程中將涉及到多傳感器深度融合和深度學(xué)習(xí)相關(guān)的技術(shù)細(xì)節(jié),我這里不做過(guò)多的討論。
感知系統(tǒng)的解決方案應(yīng)保證以下五點(diǎn):
◆ 首先是安全,保證近乎百分之百的檢測(cè)(Detection)召回率(Recall)。
◆ 精度(Precision)要求非常高,如果低于某個(gè)閾值,造成False Positive(誤報(bào)),會(huì)導(dǎo)致車輛在自動(dòng)駕駛狀態(tài)下行駛得非常不舒適。
◆ 盡量輸出所有對(duì)行車有幫助的信息,包括路牌,交通信號(hào)燈及其它場(chǎng)景理解的信息。
◆ 保證感知系統(tǒng)的高效運(yùn)行,能夠近實(shí)時(shí)處理大量的傳感器數(shù)據(jù)。
◆ 可擴(kuò)展性(Scalability)也很重要。深度學(xué)習(xí)(Deep learning)依賴大量數(shù)據(jù),其訓(xùn)練模型的泛化能力對(duì)于感知系統(tǒng)非常重要。未來(lái),我們希望模型(model)和新算法有能力適配更多的城市和國(guó)家的路況。
四、感知技術(shù)的挑戰(zhàn)
感知精度與召回率相平衡的挑戰(zhàn)
上圖展示了晚高峰時(shí)期十字路口的繁忙場(chǎng)景,此時(shí)有大量行人、摩托車穿過(guò)十字路口。
通過(guò)3D點(diǎn)云數(shù)據(jù)(上圖),能夠看到此時(shí)對(duì)應(yīng)的感知原始數(shù)據(jù)。
這里挑戰(zhàn)是,經(jīng)過(guò)計(jì)算處理后,感知系統(tǒng)需要在這樣環(huán)境下輸出所有障礙物的正確的分割(segmentation)結(jié)果和障礙物類別。
除了繁忙的十字路口,感知系統(tǒng)在處理一些特殊的或者惡劣的天氣條件,也面臨不小挑戰(zhàn)。
突降暴雨或者長(zhǎng)時(shí)間降雨往往會(huì)造成路面積水,車輛經(jīng)過(guò)自然會(huì)濺起水花。上方視頻中白色點(diǎn)云展示了激光雷達(dá)檢測(cè)到其他車輛經(jīng)過(guò)濺起的水花并對(duì)其進(jìn)行filter(過(guò)濾)的結(jié)果。如果感知系統(tǒng)不能對(duì)水花進(jìn)行準(zhǔn)確的識(shí)別和過(guò)濾,這會(huì)對(duì)自動(dòng)駕駛造成麻煩。結(jié)合激光雷達(dá)與攝像頭(Lidar&Camera)的數(shù)據(jù),我們的感知系統(tǒng)對(duì)水花有很高的識(shí)別率。
1、長(zhǎng)尾場(chǎng)景挑戰(zhàn)
1.1 灑水車
上圖是我們?cè)诼窚y(cè)時(shí)曾遇到的兩類灑水車(上圖)。左邊灑水車采用向上噴的霧炮,而右邊是向兩側(cè)噴灑的灑水車。
人類司機(jī)遇到灑水車時(shí),可以很容易做出判斷并超過(guò)灑水車,但是對(duì)于感知系統(tǒng)來(lái)說(shuō),則需要花一定時(shí)間去處理和識(shí)別這類場(chǎng)景和車輛,我們的自動(dòng)駕駛在遇到類似場(chǎng)景已獲得更優(yōu)的乘坐體驗(yàn)。
1.2 小物體的檢測(cè)
小物體檢測(cè)的意義在于,面對(duì)意想不到的路測(cè)事件,比如流浪的小貓、小狗突然出現(xiàn)馬路上,感知系統(tǒng)對(duì)這類小物體能夠有準(zhǔn)確的召回,以保證小生命的安全。
1.3 紅綠燈
隨著越來(lái)越多地區(qū)和國(guó)家開(kāi)展自動(dòng)駕駛路測(cè),感知系統(tǒng)在處理交通信號(hào)燈總會(huì)遇到新的長(zhǎng)尾場(chǎng)景。
例如,逆光的問(wèn)題(上圖)或者突然從橋洞中駛出后相機(jī)曝光的問(wèn)題,我們可以通過(guò)動(dòng)態(tài)調(diào)整相機(jī)的曝光等方法來(lái)解決問(wèn)題。
還有紅綠燈倒計(jì)時(shí)的場(chǎng)景(上圖),感知系統(tǒng)可以識(shí)別出倒計(jì)時(shí)的數(shù)字,這樣能夠讓自動(dòng)駕駛車輛在遇到黃燈時(shí)/前,給出更優(yōu)的規(guī)劃決策應(yīng)對(duì),優(yōu)化乘車體驗(yàn)。
雨天時(shí),攝像頭(照相機(jī))會(huì)水珠密布(上圖),感知系統(tǒng)需要處理這類特殊氣候條件下的場(chǎng)景,準(zhǔn)確識(shí)別紅綠燈。
一些地區(qū)使用的紅綠燈帶有進(jìn)度條(上圖),要求感知系統(tǒng)能夠識(shí)別進(jìn)度條的變動(dòng),這樣可以幫助下游的規(guī)劃決策模塊在綠燈將變黃時(shí),提前給出減速。
來(lái)源:智能車情報(bào)局、智車科技