激光雷達和攝像頭在自動駕駛感知任務中的融合

發布日期：2022-01-16瀏覽量：3965

導讀：本篇文章介紹如何在感知任務中融合激光雷達和攝像頭，重點是目前主流的基于深度學習的融合算法。

一、前言

自動駕駛感知技術所采用的傳感器主要包括攝像頭，激光雷達和毫米波雷達。這些傳感器各有優缺點，也互為補充，因此如何高效的融合多傳感器數據，也就自然的成為了感知算法研究的熱點之一。本篇文章介紹如何在感知任務中融合激光雷達和攝像頭，重點是目前主流的基于深度學習的融合算法。

攝像頭產生的數據是2D圖像，對于物體的形狀和類別的感知精度較高。深度學習技術的成功起源于計算機視覺任務，很多成功的算法也是基于對圖像數據的處理，因此目前基于圖像的感知技術已經相對成熟。圖像數據的缺點在于受外界光照條件的影響較大，很難適用于所有的天氣條件。對于單目系統來說，獲取場景和物體的深度（距離）信息也比較困難。雙目系統可以解決深度信息獲取的問題，但是計算量很大。激光雷達在一定程度上彌補了攝像頭的缺點，可以精確的感知物體的距離，但是限制在于成本較高，車規要求難以滿足，因此在量產方面比較困難。同時，激光雷達生成的3D點云比較稀疏（比如垂直掃描線只有64或128）。對于遠距離物體或者小物體來說，反射點的數量會非常少。

如下圖所示，圖像數據和點云存在著巨大的差別。首先是視角不同，圖像數據是真實世界通過透視投影得到的二維表示，而三維點云則包含了真實世界歐式坐標系中的三維信息，可以投影到多種視圖。其次是數據結構不同，圖像數據是規則的，有序的，稠密的，而點云數據是不規則的，無序的，稀疏的。在空間分辨率方面，圖像數據也比點云數據高很多。

圖片來源于參考文獻[1]

自動駕駛感知系統中有兩個典型的任務：物體檢測和語義分割。深度學習技術的興起首先來自視覺領域，基于圖像數據的物體檢測和語義分割已經被廣泛和充分的研究，也有很多非常全面的綜述文章，這里就不贅述了。另一方面，隨著車載激光雷達的不斷普及以及一些大規模數據庫的發布，點云數據處理的研究這幾年來發展也非常迅速。本專欄之前的兩篇文章分別介紹了點云物體檢測和語義分割的發展情況，感興趣的朋友可以參考。下面以物體檢測任務為主來介紹不同的融合方法。語義分割的融合方法可以由物體檢測擴展得到，就不做單獨介紹了。

二、不同的融合策略

物體檢測的策略分為：決策層融合，決策+特征層融合，以及特征層融合。在決策層融合中，圖像和點云分別得到物體檢測結果（BoundingBox），轉換到統一坐標系后再進行合并。這種策略中用到的大都是一些傳統的方法，比如IoU計算，卡爾曼濾波等，與深度學習關系不大，本文就不做介紹了。下面重點來講講后兩種融合策略。

2.1 決策+特征層融合

這種策略的主要思路是將先通過一種數據生成物體的候選框（Proposal）。如果采用圖像數據，那么生成的就是2D候選框，如果采用點云數據，那么生成的就是3D候選框。然后將候選框與另外一種數據相結合來生成最終的物體檢測結果（也可以再重復利用生成候選框的數據）。這個結合的過程就是將候選框和數據統一到相同的坐標系下，可以是3D點云坐標（比如F-PointNet），也可以是2D圖像坐標（比如IPOD）。

F-PointNet[2]由圖像數據生成2D物體候選框，然后將這些候選框投影到3D空間。每個2D候選框在3D空間對應一個視椎體（Frustum），并將落到視椎體中所有點合并起來作為該候選框的特征。視椎體中的點可能來自前景的遮擋物體或者背景物體，所以需要進行3D實例分割來去除這些干擾，只保留物體上的點，用來進行后續的物體框估計（類似PointNet中的處理方式）。這種基于視椎的方法，其缺點在于每個視椎中只能處理一個要檢測的物體，這對于擁擠的場景和小目標（比如行人）來說是不能滿足要求的。

F-PointNet網絡結構圖

針對視椎的上述問題，IPOD[3]提出采用2D語義分割來替換2D物體檢測。首先，圖像上的語義分割結果被用來去除點云中的背景點，這是通過將點云投影到2D圖像空間來完成的。接下來，在每個前景點處生成候選物體框，并采用NMS去除重疊的候選框，最后每幀點云大約保留500個候選框。同時，PointNet++網格被用來進行點特征提取。有了候選框和點特征，最后一步采用一個小規模的PointNet++來預測類別和準確的物體框（當然這里也可以用別的網絡，比如MLP）。IPOD在語義分割的基礎上生成了稠密的候選物體框，因此在含有大量物體和互相遮擋的場景中效果比較好。

IPOD網絡結構圖

上面兩個方法分別通過2D圖像上的物體檢測和語義分割結果來生成候選框，然后只在點云數據上進行后續的處理。SIFRNet[4]提出在視椎體上融合點云和圖像特征，以增強視椎體所包含的信息量，用來進一步提高物體框預測的質量。

SIFRNet網絡結構圖

近年來，隨著3D物體檢測技術的快速發展，物體候選框的選取也從逐漸從2D向3D轉變。MV3D[5]是基于3D候選框的代表性工作。首先，它將3D點云映射到BEV視圖，并基于此視圖生成3D物體候選框。然后，將這些3D候選框映射到點云的前視圖以及圖像視圖，并將相應的特征進行融合。特征融合是以候選框為基礎，并通過ROI pooling來完成的。

MV3D網絡結構圖

AVOD[6]的思路也是在3D候選框的基礎上融合圖像和點云特征。但是原始候選框的生成并不是通過點云處理得到，而是通過先驗知識在BEV視圖下均勻采樣生成的（間隔0.5米，大小為各個物體類的均值）。點云數據用來輔助去除空的候選框，這樣最終每幀數據會產生8萬到10萬個候選框。這些候選框通過融合的圖像和點云特征進行進一步篩選后，作為最終的候選再送入第二階段的檢測器。因此，也可以認為AVOD的候選框是同時在圖像和點云上得到的。

AVOD網絡結構圖

2.2 特征層融合

決策+特征層融合的特點是以物體候選框為中心來融合不同的特征，融合的過程中一般會用到ROI pooling（比如雙線性插值），而這個操作會導致空間細節特征的丟失。另外一種思路是特征層融合，也就是直接融合多種特征。比如說將點云映射到圖像空間，作為帶有深度信息的額外通道與圖像的RGB通道進行合并。這種思路簡單直接，對于2D物體檢測來說效果不錯。但是融合的過程丟失了很多3D空間信息，因此對于3D物體檢測來說效果并不好。由于3D物體檢測領域的迅速發展，特征層融合也更傾向于在3D坐標下完成，這樣可以為3D物體檢測提供更多信息。

ContFuse[7]采用連續卷積（Continuous Convolution）來融合點云和圖像特征。融合過程在BEV視圖下完成。對于BEV上的一個像素（網格），首先在點云數據中找到其K個最鄰近的點，然后將這些3D空間中的點映射到圖像空間，以此得到每個點的圖像特征。同時，每個點的幾何特征則是該點到相應BEV像素的XY偏移量。將圖像特征和幾何特征合并作為點特征，然后按照連續卷積的做法對其進行加權求和（權重依賴于XY偏移量），以得到相應BEV像素處的特征值。對BEV的每個像素進行類似處理，就得到了一個BEV特征圖。這樣就完成了圖像特征到BEV視圖的轉換，之后就可以很方便的與來自點云的BEV特征進行融合。ContFuse中在多個空間分辨率下進行了上述的特征融合，以提高對不同大小物體的檢測能力。

利用連續卷積將圖像特征投影到BEV視圖

PointPainting[8]把點云投影到圖像語義分割的結果中，這與IPOD中的做法類似。但是，PointPainting沒有利用語義分割的結果來分離前景點，而是直接將語義分割的信息附加到點云上。這樣做的好處是，融合之后的數據還是點云（但是具有更為豐富的語義信息），可以采用任何點云物體檢測網絡來處理，比如PointRCNN，VoxelNet，PointPillar等等。

PointPainting的融合流程圖

PointPainting中附加給點云的是2D圖像的語義信息，這已經是高度抽象之后的信息，而原始的圖像特征則被丟棄了。從融合的角度來看，底層特征的融合可以更大程度的保留信息，利用不同特征之間的互補性，理論上說也就更有可能提升融合的效果。MVX-Net[9]利用一個實現訓練好的2D卷積網絡來提取圖像特征，然后通過點云和圖像之間的映射關系將圖像特征附加到每個點上。之后再采用VoxelNet來處理融合后的點特征。除了這種點融合策略，MVX-Net還提出了在voxel層次上融合，其主要的不同就在于將voxel而不是point投影到圖像空間，因此圖像特征是被附加在voxel之上。從實驗結果來看，point融合比voxel融合結果略好，這也進一步說明了較低的融合層次可能會帶來更好的效果。

MVX-Net中的Point融合方法

語義分割任務中的融合一般都是在特征層上進行，之前介紹的特征融合方法理論上來說可以用來進行語義分割。比如說，ContFuse在BEV網格上融合了圖像和點云特征，這個特征就可以用來進行網格級別的語義分割，而PointPainting將圖像特征附加到點云上，后續可以采用任何基于點云語義分割的算法來對每個點進行語義分類，甚至也可以進行實例分割和全景分割。

三、結果對比

這里我們來總結和定量的對比一下前面介紹的各種融合方法。準確度指標采用采用KITTI數據庫上3D車輛檢測中等難度的AP（70% IoU），速度指標采用FPS（運行的硬件不同，因此不具備完全的可比性）。下表中融合方法一欄中的D+F表示決策+特征層融合，之后的2D/3D表示是在2D圖像還是3D點云上提取物體候選框。F表示特征層融合，之后的BEV和Point表示融合的位置。總體來說，特征層融合的效果較好，基于Point的融合也優于基于BEV的融合。

作為對比，只基于點云數據的VoxelNet其AP為64.17，MVX-Net將圖像特征附加到點云上之后再采用VoxelNet就可以將AP提升到77.43，提升的幅度還是非常可觀的。PointPainting中的對比實驗也展示了類似的提升。下圖是分別在KITTI和NuScenes上進行的對比實驗。PointPillar，VoxelNet，和PointRCNN這三個點云物體檢測的常用方法在結合了圖像特征后都有了很大幅度的提升。尤其是對于行人和騎車的人這兩個類來說，提升的幅度更大，這也證明了分辨率較高的圖像特征對小目標的檢測有很大的幫助。

參考文獻

[1] Cui et.al., Deep Learning for Image and Point Cloud Fusion in Autonomous Driving: A Review, 2020.

[2] Qi et.al., Frustum Pointnets for 3d Object Detection from RGB-D Data, 2018.

[3] Yang et.al., IPOD: Intensive Point-based Object Detector for Point Cloud, 2018.

[4] Zhao et.al., 3D Object Detection Using Scale Invariant and Feature Re-weighting Networks, 2019.

[5] Chen et.al., Multi-View 3D Object Detection Network for Autonomous Driving, 2016.

[6] Ku et.al., Joint 3D Proposal Generation and Object Detection from View Aggregation, 2017.

[7] Liang et.al., Deep Continuous Fusion for Multi-Sensor 3D Object Detection, 2018.

[8] Vora et.al., PointPainting: Sequential Fusion for 3D Object Detection, 2019.

[9] Sindagi et.al., MVX-Net: Multimodal VoxelNet for 3D Object Detection, 2019.

來源：汽車電子與軟件，作者巫婆塔里的工程師

版權說明：“華夏EV網”轉載作品均注明出處，本網未注明出處和轉載的，是出于傳遞更多信息之目的，并不意味著贊同其觀點或證實其內容的真實性。如轉作品侵犯署名權，或有其他諸如版權、肖像權、知識產權等方面的傷害，并非本網故意為之，在接到相關權利人通知后將立即加以更正。

文章標簽：

本文網址：http://www.mgsoxford.com/newsshow-627.html

分享到：

近期活動

車訊智己L全面推送IMOS3.1.0軟件新版本，去高精地圖城市NOA新增65城
導讀：近日，智己汽車宣布為智己L6用戶全面推送IMOS3.1.0軟件新版本，新增65個城市的IMAD“去高精地圖城市NOA”功能。圖片來源：智...
瀏覽量：27362024-08-20
行業京津冀低空經濟產業聯盟在北京科技大學天津學院揭牌成立
導讀：8月17日，京津冀低空經濟產業聯盟在天津市寶坻區北京科技大學天津學院揭牌成立。同時，包括低溫電池生產線及配套工廠建設、京津中關村科技城...
瀏覽量：28012024-08-20
資本沃蘭特航空完成數億元A++++輪融資
導讀：8月19日，沃蘭特航空官方宣布，公司已于近日順利完成數億元A++++輪融資，本輪融資由北京機器人產業基金領投，京國瑞基金、首鋼基金旗下股權...
瀏覽量：25762024-08-20
行業東風日產與京東汽車簽署戰略合作協議，共創汽車服務新模式
導讀：8月19日消息，從東風日產官方處獲悉，其在近日與京東汽車簽署戰略合作協議。圖片來源：東風日產據悉，作為國內頭部汽...
瀏覽量：28932024-08-20