自動駕駛之點雲與圖像融合綜述－mhetapeerb4的部落格FS

接著一篇去年的綜述來開始中斷的學習之旅《Deep Learning for Image and Point Cloud Fusion in Autonomous Driving： A Review》。 這篇文章總結了基於圖像和點雲基於深度學習的數據融合方法，包括深度估計、目標檢測、語義分割、目標分割、感測器在線標定等方面的應用。這裡就來學習一下相關的知識點，下圖就是基於圖像和點雲融合的感知任務及其相關部分一攬表。

雙效犀利士雙效犀利士藥局雙效犀利士香港雙效犀利士副作用雙效犀利士真偽

深度學習

a）基於圖像的深度學習方法

卷積神經網路（CNNs）是目前（2020年，因為2021年VIT大火）對圖像理解和處理的最有效的模型之一。與MLP相比，CNN具有平移不變性，利用較少的權重和層次模式（卷積層、BN層、relu層、pooling層），可以以抽象的層次和學習能力完成對圖像特徵的提取和高階語義的學習。

b）基於點雲的深度學習方法

對於點雲的方法，有很多種類型，如

b1) Volumetric representation based，即將點雲按照固定的解析度組成三維網格，每個網格的特徵都是學出來的;這種方法可以很輕鬆的獲取到網格內部結構，但在體素化過程中，失去了空間解析度和細粒度的三維幾何形狀;

b2) Index/Tree representation based，是將點雲劃分為一系列不平衡的樹，可以根據區域的點密度進行分區，對於點密度較低的區域具有較低的解析度，從而減少不必要的記憶體和計算資源;

b3）2D views representation based，這種方式比較好理解，就是將點雲按照不同的視圖投影成深度圖，然後利用CNN對圖像進行檢測;

b4) Graph representation based，這種就是將點雲表示為圖，在空間或者光譜域上實現卷積操作。（這種吧，不太好評價）

b5) Point representation based，這種直接適用點雲，而不是將其轉換為中間數據進行表示。這個也是目前點雲深度學習的最流行的方式。如點網方法（PointNet，PointNet++，RandLA-Net等），點卷積是直接表徵點之間的空間關係，其目的是將標準的二維離散卷積推廣到三維連續空間中，即用連續權重函數替代離散權重函數，如PointConv、KPConv等。

深度估計

所謂深度估計，就是將稀疏的點雲通過上採樣方法生成稠密有規則地深度資訊，這樣生成的點雲方便後續感知模組的應用，也能夠改善鐳射雷達掃描得到點雲的不均勻分佈。直接給出最近的深度估計發展歷程和相關方法

不管哪種方法，其核心就是將圖像的RGB資訊與點雲的3D幾何資訊相結合，從而使得圖像RGB資訊包含相關的3D幾何資訊。所以，圖像可以作為深度採樣的參考資訊。從上面的方法可以看出，其包含Mono-Lidar融合方法和Stereo-Lidar融合方法

Mono Camera and LiDAR fusion

Mono-Lidar包含信號級、特徵級、以及多層次融合：

其中信號級就是將點雲深度圖與圖像結合，形成RGBD圖像，然後將RGBD圖像送入網路中。這種適配的網路有很多種，如Sparse-to-dense（基於ResNet的自動編碼網路，但是真值比較難獲取）、Self-supervised sparse-to-dense（Sparse-to-dense的改進，但只對靜止物體有效，且輸出的深度模糊）、CSPN（卷積空間網路，可以直接提取與圖像相關的affinity 矩陣）、 CSPN++ （CSPN改進版，可以動態調整卷積核大小）。

特徵級融合就是分別將稀疏深度圖和點雲送入網路中，完成特徵的提取，如：《Depth completion and semantic segmentation》（就是將圖像和稀疏深度圖先由NASNet進行編碼處理，然後融合到共用解碼器中，獲得良好的深度效果）、Plug-and-Play（利用Pnp從稀疏深度圖中計算梯度並更新現有深度圖資訊）、《 Confidence propagation through cnns for guided sparse depth regression》（並行處理圖像與稀疏深度映射，並歸一化卷積來處理高度稀疏的深度和置信度）、《Self-supervised model adaptation for multimodal semantic segmentation》（將前面提到的單節段擴展到網路不同深度的多階段）、GuideNet（將圖像特徵與不同層次的稀疏深度特徵在編碼其中進行融合，缺乏有效的gt）。

多層次融合就是把前兩個做了一個融合。《"Sparse and noisy lidar completion with rgb guidance and uncertainty》（對RGBD數據和深度數據同時進行處理，然後根據置信圖進行融合）。

Stereo Cameras and LiDAR fusion

這種方法相對於Mono，就是利用stereo相機之間的視差獲取圖像的深度值，然後結合稀疏的點雲深度信息產生更精確的密集深度。 如《"High-precision depth estimation using uncalibrated lidar and stereo fusion》（兩階段CNN，第一階段採用鐳射雷達與Stereo的視差獲取融合視差，第二階段將融合視差與左RGB圖像融合在特徵空間中，以預測最終的高精度視差，然後再進行三維重建）、《 Noise-aware unsupervised deep lidar-stereo fusion》（不需要gt，直接適用圖像、點雲自身的損失進行端到端訓練，好處就是不太關注於點雲與圖像之間的對齊資訊）、類似的還有《Listereo： Generate dense depth maps from lidar and stereo imagery 》，但是不管哪種，由於stereo本身的局限性（基線、遮擋、紋理等），所以不太考慮用在自動駕駛中

Dynamic Object Detection

目標檢測（3D）的目標是在三維空間中定位、分類和估計有方向的邊界框。自動駕駛動態目標檢測，類別包括常見的動態道路物件（汽車、行人、騎車人等），方法主要有兩種：順序檢測和單步檢測。 基於序列的模型按時間順序由預測階段和三維邊界框（bbox）回歸階段組成。在預測階段，提出可能包含感興趣對象的區域。在bbox回歸階段，基於從三維幾何中提取的區域特徵對這些建議進行分類。然而，序列融合的性能受到各個階段的限制。另一方面，一步模型由一個階段組成，其中二維和三維數據以並行方式處理。下面兩幅圖，給出了3D檢測網路的時間線和經典網路架構圖。印度犀利士印度犀利士5mg哪里买印度犀利士ptt 印度犀利士哪里买

下面兩張表給出了在KITTI上3D檢測的對比結果以及動態檢測模

5A）基於2D的序列模型

所謂基於2D的序列模型，就是首先對圖片進行2D檢測/分割，生成ROI區域，然後將ROI投影到3D空間中（將圖像上的邊界框投影到點雲上，形成三維ROI空間;將點雲投影到圖像平面上，形成帶有點向的2D語義點雲）。

結果級：就是將2D的ROI來限制點雲的搜索空間，這樣可以顯著減少計算量，提高運行時間。如FPointNes《Frustum pointnets for 3d object detection from rgb-d data》（將圖像生成的2D邊界框投影到3D空間中，然後將產生的投影送入到PointNet中進行3D檢測）、《A general pipeline for 3d detection of vehicles》（利用基於模型擬合的方法過濾掉不必要的背景點，然後將過濾后的點送入網路中進行回歸）、RoarNet（利用《3d bounding box estimation using deep learning and geometry》將每個2Dbbox生成多個3D圓柱，然後利用PointNet的head去進行處理，並最終細化）。

上述方法都需要假設每個ROI區域內只包含一個感興趣的對象，對於擁擠的場景或者行人等不太適用。所以需要有改進版。解決方案就是用二維語義分割和region-wise seed proposal with point-wise seed proposals替代2D檢測器，如IPOD就是類似的方法，首先採用二維語義分割來過濾出背景點，留下的前景點雲保留了上下文資訊和細粒度的位置，然後送入到PointNet++中用於特徵提取和bbox的預測，這裡提出了PointsIoU來加速訓練和推理。

特徵融合：最直觀的就是將點雲投影到圖像上，然後利用圖像處理方法進行特徵提取，但輸出也是圖像級，對於3D空間的定位不是很準確。如DepthRCNN就是一種基於RCNN的二維對象檢測、實例和語義分割架構。《Cross modal distillation for supervision transfer》則是在圖像數據和深度圖像之間做遷移，當然還有其他，這一塊後續會專門介紹。印度犀利士心得印度犀利士香港印度犀利士真伪印度犀利士20mg 印度犀利士副作用

多級融合，這個其實是結果級融合與特徵級融合的結合，主要工作可以歸結為點融合（Pointfusion），點融合首先利用現有的2D檢測模型生成2D bbox，然後用於通過向圖像平面的投影點來定位通過方框的點，最後採用一個ResNet和一個PointNet結合的網路將點雲與圖像特徵結合來估計3D目標。類似的方案還很多，如SIFRNet、Pointsift。

5B）基於3D的模型

略（個人對這一塊很感興趣，會專門對提到的文章進行閱讀，見諒）。