自動駕駛中大火的AI大模型中有哪些研究方向？

發布日期：2024-02-02瀏覽量：2410

導讀：隨著自動駕駛行業發展對于大數據量處理的強大需求，其要求處理數據的模型需要不斷積累豐富的處理經驗。自動駕駛中的大模型處理作為當前 AI 領域最為火熱的前沿趨勢之一，可賦能自動駕駛領域的感知、標注、仿真訓練等多個核心環節。同時，也可以有效的提升感知精確度，有利于后續規劃控制算法的實施，促進端到端自動駕駛框架的發展。

實際上，要想在自動駕駛中應用好大模型訓練和學習，就必須為其建立夯實的理論基礎，盡量規避其所帶來的負面效應。因為，大模型建得越來越大，結構種類、數據源種類、訓練目標種類也越來越多，這些模型的性能提升到底有多少？在哪些方面我們仍需努力？

本文將針對大模型學習中可能遇見的問題進行分析梳理，以幫助開發者在利用大模型在自動駕駛場景處理中學習更好的策略，利用有關大模型性能評價的問題，制定一個科學的標準去判斷大模型的長處和不足。比如可以通過逐層匯集模型在不同指標、數據集、任務和能力上的得分系統地評估模型在不同方面的表現，在大模型應用中擇優避短。要講清楚這些問題，首先我們需要從“what”、“how”、“why”三個層面做引導分析。

大模型為何是智駕AI發展的必然？

為了講清楚這個問題，我們這里以最早且應用最好的特斯拉為例說明整個技術變遷過程中如果利用大模型進行有效訓練和學習的。

實際上，特斯拉在整個研發領域上經歷了4個階段的技術變遷：

第一階段：使用常規的骨干網結構，采用2D檢測器進行特征提取，訓練數據為人工標注。這是一種相對比較原始和傳統的模型學習和訓練方式；

第二階段：采用了HydraNet結構，加入特征提取網絡BiFPN，將處理圖像從圖像空間直接轉化為向量空間。這種方式能夠有效的能執行多任務并行處理，相較于FPN，BiFPN能夠更加充分的進行特征融合并且賦予不同特征權重，這樣就在很大程度上避免了圖像到向量空間中映射偏差。

第三階段：為了更好的應用AI處理模型，主張去掉雷達，而使用純視覺方案進行環境感知。并且在圖像處理中加入Transformer，骨干網結構中加入了RegNet，同時數據標注中引入自動標注算法。這樣更加簡單、易理解，不僅解決了CNN算法在BEV遮擋區域的預測問題，保證在降低高復雜計算量的同時提升算法性能和準確度。此外，也能夠快速得到高精度地圖數據。

第四階段：在時序感知方面，增加了時空序列與時序信息融合等能力，在空間感知方面，使用占用網絡和Lanes Network。性能增強的AI大模型應用也不再受限于視覺感知的處理端口，為了增強汽車感知能力，考慮到4D雷達的效果與成本，AI大模型感知也會將相應的4D雷達點云作為輸入數據進行模型訓練。

實際上，縱觀整個特斯拉自動駕駛算法向AI大模型變遷的整個過程不難看出，其核心在于使用Occupancy Networks（占用網絡）進行感知以及使用Lanes Network（車道網絡）進行矢量地圖繪制。占用網絡需要使用多個攝像機拍攝的圖像進行3D處理，因此，它可以通過3D物體檢測的方式來估計行駛中其他環境目標、物體的位置和大小，即使是動態占用也可以計算出來并且運行效率較高。而車道網絡通過對離散空間的預測，能夠以自回歸的方式將所有的車道線節點進行生成，從而獲取更精確的車道線拓撲結構。這兩類典型的AI大模型學習算法機制是對自動駕駛領域中應用的最好體現。

實際上，大模型主流網絡架構Transformer是早在2017年就提出了。隨著模型規模增長，也不難看到其性能提升出現邊際遞減的情況，那么Transformer是不是AI大模型的終極框架，能否找到比Transformer更好、更高效的網絡框架呢？這是后續AI大模型值得探索的基礎問題。

實際上，深度學習的人工神經網絡的建立受到了神經科學等學科的啟發，面向下一代人工智能網絡架構，我們也可以從相關學科獲得支持和啟發。例如，有學者受到數學相關方向的啟發，提出非歐空間Manifold網絡框架，嘗試將某些幾何先驗知識放入模型，這些都是最近比較新穎的研究方向。

也有一些研究方向偏向于首先建立空間狀態模型State Space Model（SSM）用于處理長距離依賴，提升自回歸推理速度和遠程推理性能；其次，構建動態響應系統Dynamical System（DS）從動力系統的角度看神經網絡的方法，該方法在 Delta Tuning Survey 中通過最優控制解釋 Delta調諧的方法等，這些計算方向偏向于嘗試尖峰神經網絡架構。

大模型如何進行訓練和學習？

業界發現大模型呈現出很多與以往統計學習模型、深度學習模型、甚至預訓練小模型不同的特性。常規的為大眾熟知的學習模型包括：少樣本/零樣本學習、情境學習、思維訓練等，還有一些先進一點的算法策略還未被公眾廣泛關注，這些被稱為德爾塔調整（Delta Tuning）。比如突發應對學習、適度預測、參數有效性學習、稀疏激活和功能分區特性等等。

以典型的AI感知大模型為例，當前以“BEV+Transformer”范式開始在自動駕駛領域得到廣泛使用。

首先，BEV統一了多模態數據處理維度，將多個攝像頭或雷達數據轉換至 3D 視角，再做目標檢測與分割，從而降低感知誤差，并為下游預測和規劃控制模塊提供更豐富的輸出。

其次，BEV實現時序信息融合，BEV 下的 3D 視角相較于 2D 信息可有效減少尺度和遮擋問題，甚至依靠真值信息采集則可通過先驗知識“腦補”被遮擋的物體，有效提高自動駕駛安全性。

最后，通過神經網絡直接完成端到端優化，統一將感知和預測放到3D 空間中進行計算，從而有效地降低傳統感知任務中感知與預測串行的誤差累積。

Transformer 的注意力（Attention）機制可幫助實現 2D 圖像數據至 3D BEV 空間的轉化。Transformer 的網絡結構在嫁接2D 圖像和 3D 空間時借鑒了人腦的注意力（Attention）機制，在處理大量信息時能夠只選擇處理關鍵信息，以提升神經網絡的效率，因此 Transformer 的飽和區間很大，Transformer 相比于傳統 CNN，具備更強的序列建模能力和全局信息感知能力，這樣對于AI大模型中的大數據訓練需求是十分有利的。

將BEV視覺處理中結合Transformer的策略主要是將一幅完整的圖像拆分為一系列不重疊的子圖，然后將這些子圖通過線性投影變化后輸入Transformer編碼器。Transformer編碼器由幾個自注意層和前饋層組成。自注意力機制允許網絡關注圖像中的相關補丁，而忽略不相關的補丁。卷積層用于降低圖像的空間分辨率，而自注意力層則捕獲了補丁之間的長程依賴關系。

大模型如何高效解決計算問題？

要想說清楚大模型如何高效的解決自動駕駛系統在環境探測、軌跡預測和行為決策中的處理過程，就需要從如下幾個角度進行全面分析。

1）模型訓練

隨著模型規模不斷增大（Scaling）的過程，如何掌握訓練大模型的規律，其中包含眾多問題，例如數據如何準備和組合，如何尋找最優訓練配置，如何預知下游任務的性能等等。這些KnowHow都是大模型需要關注的問題。

訓練模型是在收集到傳感器傳送回的圖像數據后，需先對數據進行清洗，再對其中的車輛、行人、道路標識、車道線等元素進行標注。相較于此前的人工標注，大模型通常采用自動標注的方式進行，這樣可以大幅提升工作效率。除感知層外，大模型還有望顯著提升后端訓練中數據清洗標注的效率，并助力生成新場景以賦能仿真訓練。

2）基礎運算效率

現在大模型隨著自動駕駛行業各車企逐漸將大數據采集閉環納入設計開發環節，這包含十億、百億甚至千億參數數據也會對計算和存儲成本產生巨大的消耗。因此，大模型的這種高效計算體系，會將計算能耗作為綜合設計和訓練人工智能模型的重要考慮因素，這也是勢在必行的。

要想解決大模型運算過程中的運算存儲資源問題，需要建立更加高效的分布式訓練算法體系，一些高性能的模塊算法被提出來了。比如，通過各種并行算法（模型、流水線）將大模型參數分散到不同的GPU計算單元，GPU自身可通過張量卸載、優化器卸載等技術將計算總體分解到不同的CPU和內存上。基于自動調優算法選擇分布式算子策略等，通過混合精度訓練利用Tensor Core提升模型訓練效率，這樣可以很好的降低顯存開銷。

3）推理效率

大模型推理是在模型訓練之后進行的，大模型一旦訓練好準備投入使用時，就需要充分考慮工程化思路對推理效率的要求。提升效率的方法有多種，其一是將訓練好的模型在不損失基礎性能的情況下進行模型壓縮。

如上圖所示，模型壓縮的過程包括模型剪枝、知識蒸餾、參數量化等。最后裁剪后的稀疏結構和MAC陣列匹配上，這樣就可以根據稀疏激活模式對神經元進行聚類分組，分組后的計算單元只需要調用少量神經元輸入模型即可完成計算，這樣便可以輕松提升矩陣計算效率。

4）如何高效適配下游任務

在自動駕駛對大模型的應用中不難看出，如何更好的使用訓練好的模型是非常重要的。考慮到模型多樣性，就需要更多的計算和存儲資源。實際上，如何將不太充分的車載計算資源更好的應用到大模型運算和適配中也是我們需要重點考慮的問題。對這種模型適配的探索可以從以下方案中提升模型適配效率。

方案一：提示學習

用附加上下文包裝原始輸入，使大模型執行預訓練任務，即統一訓練模型與下游任務接口，從而提升模型適配效率。將下游任務投影到預訓練目標處，這里可以舉個例子說明大模型如何進行提示學習的。為了提升智駕感知大模型對環境和人類意圖理解能力，可通過工程編寫合適的提示來激發模型輸出。我們在生成執行轉向指令并發送給執行端時，就需要產生能更好的適配下游處理模塊的指令，結合歷史轉向響應和手力矩參照模型化思路有效的進行轉向前饋指令微調（Instruction Tuning）就顯得比較重要了，這樣就可以在發送端考慮執行效率以便生成更有效的執行指令用于模型適配。

方案二：Delta微調

這種方式只針對大模型的部分關鍵參數進行微調，保留大部分參數不變。這種針對性的調諧可以最大限度的節省計算和存儲資源。特別是針對當基礎模型規模較大且特征較為集中時，這種優勢尤其明顯。

方案三：模型跟隨

這種方式是通過提示微調（Instruction Tuning）提升大模型意圖理解能力，這層意圖理解包含理解環境目標意圖和理解自車駕駛員輸入并進行反饋。同時，也可以通過提示工程編寫合適的觸發指令激活模型中對應的輸出。此外，對于一些復雜的駕駛任務，利用思維鏈等技術來控制模型生成也是一項重要的手段。

方案四：認知學習

大模型的高級認知能力體現在復雜任務的解決能力，有能力將從未遇到過的復雜任務拆解為已知解決方案的簡單任務，然后基于簡單任務的推理最終完成任務。實際上，大模型在理解復雜數據和場景方面，已經初步具備類人的推理規劃能力。在這個過程中，并不謀求將所有信息都已記錄在大模型中，而是讓大模型善于利用已有的工具模塊進行推理，標準化屬于稱之為“大模型工具學習范式”。該范式核心在于將專業工具與大模型優勢相融合，實現更高的準確性、效率和自主性。有望解決模型時效性不足的問題，增強專業知識，提高端到端自動駕駛的可解釋性。

寫在最后

大模型已呈現出強烈的通用性趨勢，具體體現為日益統一的Transformer網絡架構，以及各領域日益統一的基礎模型，這為建立標準化的大模型系統，使人工智能能力低門檻的部署到自動駕駛專業。同時，考慮到自動駕駛系統中通常需要處理來自不同傳感器類型數據。因此，從多種模態數據中學習更加開放和復雜的知識，將會是未來拓展大模型能力邊界及提升智能水平的重要途徑。從更多模態更大規模數據中學習知識，是大模型技術發展的必由之路。

現有的工作通常針對通用的深度神經網絡設計優化策略，如何結合Transformer 大模型的特性做針對性的優化有待進一步研究。未來，如何在大量的優化策略中根據硬件資源條件自動選擇最合適的優化策略組合，是值得進一步探索的問題。

來源：焉知汽車

版權說明：“華夏EV網”轉載作品均注明出處，本網未注明出處和轉載的，是出于傳遞更多信息之目的，并不意味著贊同其觀點或證實其內容的真實性。如轉作品侵犯署名權，或有其他諸如版權、肖像權、知識產權等方面的傷害，并非本網故意為之，在接到相關權利人通知后將立即加以更正。

文章標簽：

本文網址：http://www.mgsoxford.com/newsshow-4171.html

上一篇：福特將向車主免費提供充電適配器，可支持特斯拉充電標準
下一篇：大眾汽車成立人工智能實驗室

分享到：

近期活動

車訊智己L全面推送IMOS3.1.0軟件新版本，去高精地圖城市NOA新增65城
導讀：近日，智己汽車宣布為智己L6用戶全面推送IMOS3.1.0軟件新版本，新增65個城市的IMAD“去高精地圖城市NOA”功能。圖片來源：智...
瀏覽量：27352024-08-20
行業京津冀低空經濟產業聯盟在北京科技大學天津學院揭牌成立
導讀：8月17日，京津冀低空經濟產業聯盟在天津市寶坻區北京科技大學天津學院揭牌成立。同時，包括低溫電池生產線及配套工廠建設、京津中關村科技城...
瀏覽量：27982024-08-20
資本沃蘭特航空完成數億元A++++輪融資
導讀：8月19日，沃蘭特航空官方宣布，公司已于近日順利完成數億元A++++輪融資，本輪融資由北京機器人產業基金領投，京國瑞基金、首鋼基金旗下股權...
瀏覽量：25742024-08-20
行業東風日產與京東汽車簽署戰略合作協議，共創汽車服務新模式
導讀：8月19日消息，從東風日產官方處獲悉，其在近日與京東汽車簽署戰略合作協議。圖片來源：東風日產據悉，作為國內頭部汽...
瀏覽量：28912024-08-20