導讀:“未來經過充分驗證之后,我們不做(感知結果和地圖信息之間的)二選一了,我們相信這個(實時感知的)結果。”毫末智行技術副總裁艾銳向《電動汽車觀察家》表示。
2022年,很多智能駕駛的頭部玩家都提出要在城市領航中“重感知、輕地圖”。但最后身體誠實,最后落地的方案仍需在高精地圖適用范圍內運行。
城市領航能否脫開地圖?毫末認為是可以的。
2025年中國高階輔助駕駛搭載率將達到70%。2023年,僅依靠普通導航地圖的能力的毫末城市NOH將在車型上量產上市,預計2024年上半年落地城市達到100個。
同時,毫末智行董事長張凱表示,以重感知技術為主,主要依托視覺方案的智駕系統將可以在中低算力的車端平臺上部署,這將使得高級別智能駕駛系統有可能成為中端價位車型的標配。
2022年搭載毫末城市NOH的魏牌摩卡激光雷達版曾與華為、小鵬爭奪城市領航功能的首發名額,但最終未能成型。如今毫末又立下2024年的百城目標,是否又會是一個“宣傳話術”?更重要的是,城市領航要如何脫開地圖?
一、泛化前先輕地圖
盡管目前華為、小鵬面向小批量客戶推送的城市領航功能仍需采用高精地圖,但“輕地圖”仍是行業共識。華為將于今年年中推出類似眾包模式的輕地圖方案,小鵬汽車也表示XPILOT 4.0在實現初步閉環后,會采用輕地圖方案。
之所以要“輕地圖”,一方面是由于高精地圖的鮮度問題。
目前高德、四維圖新、百度等企業已經能夠提供覆蓋全國高速公路、全國城市快速路甚至普通城市路段的高精地圖。但大部分一季度一更新的“鮮度”完全無法滿足城市領航的需求。
而且,在高精地圖政策要求下,目前只有北京、上海、廣州、深圳、杭州、重慶等六大城市開展智能網聯汽車高精度地圖應用試點。
另一方面則是成本問題。
目前包括華為在內多家智能駕駛玩家擁有甲級或乙級地圖測繪資質,但高精地圖繪制成本高昂讓人望而卻步。
作為參考,2018年,美國無人駕駛汽車高精地圖技術公司DeepMap連續投資4.5億美元用于開發。此外,MapBox、Carmera、Civil Maps等企業的開發費用也在2.272億美元(2017年),2000萬美元、1700萬美元不等。
這樣的成本顯然與大規模落地智駕功能,獲得大量數據推動系統迭代的發展模式相悖。
張凱告訴《電動汽車觀察家》,毫末對中端價位車型的定義是在12-15萬元和15-25萬元價格區間內的車型。毫末在下一代智能駕駛平臺的計劃中布局了中低價位車型適配,其中1500元左右的成本能夠實現行泊一體,高速HWA(LCC類功能);2000元左右的方案則可以實現高速NOH的功能。
這樣的成本對感知和計算硬件價格就提出了較高的要求。
艾銳表示,毫末計劃未來在20-30Tops算力的平臺上實現一定精度的NOH功能。
為此,需要新的使用地圖的方式。
地圖有兩種用法:一種是顯式的,先建成離線地圖用于實時調用,作為先驗信息供系統決策時使用。當感知結果和地圖信息不吻合時,系統需要按照預先設置的邏輯規則:如果怎么樣就信誰,進行二選一的選擇。
另一種則是隱式的,將普通地圖信息作為先驗輸入到模型里,讓模型去糾錯。好比人類開車時不會看到死胡同后,還繼續聽從導航前進的指令。
“所以我們希望的是模型具有這個能力由此可以避免二選一。(隱式的)方法理論上來說天花板更高,但是難度更大。”艾銳表示。
未來,毫末會在落地城市內畫出一片區域,明確告知是否可以激活城市領航功能。其區域范圍或許基于區域內的數據量和道路復雜度來決定。
二、核心算法的進步支撐
核心算法的進步是毫末關于立下2024年百城落地城市領航的基礎。
在近期的AI DAY上,毫末發布了MANA的視覺自監督、多模態互監督、3D重建、動態環境,以及人駕自監督認知五大模型。
其中,多模態互監督大模型和動態環境大模型是應用于車端,改進毫末MANA感知框架的大模型。
多模態互監督大模型從效果上類似于特斯拉在去年發布的占用網絡模型,其核心通過視覺數據來對周圍空間進行實時建模,構建出只有長寬高這樣的結構信息,但沒有“公交站”、“水馬”、“乘用車”、“行人”這樣語義信息的空間結構。
由此可直接規避道路上已經被占用的位置,規劃出可行駛的行車空間。
其中,由于不用對感知到的是什么進行判斷,可大幅減少對車端實時的算力需求,甚至是攝像頭的精度需求,由此可在低成本的感知和算力平臺上落地。
但另一方面,視覺只能給出2D信息,要加入深度和時間信息,就對數據量和模型調優提出的很高的要求。
此外,毫末的多模態互監督大模型和特斯拉的占用網絡在實現方法和效果上也有一定的不同。
特斯拉完全采用純視覺來實現,毫末則引入了能夠直接獲得3D信息的激光雷達信息來對視覺感知的結果進行監督。
艾銳表示,毫末希望未來能夠使用純視覺來實現和激光雷達一樣的效果。“雖然這輛車上沒有激光雷達,但是這個結果跑出來,相當于裝了一個高線速的激光雷達一樣。”
動態環境大模型則類似于特斯拉的語言車道線模型,通過對“看到”的道路進行語義理解,由此推斷構建出實時的道路拓撲結構。
由此,模型可以像熟悉路況的老司機一樣,在預先知道大概的路徑規劃和方向后,就可以根據自己看到的實際路面情況來進行實時的規劃行駛,徹底脫開高精地圖的束縛
艾銳表示,在經過充分驗證后,毫末希望未來動態環境大模型能夠作為置信方,對地圖信息進行矯正。“在計算機領域,如果你有充分數據的時候,你會發現讓模型去做選擇可能會比你總結的規律更合適。”
毫末官方表示,目前在保定、北京,毫末對于 85%的路口拓撲推斷準確率高達 95%。
目前,動態環境大模型還在云端訓練,尚未落地車端。
三、大規模投入基礎設施
想要依靠多模態互監督和動態環境大模型實現對激光雷達、高精地圖的依賴,前提是大規模的基礎設施投入。
大模型指參數達到10億級甚至更高的神經網絡模型,可以處理更加復雜和多樣化的任務。但同時,大模型需要海量數據進行訓練,而且因此模型和參數龐大,要想高效得完成訓練,就需要巨大的算力和計算速度才能施展開來。
為此,特斯拉不僅進一步加強其數據標注的自動化閉環,還自建的名為“道場”(DOJO)的大型智算中心。
同樣想走低成本、普適性路線的毫末也建立了相類似的基礎設施體系。
毫末建成了智算中心——“雪湖·綠洲”(MANA OASIS),每秒浮點運算達67億億次,存儲帶寬每秒2T,通信帶寬每秒800G,百億小文件隨機讀寫延遲小于500微秒,以適應大模型訓練對數據量、吞吐速度和計算效率的要求。
小鵬汽車發布的智算中心扶搖每秒浮點運算60億億次。神威·太湖之光超級計算機的峰值性能為12.5億億次/秒,持續性能為9.3億億次/秒。
67億億次的浮點算力,按照英偉達A100每片3.2萬美元的價格計算,成本約10億元左右(人民幣匯率按照6.8計算)。
毫末此前與阿里云合作智算中心,此次自建可見其決心。
自建智算中心之外,毫末還通過達模型對數據處理能力進行提升。
視覺自監督大模型一方面實現了包含時間標連續幀夾的一次性4D標注,而且對此前未進行連續標注的單幀數據進行了完善標注,將標注成本降低98%。
3D重建大模型能夠對真實場景進行仿真重建,在其中獲得海量corner case(長尾場景)。
人駕自監督認知大模型則類似于影子模式,通過人類駕駛員的接管反饋,訓練出更加擬人化的架勢策略。
張凱介紹,毫末除了長城體系內的客戶,已與其它品牌客戶達成合作意向。目前毫末仿真工作在研發過程的覆蓋率超過70%,研發效能較兩年前提升了8倍;在工程化中,可以做到智能駕駛產品100%的一次性過線率。
來源:電動汽車觀察家 作者:朱世耘