導讀:數據標注正在打開一個新的商業通路。最近一段時間,ChatGPT躥紅,引起一陣狂歡。上一次AI行業這么熱鬧,可能還是Alpha Go擊敗李世石。落到產業端,ChatGPT能給自動駕駛帶來什么?是大家更關注的話題。
幾天前,自動駕駛技術公司毫末智行宣布,將自動駕駛認知大模型升級為DriveGPT。這一個動作,讓我們看到了受ChatGPT鼓舞,自動駕駛圈對于AI突破性的想象和期待。
ChatGPT實現的技術支撐是 Transformer大模型以及人類反饋強化學習(RLHF)。其實早在2019年,特斯拉就將Transformer大模型引入到自動駕駛,而在今年年初,毫末也曾表示要借鑒ChatGPT的實現思路,打造人駕自監督認知大模型。
而不論是ChatGPT的突破,還是自動駕駛算法的進化,都離不開一個底層邏輯——基于海量數據的深度學習。這些數據不能是雜亂的,而是需要經過處理的數據,這樣才能夠幫助算法進行定向學習。
可以說,AI進化的需求,正在帶火一個行業——數據標注。
數據標注是一個非常有意思的行業,你可以說它高大上,因為它是人工智能的“老師”,你也可以說它接地氣,因為它是一個勞動密集型行業。
這種鏈接正在打開一個新的商業通路。
近日,我們訪談了數據標注公司愷望數據創始人兼CEO于旭、愷望數據產品項目副總裁張鵬。以愷望數據為案例,我們來聊一聊自動駕駛數據標注的行業痛點及前景。
愷望數據創始人兼CEO于旭及團隊
一、數據標注行業走向垂直化、專業化
數據、算力和算法是AI發展的三大基石。數據相當于AI算法的“飼料”,AI學習都要用標注好的數據進行訓練,只有經過大量的訓練,覆蓋盡可能多的場景才能得到一個好的模型。
數據標注是開發機器學習 (ML) 模型時預處理階段的一部分,它需要識別原始數據并添加標簽為機器學習模型指定上下文,幫助其做出準確的預測。
由于近幾年AI快速發展,催生了大量數據標注公司。據于旭介紹,目前,這個行業還處于比較分散的早期階段,大概存在700-800個玩家。
數據標注在有著市場高需求的同時,也面臨著諸多挑戰,比如成本高、效率差、標注質量參差不齊、市場需求不穩定等。
這兩年,隨著AI商業化落地加快,數據標注行業也正在走向規范化發展的階段。
于旭談到,數據標注正在朝著聚焦垂直化領域、專業化服務的方向發展。同時,數據標注產業正在由單模態向多模態標注發展,這將帶來更多機會。
此外,人工標注與自動標注相結合,提升質量和效率,將是行業發展的大趨勢。
二、95%自動駕駛數據標注依賴人工
自動駕駛正在進入到技術深水區,一些業內專家認為,基礎科學的突破才能帶來自動駕駛真正的質變。
ChatGPT正在打開一個思路,大模型訓練或許能帶來自動駕駛的突破。
數據標注的質量和數量對算法迭代產生重要影響,標注數據的數量越多、質量越高,模型的訓練和性能優化就越充分,性能就越好。
隨著對自動駕駛商業化落地的需求,自動駕駛數據標注的需求正在逐年攀升。據張鵬介紹,目前,數據標注以人工標注為主,機器標注為輔。而從整個自動駕駛行業的普遍水平來看,可以說,95%的數據標注還是以人工為主。
隨著算法模型的不斷進化,大模型訓練將越來越多地引領數據標注走向自動化,這會是一個明確的趨勢。
但這會是一個相當長的過程,于旭認為,時間周期可能在10-15年。
此外,大模型雖好,但需要大算力支撐,動輒就是數千萬、甚至上億級的投入,并不是每個企業都能玩得轉。
因此,愷望數據認為,自動標注與人工標注相結合,才是更具性價比的方案。
于旭談到,對自動駕駛數據生產而言,目前還離不開人力的階段,但未來最終還是會實現完全的自動化:
“就像是自動駕駛最終會走向L4、L5,但中間會經歷L2、L3,但L2、L3的經驗、可以使最終形態的自動駕駛更準確更科學的實現,人工智能一定是需要一個基于數據進行積累和建模、最終全面自動化和智能化的過程。這個不會是一簇即就,而是需要逐步實現?!?
她進一步表示,OpenAI用7年時間孕育了ChatGPT,在此之前,經歷了規模極大、基于人的數據,不斷的建模與優化。
科技公司領先技術的應用,最終還要面對解決交付、量產等商業化落地的考驗。
雖然人工智能是熱門焦點,也是大勢所趨,但從目前的實際的產業應用來看,在自動駕駛數據生產領域,多個環節都仍依賴”人為判斷及行為“在主導。
她認為,在目前階段,需要以自動化為目標,根據自動駕駛數據生產流程各環節的規則和邏輯、基于人的模式建模,逐步推動將數據生產從”成熟的人工模式“轉化為”成熟的人工智能模型“,解決大規模供應和成本的效益匹配問題。
因此,規?;娜肆祿徒涷炘诂F階段就非常重要。
三、提質降本是行業當前核心痛點
算法模型的訓練依賴人工標注,最終目標是取代人工標注。自動駕駛真正的成熟還有相當時日,因此這門生意的邏輯是成立的。
自動駕駛數據生產依賴規模化的人力供給,波峰波谷的人效配置及穩定、優質數據供應問題一直是行業內的最大問題。
對于賽道玩家來講,一個核心痛點在于上游需求散,下游產能不穩定,在上下游管理上都存在優化空間。
另一個痛點在于,數據標注是一個價格敏感的行業,在保障數據處理質量同時做到降本,是整個行業的期待方向。
也就是說,需求方的痛點在于如何降成本,供給方則希望能夠穩定、規范化、可持續的推進業務。兩方的需求都有賴于行業規范化。
數據生產流程包括對需求規則的解讀、數據任務拆分、人員匹配,也包括在生產管理過程進行產能監管、質量監管、效率監管,有些部分可以實現全自動化,但有些部分、尤其是需要人為判斷的部分,還有待更多成熟的模型建成,才能逐步實現自動化。
目前在行業內的技術方案,多數是關注解決預標注這個環節的效率,而愷望數據認為,現階段要持續實現穩定的低價數據供應,關鍵是在通過“自動化技術+人力運營管理”的部署,來提升全生產及管理流程的全局效率,進一步提供規模化的穩定低價數據供應。
目前,愷望數據從兩方面入手來解決這個痛點。
一方面,基于“自動化產線+規模化人力”策略,愷望數據推出了自動化數據產線,通過SaaS平臺、算法、各板塊建模等工具,將每個版塊原子化拆分,進而優化每個環節效率。據介紹,目前已可以實現成本降低超過20%。
另一方面,為了保證人力資源的規?;?、穩定性,愷望數據也在推進校企生態合作,與全國20多家實訓基地建立了合作,培訓逾千位數據標注員。
可以說,ChatGPT拉火了整個AI賽道,并將帶動上下游企業快速發展,站在創業的風口上,像愷望數據一樣的創業公司,能夠在這一波浪潮下,創造出什么樣的新模式和新價值,還是非常值得期待的。
來源:賽博汽車 作者:肖瑩