毫末顧維灝:大語言模型加持,智能駕駛進入普世時代

2023-10-19     電駒

原標題:毫末顧維灝:大語言模型加持,智能駕駛進入普世時代

從率先使用超算中心,應用私有雲服務,到最早提出將GPT大模型技術賦能到智能駕駛領域,毫末的每一次預判和動作,都能給智能駕駛行業帶來新的啟示。

在DriveGPT狂奔200天之後,毫末智行於10月11日再次舉辦了AI DAY,以公布大模型賦能的階段性進展。關於本次AI DAY,主要內容涵蓋:

1、毫末發布了3款千元級產品,並帶領無圖NOH進入「白菜價」時代。

三款產品分別是HP170、HP370、HP570,價格在3000-8000元不等。作為對比,目前市場上車企能接受的智能駕駛軟硬體成本普遍在5000元至12000元。

2、毫末CEO顧維灝宣布,目前DriveGPT已篩選出了超過100億幀網際網路圖片數據集,480萬包含人駕行為的自動駕駛4D Clips,進一步升級引入多模態大模型,獲得識別萬物的能力;與NeRF技術進一步整合,渲染重建4D空間;藉助LLM(大語言模型),讓自動駕駛認知決策具備了世界知識。

3、產品層面,搭載毫末城市NOH功能的魏牌藍山將在2024年第一季度正式量產上市;小魔駝即將在2023年第四季度在商超履約配送場景實現盈利。

發布三款千元級無圖NOH產品

今年,「降本增效」成為整個汽車行業的主旋律,如何真正滿足主機廠的迫切需求,怎麼以低成本高性能實現高階智能駕駛功能的落地成為了當務之急。

張凱判斷,未來幾年行泊分體將逐步退出市場,更具性價比的行泊一體的域控方案將成為主流。

什麼是行泊一體?就是行車和泊車共用同一個域控制器,實現傳感器深度復用、計算資源共享,在提高用戶智駕體驗的同時,也幫助主機廠降本增效,大大提高了後者的開發效率。

張凱分享了一組數據,乘用車市場L2及以上智能駕駛滲透率達42.4%,2025年將達70%,並普及到10-20萬的主銷車型上;城市NOA迎來量產上車潮,目前占L2及以上輔助駕駛份額的17%,2025年將達70%。

至此,毫末發布了3款千元級產品,HP170、HP370、HP570,價格在3000-8000元。

至於功能區分方式也很清晰,即三款產品分別滿足高速/城市快速路、城市道路記憶行車,以及城市全場景駕駛輔助。

經過查閱,雖然毫末並未公布駕駛晶片,但這三套方案中的晶片有可能為地平線征程3、TI的TDA4,以及高通Ride的SA8650晶片,這種高中低採用不同晶片方案的策略,也為量產搭載更多款車型提供了條件。

1、價值3000元的NOH —— HP170

毫末HP170是3000元級別的高速無圖NOH(高速自動領航輔助駕駛),可實現行泊一體智駕,場景上覆蓋高速、城市快速路上的無圖NOH,短距離記憶泊車。

硬體配置上,算力5TOPS,傳感器方案標配1個前視相機、4個魚眼相機、2個后角雷達、12個超聲波雷達,靈活選裝1個前視雷達和2個前角雷達。場景上,可實現高速、城市快速路上的無圖NOH,短距離記憶泊車等功能。

因為系統算力5TOPS,所以一顆MCU就可以搞定,也不用高精度地圖,成本最優。

對於一些中低端車型,主機廠十分看重供應商的成本管控,甚至可以說,行泊一體功能的出現,很大程度就是由主機廠降本增效的需求驅動的。

2、記憶行車能力大大增強的NOH —— HP370

毫末官方宣稱,搭載HP370的產品僅需一次學習,就可完成用戶日常路線的記憶,且不依賴於車機的導航路線。HP370可實現高速、城快,以及城市內的記憶行車,免教學記憶泊車、智能繞障等功能。

毫末HP370使用了9個攝像頭,360°的感知能力更強。但也可以發現,毫末在硬體方面的思路也偏向於純視覺路線。

從硬體水平上來看,毫末370和五菱大疆KIVI這套方案更加接近,當然價格也確實接近,據網曝的信息,大疆這套駕駛輔助系統的成本在6000元以內。

3、未來落地100城—— HP570

頗受關注的毫末HP570是8000元級「極致性價比」的城市全場景無圖NOH產品,未來將在100+城市落地。

硬體配置上,算力可選72TOPS和100TOPS兩款晶片,傳感器方案標配2個前視相機、4個側視相機、1個後視相機、4個魚眼相機、1個前雷達、12個超聲波雷達,還支持選配1顆雷射雷達。

場景上,可實現城市無圖NOH、全場景輔助泊車、全場景智能繞障、跨層免教學記憶泊車等功能。

按照功能類型,HP570場景層面PK的是小鵬XNGP。不過,看硬體層面,小鵬要更強,同樣其成本也要遠高於8000 。

張凱強調:「HP570平台的歷史使命是打造行業內最具性價比的高階城市智駕產品。」

從標註到識別的跨越——DriveGPT大模型迎來重大升級

毫末將自動駕駛分為三個時代,在自動駕駛2.0時代,以小數據、小模型為特徵,以Case任務驅動為開發模式。而自動駕駛3.0時代,以大數據、大模型為特徵,以數據驅動為開發模式。

其中,自動駕駛3.0時代需要1億公里行駛數據。目前,毫末用戶輔助駕駛行駛里程已經達到8700多萬公里,預計到年底可達到這一目標。

基於8700萬公里行駛數據,目前毫末團隊已篩選出超過100億幀網際網路圖片數據集,480萬包含人駕行為的自動駕駛4D Clips。

隨著數據規模的增加,自動駕駛大模型需要不斷進化。

1、自動駕駛語義感知大模型

升級模型,是毫末實現認知能力增強的根本邏輯。毫末將感知模型中引入圖文多模態大模型,以完成4D向量空間到語義空間的對齊,做到可以具備萬物識別的能力,毫末將其稱之為自動駕駛語義感知大模型。

基於自動駕駛語義感知大模型,毫末還會通過構建駕駛語言來描述駕駛環境和駕駛意圖,再結合導航引導信息和自車歷史動作,藉助LLM大語言模型做出駕駛決策。

說的直白點,假如倒車時背後有野草,通過感知大模型,可以知道這是草,但並不知其屬性;目前供應商的主流方案是直接剎停,這給用戶帶來很不好的體驗。但在引進大語言模型後,系統可以知道草是軟的,可以壓過去。

多模態大模型能將圖文特徵對齊,實現開集語義識別能力,然後再將這些語義輸入大語言模型,就可以利用大語言模型里壓縮的知識了,相當於掌握了人類司機對物理世界的客觀知識和生活常識。

2、切換ViT大模型預測下一秒發生的事情

需要說明的是,從模型架構上,毫末如今已將視覺感知網絡(CV Backbone)架構陸續從CNN類模型,切換到ViT(Vision Transformer)為代表的大模型,並在今年全面升級到性能更強大的Swin Transformer大模型。而這種模型的轉換,與國際行業智能駕駛巨頭一致。

在毫末最新的模型中,已經可以採用視頻生成的方式,通過預測生成視頻下一幀的方式來構建4D表征空間,使CV Backbone學到三維的幾何結構、圖片紋理、時序信息等全面的物理世界信息。

以上這些動作,主要解決了大模型領域的數據採集和標註效率低、泛化能力差等問題。

2024落地百城

毫末的智駕方案HPilot產品已經搭載超過20款車型,用戶輔助駕駛行駛里程突破8700萬公里。

毫末智行董事長張凱表示,目前,毫末城市NOH軟體封版已達到交付狀態,並開啟了多城泛化路測,搭載城市NOH的車型將在2023年上市。公司預計2024年上半年其城市NOH落地將達到100城,毫末HPilot將於2025年進入全無人駕駛時代。

面向L4的小魔駝,在城市開放道路進行無人駕駛時,也已經快於普通人騎自行車的速度。在行駛安全和通行效率上,均已達到商用狀態。

寫在最後,這屆AI DAY是毫末秀肌肉的時刻,從三款千元級無圖NOH產品,到3.0時代的數據積累,模型升級得到識別萬物的能力,再到百城計劃和小魔駝的盈利計劃。毫末已經為明天的競爭,做好了足夠的準備。

文章來源: https://twgreatdaily.com/zh-mo/7fae6d0f02827f0ac7bb7541f07684fa.html