大模型,重構自動駕駛

2023-10-17   光錐智能

文|劉俊宏

編|王一粟

大模型如何重構自動駕駛?答案已經逐漸露出水面。

「在大數據、大模型為特徵,以數據驅動為開發模式的自動駕駛3.0時代,自動駕駛大模型將在車端、雲端上實現一個統一的端到端的平台管理。」毫末智行CEO顧維灝在近日的HAOMO AI DAY上表示。

大模型對自動駕駛的改變,下至感知、認知、數據標註等的底層技術框架,上至對之前技術方案的模型剪枝、蒸餾。自動駕駛在這個過程中,也變得「越來越懂」我們身處的真實世界。

當前,隨著自動駕駛技術的進步,預計將來也會有越來越多的量產車得以落地。據工信部的數據,當前乘用車市場L2及以上智能駕駛滲透率已達42.4%,預計到2025年將達到70%,並普及到10~20萬的主流車型上。

面對智能汽車產品端的放量和技術普及的需求,市場正在呼喚著,更具性價比的成熟智能駕駛方案。此前昂貴的智能駕駛產品,正在迎來一個全新的「千元級」機遇。

而這也意味著,拿到更多智能駕駛訂單的玩家,將積累更多的車型行駛數據。進而轉化成疊代速度更快的數據飛輪,反哺到場上的自動駕駛能力。

大模型,重塑了自動駕駛,也即將揭開自動駕駛降本大戰的序幕。

大模型正在重構自動駕駛

「在自動駕駛3.0階段,自動駕駛開發呈現以大數據、大模型、大算力為核心特徵,以數據驅動為開發的模式。」對於大模型重塑後的智能駕駛,顧維灝如此解釋道。

首先,在數據的訓練上,自動駕駛原本的訓練方式是使用人工標註的數據去訓練,但引入大模型之後,已經可以使用自動化的標註技術來大規模、自動化地標註4D Clips(一段時間內,所有傳感器接受的數據信息),並且將大模型的訓練從有監督訓練升級到了自監督訓練。

不僅如此,大模型還可以利用生成式AI的能力,自動生成視頻來加強訓練。通過構建4D表征空間,使得CV Backbone(提取視覺輸入圖像信息)能夠學到三維的幾何結構、圖片紋理、時序信息等全面的物理世界信息,相當於把整個世界裝入到神經網絡當中。

於是,大模型解決了之前人工智慧最被人戲謔的「有多少人工就有多少智能」的問題,自動化的數據標註和訓練,讓自動駕駛成為了一台「永動機」。

接下來,在足夠的數據驅動下,自動駕駛的開發模式也隨之改變。

此前的自動駕駛研發主要由任務驅動。開發過程主要基於解決特定任務所採集的小數據,構建小模型來完成。一個具體需求,對應一個具體功能,表面上看似一個個功能開發迅速,汽車智駕的場景在一個個被「攻關」。但實際上這種開發模式只能以需求為導向,在特定問題的限制下,難以窮盡真實世界之廣袤,於是各種corner case 無法解決,自動駕駛也就難以真正落地。

在技術框架上,自動駕駛3.0階段利用雲端實現感知和認知大模型能力進行突破。

原本在車端的各類小模型,逐步統一到感知和認知模型中,完成車端智駕系統整合到一個完整的大模型中去。同時在雲端,大模型通過剪枝、蒸餾等方式逐步提升車端的感知能力。在通訊環境好的地方,大模型甚至可以通過車雲協同的方式實現遠程控車。最終實現,在車端和雲端上端到端的自動駕駛大模型。

從技術框架層面,將大模型引入自動駕駛的效果,我們可以參考特斯拉的表現。2020年,特斯拉引入BEV+Transformer(BEVFormer),取代上一代2D+CNN算法。

在Transformer的注意力(Attention)機制下,特斯拉增強了模型對全局的理解能力,降低了來自不同傳感器數據融合的難度。實現支持汽車生成BEV(鳥瞰圖),讓汽車了解周圍環境就像是「開天眼」一般順暢。

汽車能夠更全面地看到世界,是感知大模型的功勞。

以毫末的方案為例。在對真實物理世界的學習中,毫末使用了NeRF(三維重建)技術整合,將真實世界建模到三維空間,再加上時序形成4D向量空間。

在此基礎上,通過引入開源的圖文多模態大模型,實現4D向量空間到語義空間的對齊。利用圖文多模態大模型對畫面的描述能力,自動駕駛獲得了跟人類一樣「識別萬物」的能力。

在GPT-4V最新的測試中,將下面的圖片直接輸入給ChatGPT,就能像人類一樣,精準的描述出圖片環境中的駕駛策略。

接下來,汽車想要「動」起來,還需要認知大模型的能力,才能給出合適的指令。

在語義感知大模型構建的「識別萬物」能力的基礎上,毫末通過構建駕駛語言(Drive Language)來描述駕駛環境和駕駛意圖,再結合導航引導信息以及自車歷史動作,並藉助外部大語言模型LLM的海量知識來輔助給出駕駛解釋和駕駛建議。

大語言模型LLM的意義,在於將世界知識引入到駕駛策略中來。 當自動駕駛認知決策獲得了人類社會的常識和推理能力(世界知識),將大幅度提升自動駕駛策略的可解釋性和泛化性。

如此一來,在通用認知大模型和通用感知大模型的幫助下,自動駕駛形成了「看得清」、「看得懂」,還「知道接下來怎麼做」的能力。

在引入大模型兩年後,2022年特斯拉在算法中引入時序網絡,從而將BEV「全景地圖」升級為占用網絡(occupancy Network)。以BEV「看到」的道路上,不再分析路上「有什麼」,以判斷汽車能否通過的方式,從而決策汽車下一步「走還是停」。

直到2023年8月,特斯拉實現了依靠車載攝像頭和神經網絡識別道路和交通情況,端到端的自動駕駛系統(FSD Beta V12)。

但即使如此,大模型與自動駕駛的深度結合也才剛剛開始,在感知和認知的能力上依然有很大的提升空間。

三個能力升級:純視覺、更廣、更小

在結合多模態大模型之後,實際的效果怎麼樣呢?

在測試的實驗結果中,毫末在純視覺泊車、城市NOH(等同於城市領航輔助駕駛)、和小目標障礙物檢測上取得了明顯的進展。

這意味著,在大模型加入後,自動駕駛在能力上,出現了質的提升。

首先是在泊車環境中,驗證了純視覺感知實現功能的可行性。

毫末採用了四個視野寬廣的魚眼攝像頭作為其視覺BEV的感知基礎,獲取汽車周圍360°的畫面。然後對圖像進行虛擬相機轉換,通過backbone技術提取出畫面的視覺特徵,並映射到BEV空間。 在BEV空間下,完成對障礙物的輪廓邊界進行識別和測量。從而識別牆、柱子、車輛等各類型的邊界輪廓,實現360°的全視野動態感知。 15米內精度可以達到30cm,2米內精度可以高於10cm。

以當前的結果來看,純視覺的感知方案已經可以替代之前USS(超聲波雷達)來識別汽車周邊障礙物的方案。在未來,毫末完全可能去掉當前配置的12個USS。

就像是特斯拉在新款Model 3上去掉所有雷達一樣,進一步增強純視覺感知的能力,從而節省一組USS大約150元的製造成本。

在城市NOH的進展上,毫末已經可以實現對各類交通標誌、地面箭頭、甚至井蓋等交通場景的全要素覆蓋。

例如在紅綠燈的識別問題中,由於國內的紅綠燈形態不盡相同,道路上橫的、豎的、只顯示讀秒的、聯排的,甚至因損壞而不停閃爍的都有。對於人類來說,識別這些紅綠燈及其狀態輕而易舉,但對於之前的自動駕駛就需要對這些不同形狀的紅綠燈都進行學習訓練。

在通用大模型加入後,自動駕駛展現出了萬物識別的泛化能力。大模型在幫助自動駕駛積累大量相關場景的物體的同時,還幫助優化了車端感知模型,進而能夠識別更多道路場景要素。

最後是小目標障礙物檢測上,當前毫末城市NOH可以在城市道路場景中,在時速最高70公里的50米距離外,就能檢測到大概高度為35cm的小目標障礙物,可以做到100%的成功繞障或剎停。

「毫末目前引入的大模型方法,本質上是在提升車端模型的泛化性」,毫末智行數據智能科學家賀翔解釋道。

從上述的幾項進展中可以清晰看到,在大模型的泛化能力引入後,自動駕駛開始展現出更強的數據理解能力、更精準的物體分類認識能力和更強的識別能力。

隨後對於自動駕駛近期的發展上,賀翔判斷:「我個人判斷,可能今年到明年之間,是自動駕駛黎明之前的黑暗,我們可能會迎來一個巨大的爆發。」

大模型加入,智駕降本戰打響

在新能源汽車時代下,由中國極限制造所影響的汽車供應鏈,正在將汽車消費引導至更著重考慮性價比的方向。

在智駕領域上,Tier1已經把成本從此前的幾十萬元斷崖式壓縮到了千元級別。

近日,毫末發布了三款千元級無圖NOH產品。HP170、HP370和HP570,產品分別對應算力為5TOPS、32TOPS和72(或100)TOPS。分別對應智駕等級為包含行泊一體的高速無圖 NOH、城市記憶行車和城市全場景無圖 NOH,售價為3000、5000和8000元級。

在落地產品上,毫末的產品已經搭載至超過20款車型。其中包含長城汽車旗下的山海炮PHEV版和新摩卡Hi-4S等車型。

高性價比的智駕方案,破解了當下20萬以上汽車才能搭配高階智駕的局面。以毫末、大疆為首的汽車Tier1們,正在推動10萬~20萬元主導性價比的汽車產品中,展開智駕配置的競爭。

例如大疆在寶駿雲朵靈犀版上配備了行泊一體智能駕駛方案,能夠支持無圖高速NOA和帶有短途路線記憶功能。但這款汽車產品起售價僅為12.58萬起。

另一邊,相比於大疆、易航智能、紐勱等暫時僅有高速NOA的汽車Tier1們,在大模型加持下,擁有城市NOA能力的毫末,能夠讓合作的車廠們以更高的性價比,對技術先進的廠商開啟競爭。

參考毫末的城市NOA方案,8000元級的定價雖不包含雷射雷達,但也在價格上相對其他廠商擁有一定的優勢。

據興業證券測算,國內能夠實現城市NOA功能的硬體成本預估為2.5-3萬元。其中,傳感器成本約為5000-10000元,單顆雷射雷達價格約為3000-5000元,智駕域控制器成本約為1.5-2.5萬元。

對比沒有雷射雷達的特斯拉方案,在其最新的HW4.0系統內,參考Greentheonly 的拆解推算成本。特斯拉HW4.0總計物料成本約為1500-2100美元。換算為人民幣,特斯拉的方案硬體成本已然超過萬元。

便宜可得的高階智駕能力,讓車廠能夠在不同價格區間的產品擁有更高的智能化性價比。

在我們此前《自動駕駛攻城戰,華為小鵬先亮劍》的研究中,大部分自主品牌車企對城市NOA的支持主要靠消費者在汽車配置上加價來實現。選購城市NOA功能需要的增配的加價幅度在2-6萬元不等。其中,加價2萬升級的小鵬G6是重點車型里加價最少的產品。

然而,當下的智能化性價比競爭中,9月25日小鵬在新款P5上砍掉了昂貴的雷射雷達,將高速NOA支持車型下探至了15-20萬區間。

而這也意味著,高階輔助駕駛即將成為15-20萬價格區間的標配。

消費者可以不用,但智能化的功能產品必須要有。某種意義上,智能汽車正在走向類似於手機「卷」晶片堆各種配置的老路。

而在大模型加持下自動駕駛,伴隨著大模型在感知和認知能力的泛化,自動駕駛也將以越來越低的價格,配置到越來越多的車型上去。

當下的自動駕駛,距離爆發越來越近了。就像是那首《我們走在大路上》所唱,「我們走在大路上,意氣風發鬥志昂揚……」