曹旭東:L4規模化,有1000億公里數據還不夠

2024-06-27   汽車商業評論

撰文 / 曹旭東 (Momenta CEO)

編輯 / 周 洲

設計 / 師 超

智能駕駛獨角獸Momenta正在赴美上市的路上。

Momenta已經與全球排名前十的汽車集團中的一半,展開了量產合作。這些車企客戶有上汽集團、通用汽車、豐田、奔馳等,同時這些主機廠也是Momenta的投資方。

自2016年成立,Momenta經過7輪融資,累計融資額近13億美元。其資方既包括上述戰略合作車企,有博世這類一級供應商,有網際網路大廠如騰訊、馬雲的雲鋒基金、小米系的順為資本,還有知名的投資機構淡馬錫、IDG、GGV紀源資本。

Momenta從創立之初就確立了「一個飛輪,兩條腿」的戰略。「一個飛輪」指的是數據驅動的AI飛輪,「兩條腿」指的是Mpilot量產自動駕駛方案和MSD完全無人駕駛方案,既做智能輔助駕駛,又做Robotaxi。這兩條腿之間產生很好的協同,量產自動駕駛帶來數據流,給到完全無人駕駛,而完全無人駕駛反饋技術流、技術的更新疊代,給到量產自動駕駛,使得量產的產品在市場上更有競爭力,不斷為用戶刷新更好的使用體驗。

6月15日下午,在第十六屆中國汽車藍皮書論壇智能駕駛專場,Momenta CEO曹旭東作了主題為《通往自動駕駛的可規模化路徑》的演講。

他在簡介了Momenta的產品以及一個「一個飛輪,兩條腿」的戰略之後,提出了智能駕駛的摩爾定律。

曹旭東認為,能夠實現城市NOA的高階智能駕駛今年進入爆發期,是因為智駕的摩爾定律。

智駕摩爾定律包含兩部分,一個是智駕硬體的摩爾定律:同等算力情況下,每兩年硬體成本減半。兩年前實現城市NOA的BOM(Bill of Material,物料清單)成本是15000-20000元,現在差不多是7000-10000元,2026年大概是4000-5000元,特斯拉FSD的BOM成本已經做到4000元了。硬體有極限,整個BOM實現4000元出頭之後再往下降就非常難,也不是特別有必要。一個是智駕軟體的摩爾定律:(每兩年)軟體體驗提升十倍。兩年10倍,四年100倍,六年1000倍,智駕的體驗會好到超乎大家的想像。

他覺得未來能夠跟上智駕摩爾定律的公司能夠生存下來,能超越摩爾定律的公司可以成為一家卓越的公司。

以下是曹旭東演講實錄。

曹旭東:首先非常感謝受邀參加這個活動,非常榮幸,非常感謝各位老師和各位領導,有機會能給大家彙報一下我們公司的一些思考。

先看一個視頻,是關於我們產品的集錦,對我們公司有一個直觀的介紹。因為一個(智能駕駛)公司的本質就是做產品,產品作為載體給用戶創造價值,(視頻)能看一下我們的產品是什麼樣子的,以及給用戶創造什麼樣的價值。這是我們的城市領航,現在可以做到有路就能開,有導航就能開,有高德的導航能開得更好。

可以看到,中國的路況挺複雜的,既有大城市的大路,也有小城市的小路,非常豐富。我現在出差最大的一個樂趣就是,去到每一個城市都(體驗)有我們(智駕產品)的自動駕駛的車,從機場到(拜訪)客戶,而且專門選那種刁鑽難走的路,非常有意思。

這個是去年年底的冬測。可以看到在逆光揚雪冰雪路面的情況下,AEB也可以剎停,保障用戶的生命安全。我們有一個非常重要的願景,就是「十年挽救百萬生命」,現在AEB每周有對應的KPI來跟蹤觸發的數量。這裡是用戶的一些反饋。(播放視頻)更好的人工智慧,更好的生活,希望越來越好的智駕能夠給大家帶來更安全、更安心、更好的生活體驗。

簡要地介紹一下我們公司。我們公司成立到現在有8年時間,獲得了很多車企的支持,比如上汽、通用汽車、奔馳、豐田等,通過非常好的合作和非常好的交付,我們建立起來了很好的信任關係,最終(這些車企)也成為我們的戰略投資人。我們公司現在大概有1300人,辦公地點很多,最大的兩個辦公室主要在北京和蘇州,另外在上海、杭州、廣州、深圳都有辦公室,海外在德國斯圖加特、日本豐田市(Toyota City)、美國桑尼維爾(Sunnyvale,矽谷重鎮)都有辦公室。

我們公司很重要的一個文化是以客戶價值為中心,只要能跟客戶建立深度的量產合作,我們都會在客戶旁邊去建辦公室。因為智駕是一個特別複雜的系統,所以我們在建辦公室的時候,尤其是客戶的第一個平台、第一輛車量產的時候,我們有一個很重要的原則,就是跟客戶肩並肩作戰、肩並肩辦公,這樣才能及時溝通、及時解決(客戶)第一個平台第一台車量產過程中的各樣問題,建立起兩個組織之間合作的信任。

做完我們公司的基礎情況彙報之後,我來彙報一下公司的一個思考:就是怎麼能夠實現可規模化的L4。其實這個思考不算新東西,公司2016年成立的時候思考的很多內容其實都在了。我們公司剛成立的時候就希望能夠實現可規模化的L4。

什麼是可規模化的L4?不是說在某一個地方、某一個區域有畫好的高精度地圖,幾十輛車或者幾百輛車不停地跑啊跑,雖然這有可能叫做L4,但是不是可規模化的L4。

可規模化的L4是全國都能開甚至全球都能開,並且能夠達到人類(司機)的安全水平甚至超過人類(司機)的安全水平——達到10於倍人類(司機)的安全水平,這個是我們希望實現的可規模化的L4。

可規模化的L4最關鍵的就是安全。我們覺得哪怕是乘用車要實現可規模化的L4,安全水平也應該達到10倍於人類司機的安全水平。而如果是做Robotaxi(L4)的話,10倍的安全水平可能還不夠。我們做過計算,如果Robotaxi在幾個城市要大規模商用,至少需要近10萬台車,10萬台車可能需要100—1000倍人類司機的安全水平才能達到足夠的安全性,因為根據我們的觀察Robotaxi對於安全事故的接受度是更低的,大家可以參考最近Cruise Automation(GM旗下無人駕駛車公司)最近的一起事故,就可以看到消費者、社會對於Robotaxi的安全閾值是非常非常高的。

那怎麼達到這麼高的安全性呢?很重要的就是要解決數百萬個長尾問題。這數百萬個長尾問題是非常具有挑戰性的。舉個例子,我們有一次路測的時候剛好遇到了逆行,但逆行的不是一輛車,逆行的是一頭大象。逆行的三輪車中國很常見,逆行的大象在中國路測的時候也會遇到,這些都是需要解決的長尾問題,這樣的長尾問題有數百萬個,那就決定了很難用rule-based(規則導向)或者是Human-driven(人為驅動)的方式去解決問題。

如果是Human-driven的話,你可以用100個人、1000個人去解決100、1000個頭部問題,但是很難用這些人去解決數百萬個長尾問題。這就引出了我們第一個關鍵的洞察:數據驅動的飛輪,用這個數據驅動的飛輪自動化地解決數百萬個長尾問題。

我們現在的數據驅動的飛輪已經疊代到第五代了。第一代能夠自動化地解決50%的問題,第二代70%,第三代90%,第四代95%,現在第五代超過99%的問題都可以自動化地去解決,這樣極大地提升了整個研發疊代的效率、解決這些長尾問題的效率。

第二個關鍵的洞察是:數據驅動的飛輪一定需要數據,那我們到底需要多少數據才能夠實現規模化的L4呢?

我們在2016年公司成立之前就提出了這個問題。當時我們算了答案之後非常吃驚,也非常驚訝。我們計算完之後,需要1000億公里的數據。1000億公里的數據,如果是一年跑10萬公里的計程車,大概一年需要100萬台車;如果是乘用車的話,大概需要500萬台以上跑一年,才有足夠的數據去驗證這套系統是不是達到了可規模化的L4。

當然,訓練是一個必要條件,還不是一個充分條件,充分條件的話有可能這些數據就夠了,也有可能需要更多的數據才能夠實現可規模化的L4。這就引出了我們公司很重要的一個戰略叫「一個飛輪,兩條腿」。

我們根據前兩個洞察判斷,如果要實現可規模化的L4,第一,整個軟體算法架構、整個研發體系必須是一個數據飛輪的驅動,才有可能實現可規模化的L4;第二,一定得量產。沒有量產不可能有幾百萬台車,沒有幾百萬台車的話根本沒有辦法實現規模化的L4。

基於這兩個洞察就引出來我們的戰略,其實非常通俗,叫做「一個飛輪兩條腿」。其中,一條腿是Mpilot量產自動駕駛方案,另外一條腿是MSD——完全無人的駕駛方案,我們的整個算法是按照MSD的標準和要求設計的,之後再應用於量產。

這「兩條腿」有很好的協同。量產自動駕駛帶來數據流,給到完全無人駕駛,而完全無人駕駛反饋技術流、技術的更新疊代,給到量產自動駕駛,使得量產的產品在市場上更有競爭力,不斷給用戶刷新更好的使用體驗。

介紹完「一個飛輪兩條腿」的戰略之後,介紹我們的飛輪。

飛輪有三個因子。第一個是數據驅動的算法,第二個是海量的數據,然後是閉環自動化。

我們先介紹一下海量的數據。我們現在的數據量已經比較大了,去年年底大概是5萬台車(上)量產的高階智駕,今年年底大概差不多(能覆蓋)30萬台車,明年年底大概是100到150萬台車會量產我們的高階智駕,到了2028年的時候,我們估計累計的量應該會超過1000萬台。

數據的增速也是一個指數級的增速,大家可以看一下這個短小的視頻,這是2022年量產之後,數據很快地從一開始只覆蓋經濟發達的沿海地區,到覆蓋全國,再到覆蓋全國紅得發黑(表示數據增速極快),其實就用了大概一年多一點的時間。相信隨著車的增加,整個數據的增速是非常快的。

有了這些海量數據,大家會逐漸發現一旦大規模量產之後,稀缺的就不是車或者稀缺的就不是數據了。

車和數據就有點像沙子或者有點像鐵礦石,真正稀缺的能力是如何把這些礦藏——而且這個礦藏含礦率可能不是那麼高,它可能是貧礦,更像貧瘠的礦產,你如何在比例只有千分之一甚至萬分之一的沙子、礦石裡面,把這個鐵提取出來,把鐵提取出來之後再煉成鋼,再把鋼造成發動機,最後再把發動機裝到車上。這一整套的數據閉環的能力就變得越來越重要、越來越稀缺了。

當有了海量的數據之後,在我們體系內部叫做閉環自動化,在不同的公司有不同的叫法,(有)叫「數據閉環」、「數據工廠」等等,這個能力就變得尤其稀缺、尤其重要,而且非常關鍵,尤其是整個自動駕駛軟體算法架構在逐漸往大模型方向發展的時候,這個基礎設施的建設就變得尤其重要。

我們的基礎設施包含了車端數據基礎設施FDI,還有雲端的數據基礎設施CDI,再到自動化的數據標註,再到訓練集群。訓練集群大概有1萬多張GPU,再到仿真的(里程數)。我們現在每周能夠做的仿真里程數已經接近2000萬公里。另外,我們每月OTA的數量也很快。

介紹完我們的數據和閉環自動化之後,關於整個算法架構到端到端的大模型,現在整個AI發展的趨勢是逐漸由小模型到大模型,由專用的小模型到多個專用的小模型組合起來去完成任務,變成了一個更加通用的大模型去完成任務,不管在自然語言(處理)、計算機視覺還是在自動駕駛,這個趨勢都在發生。這裡我跟大家也彙報一下我們在自動駕駛上的一些實踐。

我們現在在自動駕駛上已經做到了算法5.0,在這之前有(算法)2.0、3.0、4.0。

跟大家彙報三點:第一,大家可以看到在(算法)2.0的時候,尤其是感知的部分,我們有多個小模型。到3.0的時候我們把融合、跟蹤和預測合併成了更大一點的模型,能夠完成更加通用的任務。到了4.0就進一步合併成更大的、更通用的模型。這個趨勢基本上也是行業里非常先進的一些玩家共同探索的一個方向。

第二,在規劃的這部分,我們在行業裡面屬於探索的先頭兵。我們實際上在2020年的時候就已經開始用Deep Learning(深度學習)來做planning(規劃)了,最終把這套東西做到比較成熟能夠量產上車,是在2023年上半年,這個時間點甚至比特斯拉用Deep Learning做planning的時間更早。去年,特斯拉V11的planning還是rule-based planning,但是今年V12已經升級到端到端的Deep Learning的planning。大家可以看到一個趨勢,在planning的部分,逐漸用深度學習去替代傳統的基於規則的、基於優化的planning,這是第二個趨勢。

第三個趨勢就是端到端的大模型,這個詞現在也非常熱。我彙報一下我們的架構設計,可能跟特斯拉有相同的部分,也有不一樣的部分。

最不一樣的部分是我們的端到端分了兩個支路。一個支路是端到端的大模型,類比於人類的長期記憶。另外一個支路分成了兩階段,DDOD加上DDLD相當於是感知的部分,DLP是Deep Learning的planning,是認知的部分。這個支路相當於是人類的短期記憶。

為什麼一定要構建一個長期記憶、構建一個短期記憶呢?其實最主要的原因是為了更好的、更低成本的、更短周期的試錯,因為用深度學習來做自動駕駛的話,它是一個開始,不是一個結束。開始的話意味著未來還會有很多的探索和升級,如何把整個試錯成本降低,這是生物演進也需要達到的一個效果,那對於我們來說也需要達到這個效果。

埃隆·馬斯克的推特說他去年花了20億美金構建他的數據中心,今年計劃用100億美金去做自動駕駛的訓練和推理。可以看到,自動駕駛的大模型訓練其實試錯的成本非常高,訓練一個模型可能要花百萬美金甚至幾百萬美金,如果方法錯了或者數據錯了,那幾百萬美金就打了水漂了。

我們的設計是短期記憶的訓練成本比較低,因為真正需要探索的是DLP(Deep Learning的planning)部分。所以在短期記憶上很重要的一件事情就是驗證這個方法是不是正確以及用於訓練的數據是不是正確,是不是好的方法,是不是好的數據。這樣短期記憶的訓練成本會比較低,訓練的周期也會比較短,能夠比較快速地去解決一個問題、更新一個feature、驗證一個方法、驗證一批數據。最終我們被驗證過的好的方法、好的數據,在積累一段時間之後再應用到我們端到端的大模型上(就是長期記憶),這樣能夠保證長期記憶的訓練基本上一次訓練就能訓練對,一次訓練就能訓練好。這其實也是跟人的長期記憶、短期記憶很像,人去探索環境的時候,最先更新的是短期記憶,當這個短期記憶學習到一些成功的經驗之後,這些成功的經驗再更新到人的長期記憶中去,這樣就能夠更加低成本、短周期地去適應環境,更加低成本、短周期地去探索更好的方法以及更好的數據。這就是我們的端到端大模型整個算法架構的思路。通過這樣一個做法,比直接完全用端到端的大模型去試錯,訓練的成本應該能小10到100倍。

介紹完端到端大模型的算法架構和背後的思考,這裡有一個簡短的視頻,來看一下現在能夠取得的效果。(播放視頻)

我們發現端到端的模型對於施工道路的變化和非結構化的道路學習,以及適應的能力、泛化的能力都是非常強的。現在我們這套端到端的大模型系統已經在一些客戶(的車)上量產了,包括上汽的智己、騰勢,還有昊鉑。時間有限,看更多的視頻還不如上車體驗,未來有機會希望能夠邀請各位老師、各位領導一起上車體驗。

這裡我再快速介紹一下一個思考,就是智駕的摩爾定律以及高階智駕的規模化。

我們認為當前是高階智駕的一個引爆點。去年如果是拐點的話,今年就是引爆點。作為類比,有點像電動車的2020年。大家知道2020年到現在2024年,電動車的滲透率增速非常快,同樣,能夠實現城市NOA的高階智能駕駛也進入了爆發期。

為什麼會有爆發期?我們認為主要因為是智駕的摩爾定律。

智駕的摩爾定律是我們內部的一個說法,它包含了兩部分,一個是智駕硬體的摩爾定律,另外一個是智駕軟體的摩爾定律。

硬體的摩爾定律就是每兩年硬體的成本會降一半,這是一個經驗公式。

比如兩年前能夠實現的城市NOA,基本上一套BOM成本,加上域控,加上傳感器,包括攝像頭、雷射雷達等,大概需要15000-20000元。但現在的話,實現一套城市NOA 的BOM成本差不多能做到7000—10000元,再過兩年到2026年的時候,能夠實現的BOM大概是4000—5000元。

4000—5000元這個數字也不是我們瞎想的。大家仔細去研究一下特斯拉FSD,你會發現它的BOM成本已經做到4000元了。所以有特斯拉在引領這個行業,我相信在2026年的時候整個行業能夠實現城市NOA智駕的BOM基本上能夠做到4000元出頭。當然硬體的摩爾定律是有極限的,整個BOM做到4000齣頭再往下降的話就非常難了,也不是特別有必要了。

另外一個方面,sky the limited——沒有天花板的就是智駕的軟體摩爾定律。由於大規模的量產、大模型的上車,由於非常好的數據工廠、數據閉環自動化的疊代,我們看到的一個趨勢就是每兩年智駕的水平至少提升10倍。

10倍是什麼感受?可以舉一個例子,最近有一個客戶來拜訪我們,體驗了我們NOA的產品,他說他也試了另外一家非常牛的產品,但是兩年前他開那輛車的話就覺得汗流浹背,兩年後用我們的產品,就覺得有頭等艙的體驗。並不是說我們比另外一家做得好,另外一家在過去的兩年應該也提升了10倍,如果他再去體驗的話也應該會有頭等艙的體驗,而是說整個行業的頭部公司每兩年都能把智駕的體驗從兩年前的汗流浹背提升到頭等艙的體驗。

可以暢想一下,兩年(智能駕駛體驗提升)10倍,四年(提升)100倍,六年(提升)1000倍,如果(經過)未來兩年、兩年再兩年,那這個智駕的體驗會好到超乎大家的想像。

最後簡單總結一下:我們覺得未來能夠跟上(智駕)摩爾定律的公司能夠生存,能超越摩爾定律的公司能夠成為一家卓越的公司。

希望能夠跟各位老師和各位領導建立起更好的合作關係,希望能夠一起打造卓越的產品,一起來超越摩爾定律。

好,謝謝大家。