撰文 / 張 南
編輯 / 黃大路
2022年11月,ChatGPT的出現永久地改變了人類的生活。大模型隨之興起,各行各業都在思考如何利用大模型做產品,如何利用大模型做能效提升、產品體驗力提升。
智能駕駛在其中如何順勢而為?如何乘風破浪?
在吉利汽車研究院技術規劃中心主任陳勇看來,大模型領域的門檻會逐步變得更高。今天看到的百模也好,千模也好,三年之後會是怎麼樣,現在還無法判斷,但其中能夠真正堅持下去的,就是找到高價值用戶場景的企業,因為用戶場景決定技術價值。
在智能駕駛領域,大模型能夠解決問題,創造價值。例如,用大模型合成數據,挖掘數據價值等等,擁有極大的想像力。
以下是陳勇的演講實錄。
很高興跟大家分享大模型時代吉利的應用探索。剛才兩位老總介紹了智能駕駛在安全、數據領域應該如何做/如何把智能駕駛體驗做得更好。接下來分享一下吉利在智能駕駛方面的思考。
對於智能駕駛來講,用戶也好,產品也好,市場比較關心的第一個應該是安全,因為在真正的智能駕駛當中,包括輔助駕駛當中,安全是每個人、每位用戶,包括每個主機廠/合作夥伴最關心的事情。
如何能夠保證安全?智能駕駛核心要解決很多長尾問題,智能駕駛發展得越快,發展得越好,真正最後那一點點長尾效應可能花的時間/代價/精力越大、越高,因為安全是0和1的事情。如何把這種corner case長尾效應做好,這是非常難的,也要花大量精力思考去做。
目前大部分智能駕駛感知還停留在標註階段,這意味著還是缺少一種認知能力,更多的是我們見過多少,我們標註了多少目標物、交通參與者,但是它是否真正具備認知能力?剛才提到,如果在高速公路上一塊石頭突然滑下來,它是否具備這樣的認知?能否通過泛化做這樣的事情,如果沒有標註過,這樣的事情能否做?
另外,安全和安全感是兩回事。智能駕駛如何做到安全?有安全,就有安全感,這不是一個等號。如何給用戶營造一個安全感,安全是一個前提,安全感是一種體驗。
其次,如何把智能駕駛體驗做好,畢竟是一個智能化的產品和體驗,但是智能化的體驗不是有沒有,現在很多人在思考我有各種功能,不管是高速NOA、城市NOA,APA、RPA等等,功能有沒有,不等於體驗好不好。
如果一個功能體驗不好,不如沒有,自動駕駛體驗過程當中,高速NOA也好,RPA也好,一旦有一次讓你感覺到意外的事情,相信你長時間都不會用,甚至可能因為這樣的事情你就不會去用了。在複雜道路上,如何把接管率做得更低,其次智能駕駛的體驗大部分是不連貫的。
另外是關於成本,如何把智能駕駛的成本降下來。現在我們為了滿足很多功能場景需求,堆砌了很多傳感器、硬體技術、冗餘設計等等,讓智能駕駛成本相對來說比較高。如何讓它能夠回歸到商業本質?如何把成本做得更低,或者如何把這個體驗比做得更好,這是智能駕駛應該關心的問題。
前幾年智能駕駛由粗獷的硬體驅動體驗逐步轉向數據算法驅動體驗轉變。原來有1V1R、1V3R、7V+毫米波雷達,現在有10V、11V+毫米波雷達+雷射雷達,加一個不夠,加兩個,兩個不夠加三個,目前大部分都是這種情況,這種粗獷式的硬體堆砌來滿足各種功能體驗或者安全的要求。
如果讓這個事情回歸到商業本身或者用戶需求本質,相信用戶要的不是傳感器,用戶要的是智能化體驗而已,如何通過數據和算法來驅動體驗提升,而不是靠硬體配置的堆砌。
做加法我覺得容易,但做減法很難。如何通過用戶體驗驅動價值創造,讓智能化設計回歸理性?這是做智能駕駛的每個人要去思考的事情。這裡面應該用技術驅動創新,使體驗提升,提升性價比,包括各種集成,不管是行泊一體也好,艙駕一體也好等等「去硬體化」。另外通過各種技術,通過大模型也好、數據閉環也好,能夠「輕地圖、去硬體化」,這是值得思考的。
大模型能來做什麼?
在大模型時代當中,傳統AI算法發展好幾十年了,大模型應該是這幾年,從2022年11月ChatGPT出來以後,大家的關注越來越高了。
各行各業都在思考如何利用大模型做產品,如何利用大模型做能效提升、產品體驗力提升,在大模型時代,在智能駕駛領域,我們如何順勢而為?如何乘風破浪?目前大模型應該是百模大戰,千模亂舞。
回顧五年之前的新能源市場,五年之前也有很多新勢力,如同現在的市場這麼瘋狂,可能都差不多。那時候應該有400多家新能源企業,到現在還有多少家?可能那個百就沒有了,就剩後面的零頭了,那個零頭還能堅持多久?大模型也是一樣,大模型跟新能源相比,門檻可能比新能源還要高。
因為大模型有核心幾個要素:(1)需要大量GPU算力。隨著參數量的增加,GPU算力會越來越多。(2)需要大量數據,隨著參數量的增加,應用場景的擴大,需要大量的數據,包括高質量的數據。(3)人工智慧大模型領域需要大量的人才。
這個領域的門檻會逐步變得更高。今天看到的百模也好,千模也好,三年之後會是怎麼樣?這裡面誰能真正堅持下去,把場景找到,才能夠勝出。用戶場景決定技術價值。
如果一個技術沒有找到合適的用戶場景,這個技術我覺得不是沒有價值,可能有學術價值,但不一定有商業價值,我們應該找到合適的應用場景,才能夠決定這個技術的價值是多少。
如果當下的大模型用來做智能駕駛,我覺得它應該值智能駕駛的價錢,如果大模型用來蒸包子,一個包子五分鐘,十個包子幾分鐘,如果大模型用來做雞兔同籠這樣的事情,大模型也就值這個價。技術的價值誰決定的?由用戶場景決定的,而不是技術本身決定的。
大模型用來幹什麼?顯然在智能駕駛領域我們需要大模型,但並不是所有領域都需要大模型。任何一個產品都有它的市場價值和定位,今天有了高鐵飛機,不意味著我們不騎自行車了,並不是大模型來了,大模型可以應用所有場景,傳統東西不需要了,不見得。
智能駕駛領域大模型能做什麼事情?大模型是來解決問題的,如果沒有問題就不需要新技術,或者它是來創造價值的,大模型能夠解決智能駕駛領域什麼問題?或者能夠創造什麼價值?
首先是數據。數據量的要求或者數據質量的要求非常高,大模型能不能解決數據量不足的問題?深層次的大模型本身具有強大的泛化能力,數據採集能否不依靠實際道路採集?能否利用大模型做生成數據。
第二是數據價值創造。數據採集、數據標註成本非常高,從原來不管做L2、L2+也好,包括城市NOA,至少是幾百萬幀,甚至是上千萬幀,上億,現在是BEV+Transformer這樣的數據做這樣的事情。一幀數據的採集和標註的成本幾塊錢到幾十塊錢不等,大部分實際道路的採集很多應該還不能共用,不同車型都有差異,能否用大模型做這樣的事情?
第三我們有數據,但數據價值並沒有真正挖掘出來。我們可能採集了很多數據,但數據的價值挖掘取決於每個人的認知。
我的認知能力決定了數據價值挖掘能力,如果這張圖片給我,你只標了三個障礙,三個交通參與者,這就是你的認知,決定了這個圖片就值這個價值,大模型能否幫我們把數據,把每一幀的圖片語義深刻理解出來,挖掘更多的價值,能否做這個事情?我覺得可以做這樣的事情。
第四如果真正能夠做到端到端的大模型應用,那是非常好的事情,學術上現在大家都在研究這樣的事情,但是短期來講量產還是有一點距離的,因為它要解決很多問題。
智能駕駛如何做,把大模型輕量化做本地化問題,這個必須要解決,大模型生成式有很多不確定性的問題,如何把可控性做得更好,這些都是我們需要思考和做的事情。
大模型如何提升數據?
這些領域當中我們做了一些思考和探索,今天跟大家做分享。
如何把數據的數量和質量做提升?因為在智能駕駛領域或者在大模型與人工智慧領域,其中一個應該叫「數據價值戰」,如何利用數據驅動模型的疊代和體驗的提升,這是未來在人工智慧領域、在智能駕駛領域都應該思考和做的事情。
核心關注兩件事情:數據量和數據質量。如果數據質量不好,數據量再大都沒有用。如果天天思考1+1等於幾的問題,我們不會進步的,數據量和數據質量非常重要。
第二,數據量和數據質量如何做提升?如何通過實際道路做採集?或者通過虛擬數據的生成和實際道路的融合,生成一些高質量合成數據。數據是模型訓練的關鍵,直接影響了模型性能,數據量和數據質量都應該抓。我們會給我們模型什麼樣的數據和數據質量,決定了這個模型能力上線的天花板。
在這個過程中,首先要思考的是如何利用大模型賦能做數據的合成技術。現在大部分數據都應該是由實際道路採集的,實際道路採集的成本相對比較高,而且很多corner case採集不到,如果崑山下雪天,高速公路有交通事故的場景,中間還有大貨車,相信這樣的數據很難找,崑山下雪的場景都非常難找,更不要說下暴雪,如何把這樣的場景通過虛擬環境做生成?
我們構建了一個虛擬環境,生成大量的數據做這個事情。另外我們通過真實數據訓練虛擬環境,如何讓虛擬環境的數據和真實數據變得更像,從而滿足智能駕駛仿真需求,我們在做這個事情。
對於模型訓練來講,它不關心這個數據是張三還是李四給的,只關心這個數據質量是否好。這個過程當中如何利用大模型把合成數據的質量做提升?
首先我們會做很多虛擬數據的生成,過程當中我們會對比虛擬數據的生成和真實數據的風格是否一致,如果虛擬數據生成質量遠遠好於實際場景下的真實數據質量。一方面我們的模型,在溫室下訓練這個模型,有可能到真實環境當中就不適應了,魯棒性能可能就不高,可靠性也不好。
我們需要訓練大量loss的去訓練我們目前真實的數據和虛擬環境數據之間的差異,同理讓虛擬環境生成的數據和真實環境的數據一致性能夠變得更好、變得更真實。其次如何讓虛擬數據生成的語義能夠更多地保持住,去做思考,我們通過大量數據訓練,訓練大模型數據的合成技術。
我們通過真實數據訓練虛擬數據,最後達成合成數據。合成數據結合真實數據場景的風格,但又保持了虛擬數據的語義,這樣大大提升了合成數據的質量。
我們目前搭的虛擬環境,所有的道路建設、場景建設、天氣模擬、交通流的模擬都可以用AI建模做,這樣可以大大降低實際道路數據採集和標註成本,包括道路上的做舊也好,減速帶也好,錐桶也好,都可以模擬出這個事情。
其次用大模型可以解決數據價值挖掘的事情。前段時間一個整車廠看到廣告牌上有一個人觸發了AEB。這種數據雖然有,但是沒有做過訓練,導致這樣的事情發生,有大量的數據,但是數據沒有挖掘,沒有充分地把數據價值呈現出來。
大模型具備多模態的能力,能夠識別大量、海量數據語義的理解,能夠把數據做標籤化處理,可以快速檢索,從而形成模型訓練的數據集。
另外我們也做了大量的自動化標註和語義分割,結合虛擬數據和開源數據,包括道路數據、道路訓練大模型語義分割的數據。
為了驗證虛擬數據的能力和大模型的能力,我們也在ACDC的公開數據榜上針對特殊場景,給出各類驗證,整體來講我們的測試結果相對來說還是比較好的。
它驗證了一件事情,大模型具備這樣的語義分割和自動化標準的,另外虛擬數據質量已經達到了真實場景的需求,能夠滿足這樣的場景。所以在公開數據集上才能夠得到全球第一的成績。
我們做了大量的語義分割,其實做這樣的事情,大模型做比人做,相對來說還是有好處的,一致性比較高一些,整體的效率,包括精度也相對來說比較好。
最後給大家分享一下,在智能駕駛也好,人工智慧大模型領域,目前大模型的確挺火的,但是當下不能高估大模型的能力,不能覺得大模型什麼都行,什麼都能幹,但是更不能低估大模型未來的發展,因為它的潛力是無限的,謝謝大家!