撰文 / 馬曉蕾
編輯 / 張 南
來源 / Techcrunch,作者:Kyle Wiggers
說自動駕駛汽車正在被「清算」,這一點都不誇張。
10月底,加利福尼亞州車管局(DMV)暫停了通用自動駕駛子公司Cruise運營Robotaxi的許可。而那起將行人捲入車底的荒誕交通事故只是導火索,深層次原因是監管與公眾對事故頻發的自動駕駛技術早已失去信任。
就在11月初,Cruise召回了整個自動駕駛汽車車隊。與此同時,舊金山的抗議人士走上街頭,反對該市被當作新興技術的試驗場。
但有一家初創公司表示,它掌握著讓自動駕駛更安全的關鍵技術,並認為這一關鍵將扭轉反對者對自動駕駛的態度。
為汽車製造商合作夥伴開發自動駕駛軟體的公司Ghost Autonomy宣布開始探索多模態大型語言模型(LLM)在自動駕駛中的應用。這是一種既能理解文本又能理解圖像的人工智慧模型。當下爆火的ChatGPT就是LLM應用的典型代表。
這一賽道已經吸引了大量企業或創業者投入。為了實現LLM在自動駕駛領域的應用,Ghost與ChatGPT的提供商OpenAI合作,通過該公司的初創企業基金獲得了OpenAI系統和OpenAI密切合作方Microsoft Azure資源的早期訪問權,此外還獲得了500萬美元的投資。
Ghost聯合創始人兼執行長約翰·海耶斯(John Hayes)向媒體表示:「LLM提供了一種理解罕見場景的新方法,為複雜場景增加了推理,而目前的模型在這方面還存在不足。隨著 LLM 的速度越來越快,能力越來越強,基於LLM的分析在自動駕駛領域的用例只會越來越多。」
Ghost究竟是如何將旨在解釋圖像和生成文本的人工智慧模型應用於控制自動駕駛汽車的呢?根據海耶斯的說法,Ghost正在試運行一款軟體,該軟體依靠多模態模型來進行更高難度的場景解釋,根據車載攝像頭拍攝的道路場景圖片,向汽車控制硬體提出道路決策建議(例如移動到右側車道)。
海耶斯說:「在Ghost,我們將努力對現有模型進行微調,並訓練我們自己的模型,最大限度地提高可靠性和道路性能。例如,簡單的模型可能難以駕馭施工區這一複雜的路況,臨時車道、手持標誌牌的交通協管員不斷移動,以及與其他道路使用者的複雜組合。事實證明,LLM能夠以類似人類的推理水平協同處理所有這些變量。」
不過,專家對此持懷疑態度。
華盛頓大學專注於法律和數據倫理研究的博士生凱斯(Os Keyes)向媒體表示:「Ghost只是把LLM作為營銷流行語。事實上,你把這個宣傳語換成區塊鏈,並把它發回2016年同樣說得通,顯然這是一個騙局。」
凱斯認為,LLM根本就不是自動駕駛的工具。他斷言,LLM並不是為此目的而設計或訓練的。
倫敦國王學院高級講師邁克·庫克(Mike Cook)的研究重點是計算創造力,他同意凱耶斯的總體評價。他指出,多模態模型本身遠沒有搞清楚,OpenAI 的旗艦模型會憑空捏造事實並犯下人類不會犯的基本錯誤,比如錯誤地複製文本和弄錯顏色。
庫克說:「我不相信計算機科學領域有什麼靈丹妙藥。我們根本沒有理由讓LLM處理像駕駛汽車這樣危險而複雜的事情。世界各地的研究人員已經在努力尋找方法來驗證LLM在寫作文等相當普通的任務中的安全性,而將這種不可預測且不穩定的技術應用於自動駕駛,往好了說是不成熟,往壞了說是被誤導。」
但是,海耶斯和OpenAI不會被勸退。
在一份新聞稿中,OpenAI的營運長兼OpenAI初創基金經理Brad Lightcap說,多模態模型有可能將LLM的適用性擴展到許多新的用例,包括自動駕駛和汽車。他補充道:「多模態模型能夠通過結合視頻、圖像和聲音來理解和得出結論,可能會創造出一種新的方式來理解場景,並在複雜或不尋常的環境中進行導航。」
至於海耶斯,他認為LLM可以讓自動駕駛系統從整體上推理駕駛場景,並利用廣泛的世界知識來駕馭複雜和不尋常的情況,甚至是它們以前從未見過的情況。他聲稱,Ghost正在通過車隊積極測試多模態模型駕駛決策,並與汽車製造商合作,共同驗證並將新的大模型集成到Ghost的自動駕駛堆棧中。
海耶斯說:「毫無疑問,目前的模型還不能完全用於汽車的商業用途。要提高它們的可靠性和性能,還有很多工作要做。但這正是特定應用公司在這些通用模型上進行研發的市場所在。像我們這樣擁有大量訓練數據和對應用有深刻理解的公司將極大地改進現有的通用模型。模型本身也將得到改進。最終,自動駕駛將需要一個完整的系統來提供安全性,其中包含許多不同的模型類型和功能。多模態模型只是幫助實現這一目標的工具之一。」
這是對一項未經驗證的技術許下的承諾。Ghost能做到嗎?像Cruise和Waymo這樣資金雄厚、資源充足的公司在測試自動駕駛汽車多年後仍遭遇滑鐵盧,誰敢對此下定論?