人形機器人「動起來了」 但距離真正的「智能」還有多遠

2024-08-29     第一財經

[ 今年與人形機器人相關的細碎事件中,藏著一些重要進展。年初史丹福大學炒菜機器人Mobile ALOHA亮相。這台機器人可通過神經網絡學習人類雙手操作,經過學習數十次演示,機器人可完成自主煮蝦、擦桌子、洗盤子等任務。業界將其視為模仿學習的突破。年內,還有機器人廠商展示了雙足機器人走出實驗環境、在自然環境行走的能力。以逐際動力的雙足機器人為例,該公司創始人張巍介紹,機器人背後有強化學習技術的突破,該技術「開關」是在最近一年左右時間發現的。 ]

[ 上周剛結束的世界機器人大會上,人形機器人熱度空前,27款展出的人形機器人數量為歷年之最。 ]

[ 特斯拉CEO馬斯克則在前段時間透露,明年特斯拉將開始限量生產「Optimus人形機器人」,屆時特斯拉將有超1000台乃至數千台在運行的Optimus。 ]

今年兩大人形機器人盛會上,業內關於人形機器人的評價似乎分成兩極——世界人工智慧大會「十八金剛」才藝展示引發觀眾駐足,但也有參展者「抱怨」一些機器人還得吊著、站都站不起來;上周剛結束的世界機器人大會上,人形機器人熱度空前,27款展出的人形機器人數量為歷年之最,有人形機器人從業者向第一財經記者感慨今年人形機器人「能動的更多了」,但也有從業者稱「各家演示視頻拍得挺好,但實際上能(像視頻)走起來演示的很少」。

兩種評價背後,是人形機器人已有明顯進步,但還遠未達到人們的期待。無論如何,即便並不完美,人形機器人今年已在加快走向商用。

近日「稚暉君」彭志輝的智元機器人一口氣發布了五款商用人形機器人新品,並透露工廠進入量產最後準備階段,今年公司雙足人形機器人出貨200台左右;港股「人形機器人第一股」優必選副總裁、研究院執行院長焦繼超告訴記者,公司人形機器人在汽車行業的意向訂單大約500台;樂聚(蘇州)機器人技術有限公司總經理王松近日向記者表示,公司人形機器人的合作夥伴已包括海爾、華為、蔚來等;「上次發布視頻後,找我們的訂單非常多。」星塵智能CEO來傑也告訴記者。

特斯拉CEO馬斯克則在前段時間透露,明年特斯拉將開始限量生產「Optimus人形機器人」,屆時特斯拉將有超1000台乃至數千台在運行的Optimus。

雖然距離「好用」尚遠,但人形機器人加快邁向「能用」已是事實。站在量產的起始點,人形機器人的實操能力到底如何?可以期待具身智能像大模型般一夜間智能湧現嗎?第一財經記者近日與多名人形機器人從業者交流,嘗試還原人形機器人得以走向量產的過程,並探討AI如何讓人形機器人繼續疊代。

「機器人動起來了」

「人形機器人已經從以往的樣本演示、靜態展示走向應用落地。去年大部分廠商放了一個硬體來展示,動都不能動,應用更不用談了。而今年大家都非常重視應用,能動的機型越來越多。應用也越來越聚焦,基本聚焦在工業場景。」焦繼超告訴記者。另有參加世界機器人大會的人形機器人從業者向記者提到,過去行業更講究人形機器人的移動能力,這次明顯更強調操作能力。

機器人能動、能操作指向了應用落地。不論是特斯拉、優必選還是樂聚等,落地初站都選擇了工業,其中又聚焦汽車工業。高工機器人產業研究所(GGII)所長盧瀚宸告訴記者,製造業細分行業中,汽車是行業基底最大的行業,且自動化程度最高,導入機器人的意願相對強烈。業內人士則告訴記者,從機器人的發展階段看,初期導入工業最容易。

「汽車、3C製造等工廠對人形機器人都有強烈需求,問題是人形機器人行業的硬軟體能力還無法完全滿足製造業的所有需求。目前很多製造業工廠願意開放跟機器人能力匹配的工位,如搬運、質檢。」焦繼超告訴記者,人形機器人應用可分為工業、商業服務和家庭場景三個階段,三個階段漸趨複雜,對產品的性能要求和對價格的敏感度越來越高。人形機器人廠商選擇先落地工業,是因為能在工業場景將底層核心基礎技術如定位導航、感知、目標識別先打磨好,同時在高負載高頻率的工作環境中測試、優化硬體結構與機器人系統穩定性,為未來進入其他場景做鋪墊。

在過去一年多時間,不只有新生的大模型為人形機器人產業帶來改變,上游供應鏈形成、硬體成本下降也是人形機器人撞開量產大門的推手。

「在大模型出來前,硬體相關供應鏈生產水平到了一個階段,再有一些商業化落地場景被大家看到,關注度一下子就起來了。」王松告訴記者,近一年多供應鏈變化明顯,例如以前找不到專門的人形機器人零部件,只能從別的行業如協作臂的供應鏈拿,拿到的部件技術路線跟人形機器人的技術要求不同,導致人形機器人集成度不高、精度不夠、穩定性不佳,核心零部件只能公司自己做。而現在,雖然談硬體標準化尚早,但供應鏈已經起來了。

「我們在深圳接觸的供應商非常多,發現供應商不一定是沒有能力(進入人形機器人領域),而是沒有形成完整市場鏈條時不願投入,只要供應商開始轉型,行業就會發展。」來傑表示,很多上游供應商已在考慮技術如何應用於機器人並做內部轉型,預計兩年內市場就能形成完整鏈條。

焦繼超告訴記者,研發疊代和上游供應鏈規模起來後,今年人形機器人價格整體比去年下降了40%~50%。隨著人形機器人在工業場景的性能逐漸穩定、數量增多,預計整機成本還將繼續下降。

2022年年底ChatGPT出世,在隨後的一年多時間,大模型則給人形機器人安上了「大腦」。多名人形機器人廠商告訴記者,在人形機器人語境下,大模型等同於「大腦」,人形機器人本體廠商多專注做本體和「小腦」,「大腦」則與外部合作。大模型給人形機器人帶來的改變在於泛化性,具體則用於人形機器人動作的決策規劃。不同於算法固定編程,泛化性可理解為「舉一反三」的能力。有了「大腦」,人形機器人進工廠「打工」也成為可能。

「機器人有三層泛化,第一層偏向感知,即認識第一個東西後能不能認識第二個東西。第二層偏向動作,即做出第一個動作後如果環境有所調整,能不能適應做出第二個動作。第三層偏向任務,即完成第一個任務後相關的任務能否完成。」來傑表示,大模型帶來更多的在於任務上的泛化。

王松形容,大模型在機器人身上的泛化性更多體現在工程層面,例如「能抓一瓶可樂,變成雪碧時也能抓取」,雪碧或可樂在工業場景中可替換成各種物料。大模型泛化性體現在任務流程安排以及對不同物品的理解。在大模型智能湧現之前,業界不太知道如何實現泛化,而若不依賴泛化能力、靠專業化編程完成各種任務,對應工作量很大。大模型給機器人提供了一種新的任務規劃思路,行業「見到了希望的曙光」。現在人形機器人有了「大腦」,大小腦便能配合,由大腦做感知理解,小腦做具體動作執行。

王松告訴記者,在工廠中,一台人形機器人是這樣運行的:小腦給大腦提供接口,小腦執行腿部移動、手部運動,負責「向上或向下擰一厘米」和抓握等動作,大腦則負責動作分配、遇到異常情況如何打斷重組動作的部分。

焦繼超以物料分揀場景舉例:人形機器人要識別幾百上千種物料,需要用到高性能且泛化性好或者能快速訓練而成的模型,還需要多模態大模型的感知能力。當工作流程出現異常情況,例如抓取、分揀的物料沒有抓住,大模型應該知道下一步如何做,這體現了大模型的決策能力。此外,機器人識別並計算出物料的6D位姿後給到運動控制模塊,端到端的小模型(小腦)則判斷要從什麼部位抓起不同物料,這種小模型用到了強化學習和模仿學習。

人類經過漫長進化時間學會的簡單動作,對人形機器人而言卻是複雜的,等到大模型出現,人形機器人才開始學會用大腦思考並進入工作崗位。

大模型做不到的

雖然大模型給了人形機器人一束「曙光」,但人形機器人的AI能力絕非來自大模型一種。作為AI技術的集大成者,人形機器人受到各種技術的牽引和羈絆。拆開看這些技術進展,或能更好理解目前人形機器人的能力和局限。

今年與人形機器人相關的細碎事件中,藏著一些重要進展。年初史丹福大學炒菜機器人Mobile ALOHA亮相。這台機器人可通過神經網絡學習人類雙手操作,經過學習數十次演示,機器人可完成自主煮蝦、擦桌子、洗盤子等任務。業界將其視為模仿學習的突破。年內,還有機器人廠商展示了雙足機器人走出實驗環境、在自然環境行走的能力。以逐際動力的雙足機器人為例,該公司創始人張巍介紹,機器人背後有強化學習技術的突破,該技術「開關」是在最近一年左右時間發現的。

模仿學習可認為是機器在模仿人類行為中學習,好處是,模仿學習不像大模型,無需極大量數據訓練就能學習並完成某些任務。強化學習則能理解為人為給機器人設立一個目標,讓機器人在不斷試錯過程中通過獎勵和懲罰,學會做出正確決策。

焦繼超認為,過去一年與人形機器人有關的主要技術突破正是基於模仿學習或強化學習的端到端操作。基於強化學習的運動控制步態能讓機器人在實際場景更多應用起來。模仿學習則在特定環境下,機器人的雙臂靈巧操作有較好表現,且可較快落地,減輕複雜任務操作上的一些困難。「但不論是強化學習還是模仿學習,泛化性都是比較大的挑戰。且模仿學習在很大程度上還依賴人工遙控操作採集數據,對數據質量要求較高,這些數據很難在模擬環境中生成。」

王松也告訴記者,近一年AI的主要技術進展除了大模型帶來的機器人決策能力提升,還包括深度強化學習和模仿學習的突破。「強化學習解決了人形機器人的動作問題,增強了對複雜環境的適應能力。模仿學習則與大模型的相關技術架構比較像,它提供了一套機器人端到端的控制思路,其背後也是一套針對特定場景任務的模型,但參數量不是很大。」王松稱,模仿學習還是有走向通用泛化的可能,屆時參數量一定會非常大。下一步,模仿學習將集中解決泛化能力較差的問題。例如,史丹福炒菜機器人一個小模型一次只能完成一個任務,現在出現了新的思路,如谷歌的相關模型在一個模型中能完成多種任務。

大模型方面,除了在決策規劃層面發揮作用,年內多家廠商還展示了人形機器人結合大模型後的互動能力。例如,Figure AI人形機器人接入OpenAI模型後,能伸手拿起桌上的蘋果並解釋這麼做的原因。優必選則展示了人形機器人接入百度文心大模型後的表現,該機器人也能與人類對話。

不過,交互能力在工業等場景並非必需,實際上,大模型在人形機器人身上的應用還不夠廣泛,本身也有頗多局限。

例如,人形機器人身上負責執行動作的小模型可以由大模型蒸餾(輕量化)而成,但這並無必要。王松稱,蒸餾後的小模型效率和執行精度比不上傳統的運動控制,簡單的正逆運動學算法已很準確,用模型求解更像走彎路。

此外,大模型作為「大腦」,把大模型參數量做大、以此提升模型能力也不太可能。大模型推理需要耗用算力,背後也需充足的電力支持。

優必選人形機器人搭載的大模型最早是70億參數,目前參數則是10億左右。焦繼超表示,大模型推理對硬體CPU、GPU要求較高,而人形機器人硬體算力水平與桌面級伺服器相比還有較大差距,如果大模型不做輕量化就難以在端側運行。「(端側算力限制背後)算力晶片、電池兩個原因都有,目前小型化算力板不多,且雙足人形機器人結構空間受限,不能搭載太大的電池(以供給計算)。」王松稱。

往後看,業界對大模型的期盼遠不只讓它作為「大腦」提供任務規劃決策,而更希望大模型能更「順滑」地整合機器人全身,這可以簡單理解為用整套神經網絡控制機器人,體現為與人類相近的具身智能。多名業界人士向記者表達了類似的觀點,即希望未來大模型能集成各小模型,做到真正的端到端(End to End),例如機器人在了解周圍環境後能「天然」地知道該怎麼做,而無需機械地將機器人運作過程分層為感知、規劃、控制等模塊,對機器人施加太多控制。端到端神經網絡是一種類似人腦的工作模式,在自動駕駛領域已經過一定驗證。

但端到端要在人形機器人身上實現並不容易。

真實數據缺少

焦繼超表示,目前行業還無法實現用純端到端的方式完成某項任務,例如抓取任務中的識別、感知等由同一個模型輸出,但希望未來用端到端能力,讓人形機器人能根據突發情況自主完成任務。

「現在自動駕駛做端到端,(達到)L4級別無人駕駛,而在十年前智能駕駛也是分為感知、預測、規劃、控制四個部分,後續才逐漸合併,積累到足夠數據量時才嘗試端到端訓練,獲得能力上很大的提升。」來傑稱,機器人應該也是這個路徑,當數據積累到足夠大時,自然會解答「是否合併」等問題。有人形機器人從業者告訴記者,目前做不到完全端到端,一大原因是訓練所需數據量不夠。

與大語言模型的數據瓶頸相似,數據量不足成為人形機器人智能化發展的一大掣肘。不同之處在於,大語言模型數據瓶頸源於網際網路可用的文字資料逼近極限,人形機器人的數據瓶頸則在於真實數據難以獲取。

焦繼超稱,在VLA(visual language action)數據缺少的情況下,大模型參數量如果較大,訓練很難收斂。目前visual language數據量較多,但加上action運控數據,數據量少,而運控數據無法通過模擬的方式生成,因為這類數據需要通過硬體收集,且需要在真實環境下收集,如果採用仿真數據,會出現過擬合問題。

「特斯拉做無人駕駛也是在一開始採集大量真實數據,逐漸構建世界模型,再(從用戶開車的實踐中)採集真實數據。前提是要有足夠的真實數據。」焦繼超稱,優必選通過搭建真實場景採集數據,與用戶合作採集並使用部分仿真數據,真實數據量需要遠高於仿真數據。要在有足夠好的模型能描述物理世界,甚至與物理世界運行規律完全一樣的情況下,所使用的仿真數據才能超過真實數據。

「我們用仿真數據、人體動捕數據、機器人實操數據。」來傑稱,硬體是數據的來源,這也是為什麼人形機器人硬體和AI需要同步發展。最有價值的是從機器人本體而來的數據,搭建數據工廠、行業共建數據集是值得嘗試的辦法。

騰訊首席科學家、騰訊Robotics X實驗室主任張正友在7月底「AI時代的人機關係展望」論壇上也指出具身智能數據稀缺的挑戰。他表示,Open AI最初希望直接通過機器人達到AGI(通用人工智慧),由於數據的缺乏後面放棄了,數據問題還是需要解決。

具有啟發性的是,在數據層面,人形機器人已體現的軟硬體強耦合,可能還會繼續體現在人形機器人後續的發展中。焦繼超告訴記者,機器人自主能力的體現還需關聯硬體,如果硬體性能達不到,軟體再強也只是停留在仿真環境。王松稱,人形機器人的軟體和硬體是強耦合關係,彼此需經過相互疊代過程。

「大模型時代有人認為大模型很厲害,放到機器人上馬上就能夠實現(AGI),但實際上不是。」張正友表示,打個比方,現在相當於20歲大腦放在3歲的身體上,機器人雖然擁有一定的移動能力,但操作能力非常弱。而真正的具身智能要能自主學習和處理問題,對環境變化和面對不確定時能自動調整和規劃,這是具身智能通往AGI或打造通用智能機器人非常重要的過程。張正友表示,將大模型「塞到」機器人頭中,只能達到部分智能,還要待智能與本體有機融合,機器人與環境交互中才能湧現真正的智能。

文章來源: https://twgreatdaily.com/zh-tw/da13eaa03c41e14f20cb45555bc38521.html