肇觀電子馮歆鵬:五大技術讓機器人看懂世界,AI視覺晶片實現顛覆式創新丨GACS 2023

2023-10-31     芯東西

原標題:肇觀電子馮歆鵬:五大技術讓機器人看懂世界,AI視覺晶片實現顛覆式創新丨GACS 2023

芯東西(公眾號:aichip001)

編輯 | GACS

9月14日~15日,2023全球AI晶片峰會(GACS 2023)在深圳南山圓滿舉行。在首日AI晶片架構創新專場上,肇觀電子的CEO馮歆鵬分享了主題為《AI視覺晶片打造機器人的核心感知能力》的主題演講。

馮歆鵬先介紹了VPU的定義以及學科基礎背景,認為VPU的市場規模和GPU相當,在世界正在從2D轉向3D的技術革新中,是未來機器人等智能設備必不可少的重要組成部分。

肇觀電子在產業內積累數年之久,也從其中汲取了不少落地經驗,並將其賦能與產業。馮歆鵬還提到肇觀電子幾個有趣的落地場景案例。比如說,如何打造能夠在冷庫中工作的機器人,又如何讓汽車能夠巧妙的避開障礙物等等。此外,他還認為未來世界,將會是機器人和人類共存的狀態。

以下為馮歆鵬的演講實錄:

大家好!我是肇觀電子CEO馮歆鵬,很高興今天有機會能夠跟大家分享。肇觀電子名字聽起來比較獨特,肇是開啟,觀是視覺,開啟視覺的意思,英文是NextVPU,也就是Next Vision Processing Unit,下一代視覺處理器的意思。

我們是一家做計算機視覺和人工智慧端側的晶片和模組核心元器件的公司,我們做的事情就是幫助所有智能設備,讓它看懂世界,賦予它看懂世界能力的事情。我們的下游也比較廣泛,在機器人、車載、工業、安防、消費都有諸多的應用。

一、要讓機器人看懂世界,需解決五大技術問題

今天我講的主題聚焦在機器人方面,機器人在過去的很長一段時間,一直是熱點的領域,也經歷了很多年的發展,到現在機器人領域在快速地發展,而且將來市場非常廣大。所以特斯拉馬斯克說過特斯拉現在已經不是一個車載公司,是機器人公司。

大家想要解決的問題其實很類似,當今世介面臨很多挑戰,解決這些挑戰的一個現實有效的措施,是提高生產效率。如何能夠快速地提高生產效率?就得利用發明或者創造更加智能的設備,來自動幫人解決很多問題。

我們都希望將來的世界大機率會是一個無人工廠、無人農場、可穿戴設備、無人駕駛汽車,是一個高度自動化的世界,這些智能設備可以提高每個人的工作效率以及生活的質量。咱們這個會場可能有很少的機器人,但是過數年後,全球可能是300億個機器人和90億人口共存的一個世界。

300億個智能設備很重要的就是具有視覺能力,機器人要能自主地在空間中移動,去解決它的這些問題,完成它的任務。這些設備自主移動、需要全天候地移動,需要24小時在各種惡劣條件下、各種環境下,能夠正確地解決它的問題,這需要它有相當程度的視覺能力。

我們肇觀電子做的事情,就是幫助所有設備賦予它「視覺能力」。

視覺,大家都比較理解,它對於每個智能生物和智能設備都非常重要,人對信息的採集主要是通過眼睛,同樣對設備而言,視覺能力是它的核心技術能力,所以我們在做這樣一件事情。

我們讓設備看懂世界的話,要解決幾個子問題,就是設備要看懂世界,首先得看得見世界,還得看得清楚、看得懂。

看得見和看得清楚,在現場這樣的光照下是挑戰相對比較低的場景。但是如果需要一個智能設備在完全無人化地去解決它的問題,在全天候、全場景地去做,這個問題就變得非常複雜。

機器人往往會被要求在人眼都睜不開的強光下,還能夠正常地成像;在很黑暗的區域,比如黑燈工廠,它還要能正常成像;還有在強逆光下,比如智能車很大的挑戰就是遠光燈打過來的時候,人都覺得晃眼,車也是一樣,所以這些設備要在強光下、弱光下、逆光下都能正常成像,看得見這些該被看見的東西,這些是非常重要的基礎。

因此,成像對智能設備能看懂世界非常重要,它首先得看得見、看得清楚世界。

這是我們肇觀電子從成立到現在,一直在孜孜不倦解決的方向。成像這個方向可以做50年、100年,是非常浩瀚和非常長的領域。我們取得了一些階段性成果,但還是在持之以恆地繼續做。

另外一個很重要的對於機器人的基礎能力就是3D感知,機器人如果固定在那裡,不跟周圍環境交互,這個問題相對好一些,但一旦機器人動起來,就涉及到跟環境中的物體如何互動的問題,那麼機器人不能撞到人、不能撞到寵物、不能撞到機器人,所以遇到這些問題的時候,機器人要移動。

像慢速的機器人,大概每秒鐘移動0.2米到1米;如果像人的步速機器人,大概每秒鐘是1.5到2.5米的速度;如果是兩輪車或者四輪車,速度越來越快;還有像飛機這樣更加高速移動的設備,這些設備但凡要移動起來,就會跟周圍的空間環境帶來一些關聯。

對於周圍做正確的3D感知是每一個自主設備,每一個要在空間中移動的設備的核心基礎能力。3D感知是機器人讓它變得更智能的核心能力,這也是肇觀電子在晶片上做了一系列的事情,使得這些機器人的應用能夠更好地感知周圍的環境。

AI是機器人的另一大方面,剛才很多嘉賓分享了在AI方面諸多的成績。AI對於機器人,當它能夠正確識別什麼是地板、什麼是牆壁、什麼是天花板,其實這都是很有挑戰的事情。大部分情況下,人一看就知道這是地板,但對機器人而言,要嚴格意義上讓它99.99%的情況下知道是地面還是桌面,要加以區分,是非常困難的一件事情。

所以AI解決的就是這樣的問題,桌子、椅子、茶杯是不一樣的物體,如何做語義分割,如何在高速移動物體情況下還能正確識別,這是非常重要的事情。AI的處理能力對機器人也是一個基礎能力。

VSLAM,也就是Visual Simultaneous Localization And Mapping,實時定位和構圖技術對機器人也非常重要,對於空間的復刻,數字化整個環境,顯示定位自身,把周圍地圖都畫出來,是智能設備、智能生物的基礎能力。

SoC,當我們解決了諸多的這些問題之後,我們需要考慮到一個工程化系統層面可執行、可落地、可商用,能夠切實給我們下游帶來好處,形成價值鏈閉環的載體,就是SoC,片上系統。一個完整的晶片必須具有諸多的功能,這樣使得我們不用在電路板上用多個晶片搭出來一個系統,而是直接在一個板子上用一顆晶片,一顆晶片解決所有問題,這樣才能做到高性能、低功耗、低成本、低系統複雜度,有諸多好處。

可以看到,解決這些機器人看懂世界是我們的目標,我們要解決的事情,要在成像、3D、AI、VSLAM、SoC解決這五個問題,這五個問題也是肇觀電子從成立到現在一直在積累的能力。

二、攝像頭正在從2D向3D躍遷,VPU市場與GPU市場相當

機器人的發展在這幾年非常快速,我們也切實地看到了在一些比較艱苦的工作環境下,高溫下、低溫下,在比較惡劣的環境下,以及枯燥的、繁重的這些勞動下,機器人換人的比例在非常快速地上升,機器人的滲透率不斷地走高。

機器人有很多種機器人,有工業機器人、服務機器人、人形機器人、特種機器人、無人機等各種移動物體,如果速度再快一些,可能四個輪子的汽車也是一種機器人。這些設備在不知不覺地快速發展,而且這些設備上面都需要越來越強大的視覺能力,能夠看懂周圍。

很多機器人它不像人,咱們人只要往前看就可以了,很多機器人比人更先進,它需要四面八方都要看,所以它的身上要裝很多眼睛,這也是我們在幫助我們的下游做的事情。

視覺的前身是圖像處理,發展了很多年,正在面臨比較大的變革,就是從2D往3D在發展。我們知道蘋果在消費端發布了Vision Pro,在內容生產上做了一些事情。世界是3D的,無論現在手機也好,各種照相設備也好,都是2D成像,它帶來了一維信息的損失,這個損失其實是非常可惜的以及非常重要的,因為那一維信息很重要,所以往前走,大家所有的採集信息拍照設備一定會變成3D。

我們知道從量的角度來講,現在全球每年大概15億隻手機,大概9000萬輛車,每個車上有十幾個攝像頭,有很多的家電,所有這些上面的傳感器、攝像頭將來都要從2D往3D躍遷,所以我們現在面臨比較大的技術變革。

我們做的VPU,跟GPU比較相似的名字定義,GPU大家已經非常熟悉了,GPU的學科基礎是計算機圖形學,VPU的學科基礎就是計算機視覺,計算機視覺跟計算機圖形學這兩個學科是完全相逆的,VPU乾的事是更接近人的智能的本質,它是讓設備看懂世界,看懂世界之後這個設備就具有了相當程度的智能,我們都說解決AI問題一半的問題在於視覺,所以解決視覺問題也解決了相當程度的人工智慧問題。所以VPU的市場非常之廣闊,GPU市場大家都知道很大,VPU其實不比GPU小。

這是我們做的階段性成像成果,我們在暗光、逆光、強光下做一些事情,這些成像是永無止境的事情,我們調整了很多傳感器,和各類傳感器廠商的關係也非常好,大家互相扶持,也幫助前面的透鏡、中間的光電轉換以及SoC,這大家在成像系統裡面屬於三個重要的部分。我們互相扶持幫助彼此解決對方的問題,形成一個非常好的成像系統。

成像系統可以說永無止境,不同的客戶有不同的需求,而且不同客戶要求也越來越高,所以在這個領域我們做了非常多的事情。

在實際落地中有各種各樣奇奇怪怪的問題,透鏡有透鏡的問題,現場又有特別奇怪的光照情況,在這裡面這些問題都需要加以解決,肇觀電子在過去一段時間幫助各種客戶解決他們實際的問題。

這是我們正在做的一些3D技術,無論是在純室外、室內外切換的場景還是純室內場景,我們做了系列3D的技術,這都是用晶片來去做一些計算。在室外,比如像車,以及像各種室外工作的機器人,都需要我們這樣的技術,來解決3D感知的問題,使得機器人能避開障礙,知道自己在哪裡,能獲得這些重要的信息。

這是我們基於晶片做的一個VSLAM的案例,我們的一位員工拿著智能3D深度相機在空間中移動,紅色的線是相機移動的軌跡,通過這些掃旁邊的一張桌子,把它掃描出來,這是實時掃描的結果,我們在晶片上做了很多特徵點的加速,各種濾波的加速,在上面做很多VSLAM硬體的底層硬體加速的事情,使得離線在端側實時做三維重建成為可能。

很多應用對實時性要求非常高,一個機器人,我們不希望它像恐龍一樣,看到的東西等它反應過來已經是1秒之後了,這是不行的,很多機器人希望0.1秒,也就是100毫秒就要反應過來;這就涉及到感知,從光子打到傳感器到它全部處理完然後作出反應,100毫秒內要解決問題。所以很多時候,端側的處理能力非常重要,因為有些時候是來不及往雲端傳輸數據,解決完再傳回來。當然雲端也非常重要,所以雲和端都是在很繁榮地往前發展。

AI大家比較熟悉了,這些都是具體的落地應用,肇觀服務了非常多的各種各樣的客戶,解決客戶的問題。

三、一款汽車多個部位用到VPU晶片,VPU做機器人的眼睛

我們的晶片被用在了汽車上,用在車的三個鏡子上,車內後視鏡以及車的兩個外後視鏡上,以及被用在車的攝像頭裡面,以及被用來做ADAS比如LDW(車道預警)、交通標誌輔助識別、駕駛員疲勞監測、乘客監測、DVR,做BSD盲區檢測等等。在車載領域,我們是車規、國產、高畫質、低延時,性能還不錯。大家如果對車載晶片有需求,我們是比較好的選擇之一。

一個具體的應用案例是一個電子後視鏡,在下雨的時候,畫質非常清晰。在黑暗的場景,通過螢幕看,電子後視鏡仍然很清晰。

四、基於肇觀自研晶片打造費曼系列智能深度相機,更進一步服務下遊客戶

我平常隨身也帶著晶片,放在一個小盒子裡,給大家展示一下;做晶片就是有這個好處,產品非常小,可以隨身攜帶。

我們基於自己晶片的電路板做了智能深度相機,這就是機器人的眼睛,我隨身帶的一個機器人的眼睛。工業機器人、服務機器人、人形機器人、特種機器人、無人機器人等各種各樣的機器人,都需要這樣的眼睛。這個眼睛解決的問題是幫助機器人3D感知,AI識別全在裡面做了,成像,以及輸出碼流。

所以,一個小的模組,像口香糖一樣大的模組,就解決了機器人眼睛所有的問題。

我們花了很多力氣在做這個產品,來解決客戶的問題。舉例來講,很多很嚴苛的客戶,要求我們把眼睛要做到世界第一;在沒有我們的時候,是有一家海外的巨頭來提供類似的模組。有了我們之後,我們被客戶要求替代掉海外巨頭,被要求在很多的技術點上要磨到世界第一。

舉一個很簡單的例子,像這樣的模組,它的連接是USB3.0的連接,大家可能有些人比較熟悉,就是一根線,拖出來插到電腦上充電也好,數據傳輸也好,都可以用。從技術角度而言,USB協議其實不是一個特別穩定可靠的協議。大家如果關注這一點,在工業這種場景下,不穩定可靠是致命的,如果通過USB連接,把這個數據穩定傳出來,我們的客戶要求我們10萬小時的連接不能中斷一次,這就要求非常高了。所以為了達到這樣的目標,就是海外巨頭都做不到這一點,因為它有一些天生的不足導致的問題。

為了達到這個10萬小時一次連接都不斷,我們被迫要去在晶片級、在所有的底層驅動都重新寫一遍,在跟它連接的另外一端的軟體也要重新寫一遍,所以全部的硬體軟體都要重新做,所以才能做到10萬小時不斷連接的場景,這只是客戶的諸多非常細的要求之一。

在這個過程中,我們能夠提供給客戶穩定的、可靠的、智能的、3D的深度的相機,適用於各種極限場景,比如說我們有冷庫機器人的客戶,它的機器人常年在零下18度搬海鮮的客戶,它的眼睛就需要在零下18度每次都能正常啟動,完成它的任務,然後再關機。但是比如海外巨頭的產品在零下18度開機都開不出來,我們被要求在如此低溫下能正常工作。我們也被要求在非常高溫下要能正常工作,所以這裡面有非常多的客戶需求。

所以我們在跟諸多客戶在過去很多年一直在打磨,我們積累了非常多解決方案,這些解決方案反過來幫助了肇觀如何能夠設計出更好的晶片和模組來切實解決客戶的問題,這是非常重要的。

在這個過程中,我們也深刻理解了客戶的使用場景,客戶面對的各種問題。因為這些模組主要賣給這些toB的客戶。我們作為一個核心元器件廠商,如何幫助他們解決問題,在這裡面肇觀也收穫了很多寶貴的經驗。

五、支持荷蘭語德語等各種語言,OCR識別正確率全球領先

肇觀也應一類客戶要求,在OCR的領域做了很多事情。不謙虛地講,在自然光照條件下各種複雜文本的採集分析方面,我們在這個領域,在全球範圍內做得算是比較領先。

舉例子來講,比如彎曲的各種文字、不同的背景下,我們文字的採集、文字識別和處理做得比較領先。比如說,右下角這是一個日本的報紙,日文報紙有豎排、橫排混在一起,我們就被客戶要求把它完全正確處理出來,而且把順序排好,要能夠語義能夠理解出來。所以在OCR領域,我們做了很多事情,現在已經支持十幾種不同國家的語言了,在這個領域算法做得比較領先。

這是我們OCR的具體例子,我們的識別準確率,我們支持中文、英文、日文、韓文、阿拉伯語、西班牙語、葡萄牙語、法文、德文、荷蘭語等各國語言,我們支持各國語言的OCR,我們在這方面做得算是世界領先之一,我們不僅做逐字的識別,在表格的識別,還在各種時尚雜誌、繪本等複雜頁面裡面,能把該提取的東西提取出來,不該提取的不提取,在這裡面我們做了非常多的事情。

大家如果誰對OCR的算法或者技術有需求,也歡迎聯繫我,聯繫肇觀電子,我們都很樂意在客戶的產品中貢獻一點力量。

肇觀一直致力於用AI視覺晶片來幫助所有的智能設備看懂世界,來做這樣一件事情,這個事情對我們而言意義非常重大,對這些智能設備而言也非常重要,所以在這個領域,我們一直在深耕我們的晶片,深耕我們的核心能力,更好地幫助到客戶。今天我的分享就到這裡,感謝大家!

以上是馮歆鵬演講內容的完整整理。

文章來源: https://twgreatdaily.com/zh-mo/e76ff29ac25730fe9c2a1bddff1407fb.html