核心提示:
1. AI基礎設施是構建於雲平台基礎上,以算力平台和數據平台支撐形成的AI技術開發平台、能力平台、場景技術方案綜合的、具備AI安全保障能力的大型技術系統和工程系統。
2. 在基礎設施之上,要不斷在應用場景當中發揮應用價值,以此形成正向的循環,能夠促進基礎平台進一步發展,促進整個AI系統進一步進化。
3. 在AI產業化過程當中,因為其過程鏈條長、決策複雜,需要社會全方位多方整合力量進行積木式創新,因此共生共贏的生態系統就應運而生了。
4. 重視人才培養,加大力度培養既懂應用場景,又懂AI技術的復合型新型人才,通過構建相應的教育、培訓體系以及職業體系保障,多方位培養AI技術及應用人才。
最近這段時間,隨著加快新基建的要求提出,新基建的建設現在已經是非常重要的話題了。所以我今天帶來的是關於人工智慧新型基礎設施建設的理解。後面我簡稱為AI新基建。新型基礎設施建設雖然簡稱「新基建」,但它其實是以5G、人工智慧、工業網際網路、物聯網等為代表的新型基礎設施。
本質上來說,它是信息數字化的基礎設施。
AI基礎設施
首先,我來介紹作為AI新基建中最基礎,而且也是最重要的硬核部分,AI技術平台及以AI技術平台為核心構建的一套基礎設施。
算力框架與平台介紹
我今天以百度的工作為例來介紹。
AI技術涵蓋的子領域非常廣,整個的AI技術系統本身開放性很強,它和應用場景也有非常多的結合,和應用緊密相關,而且會隨著應用的發展,持續地進行自身進化,所以它並不是一成不變的,而是一個不斷演進演化的系統。
百度大腦是百度AI技術的集大成者,可以看圖一簡單地回溯一下百度大腦的發展歷程。特別看2018年的時候,百度大腦核心技術進入到「多模態深度與理解」的階段。所謂多模態就是綜合語音、視覺、文本的理解能力,並且是深度多層次的語義理解。而AI能力在這個階段也已經開始了多維度、多層次的開放狀態。2019年,百度大腦進一步升級為軟硬一體AI大生產平台。在這段時間裡,百度大腦也進入到了AI的能力和應用場景融合創新的階段,和各行各業的場景廣泛結合成為了AI時代的大生產平台。
AI大生產平台,是一個什麼樣的平台?這個名字聽上去可能會覺得有一些黑盒,如果我們打開黑盒去看,整個組成部分最基礎的是算力和數據平台。在整個生產平台上,深度學習平台是底座基礎。通過深度學習平台,開發者可以去開發自己的AI應用。這裡也會提供給大家通用的AI能力,比如語音的、視覺的、自然語言、處理知識圖譜等一系列的AI能力的調用。
再結合到場景當中,是有大量的應場景需要進行定製訓練的需求,所以也開放了定製訓練平台。最終整個平台上所積累的能力需要能夠和業務系統進行部署和集成,所以也提供了部署與集成的工具和平台,在此基礎上也形成技術解決方案。整個的平台大生產平台本身由AI安全保駕護航,因為在AI的整個應用過程當中,安全也是重要的話題。
接下來我們從整個平台的底層向上,逐層來看一看,現在的這些內容的含義以及進展。
最底層是AI基礎架構,這是整個大生產平台的計算底層。隨著AI算法能力提升,它對算力的要求是越來越高的。有這些計算力的基礎資源才有可能對大數據進行計算,最後產生AI的算法模型。
面對即將到來的AI+5G時代,未來計算將會無處不在。它會從雲擴展到端、邊緣等等,在我們身邊時刻都能進行各種各樣的計算。在百度大腦上,全新的AI計算架構,通過晶片層、互聯層、系統層以及調度層,進行協同設計和技術創新,最終可以提供百萬TOPS量級的強大的計算力(見圖三)。與此同時晶片之間、系統之間,還有設備之間都能夠互相連接,將不同場景中的計算連接在一起,從而產生一個綜合的更強大的計算能力。
百度在使用經典的晶片基礎上,也有在自研晶片。我介紹兩款自研晶片,一個是雲端通用AI處理器,百度崑崙,這是一款雲上的處理器。在這款晶片上,我們針對語音、自然語言處理,還有圖像進行了專門優化,優化之後,性能可以更加提升。同時百度崑崙和飛槳等深度學習平台的框架進行了非常好的深度適配,使得編程靈活度更高,能夠靈活地支持訓練和預測。總體來說,在同等性能下使用崑崙可以在成本上降低10倍。
還有一款是在端上的百度鴻鵠,這是一款專用於遠場語音交互的晶片。在100毫瓦功耗情況下,鴻鵠晶片可以支持遠場語音交互核心的陣列信號處理和語音喚醒能力,這些能力會用在哪呢?主要在車載語音交互、智能家居等場景,會帶來低功耗、高性能的計算能力,也能夠給這些場景帶來更大的想像空間。
同時鴻鵠晶片在流片的同時就已經實現了量產,現在已經在百度的相應產品當中去使用了。
在算力層向上,向下連接晶片,向上連接了應用場景的就是深度學習框架及平台。在AI時代能夠幫助開發者便捷、快速完成深度學習技術的研發,這是深度學習平台的使命,深度學習平台是智能時代的作業系統。在飛槳產業級深度學習開源開放平台上,我們已經構建起了整個全方位、全功能的平台。
圖六是飛槳的全景圖,它在核心框架層能夠支持開發者進行開發、訓練、預測等全流程的研發工作,在飛槳上還發布了百度自己以及百度的行業夥伴一起打磨過的工業級的一系列模型,覆蓋到了像自然語言處理、視覺推薦、語音等等,這些主流的AI算法方向上的官方模型庫。
在真實場景中應用的時候,往往還需要有端到端的配套的開發套件,以讓場景的整個開發過程更加便捷、便利,並且能夠去復用以前已經做好的各種各樣的積累。現在飛槳在語義理解、目標檢測、圖像分割,以及點擊率預估這四大場景上都有配套的套件,可以非常便捷地使用。
飛槳平台也提供了相應的工具組件,在平台層使用的時候也提供了服務平台。這樣的平台在開發的過程當中提供了便捷的框架,在訓練過程當中提供了超大規模深度學習模型訓練技術,在部署上也是針對多端、多平台、全面部署高性能推理引擎,同時還有產業級的開源模型庫,這些都已經綜合提供出來,可以供產業使用。
AI算法方向的最新進展
語音識別
語音識別應該是AI算法中發展歷史比較悠久,目前的可用性、可用程度已經非常高的一項技術。當然它還持續地有技術上的突破。
百度上線了首個基於流式注意力的語音識別線上服務,這也是在國際上首次實現了在線語音識別大規模使用注意力模型。技術使用之後,語音輸入法可以達到相對準確率50%的提升,在音箱這類產品中,準確率甚至提升到了20%。同時隨著端側的智能設備的廣泛使用,在離線的語音識別上,無網狀態以及弱網狀態現在也有越來越多的需求。百度的語音技術團隊,通過系統性的優化,也解決了語言模型裁剪性能損失問題,使得離線模型現在也已經具備了非常高的識別率。
語音合成
我們知道,在語音合成的時候,如果合成出來的聲音,比較偏重於機械感,缺少情感,那麼聽的時間太長就會非常疲憊。所以音色模擬、情感模擬等等方面,都會是語音合成當中需要突破的挑戰。百度推出的語音合成技術,用20句話就可以製作專屬的語音,定製語音,將聲音當中的音色、風格、情感等要素映射到不同的子空間,在使用的時候,不同要素可以進行任意組合。
在百度地圖上已經推出了全球首個地圖語音定製功能,大家也可以試一試,只需要錄製20句話就可以做成一個個人專屬的語音包。
視覺理解
百度這些年在OCR物體檢測、視頻理解、目標跟蹤等業界領先的圖像與視頻技術也多次在國內外頂級賽事中取得了佳績,並且這些技術也已經在機械製造、金融、醫療、教育等領域得到了非常廣泛的使用。
虛擬形象
虛擬形象合成方面,當我們已經對大量的語音、視覺以及文本的理解能力達到了一個非常高的水平之後,AI算法也在嘗試推進去做虛擬形象的合成,儘可能形成更加自然,更加像人,更加具有豐富情感的虛擬形象。
百度合成虛擬形象技術其實結合了多模態的識別和理解,比如語音的識別、視頻的理解,還有面部的、肢體的、嘴型的生成能力,以及語音合成TTS的技術,從而實現了業界首個可以進行量產視頻的真人形象的虛擬主播,這也在多個場景當中應用。
比如央視和百度合作打造過AI虛擬主持人小玲,她在央視去年的五四晚會上亮過相;澎湃新聞也和百度一起打造了第一個真人形象的虛擬主播,用在了早晚新聞欄目上;浦發銀行和百度合作打造了業內首個金融數字人,它有情感,有專業的銀行知識,能夠提升銀行的客服體驗。
基於知識圖譜的語義理解
語音視覺等技術在人工智慧技術當中屬於感知層技術,類比人的這種感知能力。人還有非常強的認知能力,認知能力主要體現在自然語言處理、知識圖譜等語言和知識類的技術上。百度構建了超大規模、多元異構知識圖譜,包含有實體圖譜、事件圖譜、行業圖譜、關注點圖譜、POI圖譜等等,這些圖譜都會根據需求場景的需要不斷地擴充和延展。
我舉一個例子,基於知識圖譜的視頻與理解,用感知層能力去進行視頻的理解的時候,可以通過視覺理解去提取視頻當中從視覺視角上看到的特徵;語音識別還可以對視頻當中人物的一些對話、言論等進行語音上的識別和提取特徵;對視頻的標題以及周邊文本也可以進行文本理解。在這些基礎理解之後,我們還可以再去結合知識圖譜當中的視頻理解子圖,在知識圖譜當中進行計算和推理,可以對剛剛產生的理解的標籤、理解的特徵進行補全、關聯等等一系列操作。最終用在產品上,會對整個視頻的內容有更深度的理解。這是一個用感知技術和認知技術結合,進行多模態融合的一個非常典型的例子。
那我們再看看對人的語言的理解。如果AI技術能夠進行完全充分地理解人的語言的話,這將是邁向通用人工智慧的非常重要的技術的突破。當然在這一方面,也是持續不斷地有新的突破。
百度推出的ERNIE是持續學習的語義理解框架,在這個框架下,可以進行知識增強的語義理解。我來解釋一下它的含義是什麼?比如說我們想讓AI算法理解實體,我們會用百科的內容、網頁的內容去進行實體識別任務的構造,然後由預訓練模型進行學習,再對場景進行針對性的fine-tuning。這樣就可以得到實體識別的更強的理解能力的模型。再複雜一點的任務,比如構建因果關係這樣的識別任務,也可以通過技術的方式構造大量的因果知識,然後由大的預訓練模型進行學習,再進行任務上的調優學習。
那麼整個這樣的過程已經將自然語言理解的能力帶進了一個新的狀態。百度的ERNIE模型已經學習了有13億以上的知識,也是在NLP任務上全面刷新了任務的效果。目前已經在共計16個中英文章任務上超越了Bert、XLNet,取得了SOTA效果。我們可以看到圖十二里展示出來的就是在不斷地加以新的知識讓ERNIE模型進行學習的過程中,推動自然語言推斷、自動問答、文本相似度和情感分析等任務上有持續不斷的效果提升。
AI安全
百度大腦也打造了完整的AI安全體系,從基礎的開源技術矩陣到開放行業解決方案,到與學術界、企業、政府、機構等多層面的開放協作,整個的技術產品已經覆蓋到了雲管端以及大數據和算法層面的一系列安全風險問題。這樣的安全體系,也是為AI技術的產業應用有一個保駕護航的作用,可以推動AI時代的安全生態的建設,讓大家在使用AI的技術去開展各種各樣應用創新的時候,沒有安全的後顧之憂。
以上是作為AI新基建當中最基礎的技術平台現在的狀態。
AI應用價值
整個新基建也不僅僅是技術平台,還有 AI應用價值的創造。百度的AI技術應用在網際網路產品當中已經有大量的實踐,比如AI賦能的智能搜索、信息流推薦、新一代人工智慧地圖等,以及AI為核心能力的智能家居小度系列的產品,還有自動駕駛阿波羅等等。在百度已有的產品上,AI帶來了非常多的價值。另一方面AI技術其實也已經體現在面向各行各業的應用價值了。我今天想重點分享一下AI+雲賦能產業變革與創新。
我們先看看這樣的一個過程。
剛才在介紹深度學習平台時候,也有類似於過程的介紹。首先我們需要先去面對大量的數據生產和數據應用。所以在百度雲上我們有推出數據工廠。在數據工廠當中,通過數據的眾包、加工、標註等一系列的工作進行數據的處理,也結合百度提供的數據集以及整理的第三方行業數據資源,形成基本的數據集。在應用當中,通過數據的管理、數據評測的平台等,使得整個數據能夠形成一個閉環效應,完整的閉環數據會充分幫助算法達到最佳的效果。
數據生產之後會進入到模型工廠,在AI技術平台支撐下,可以融合算力、數據算法,結合場景產生模型,最終應用到業務系統當中。整個過程和剛才所介紹的AI技術平台上的整個過程是非常一致的。
AI技術的場景應用案例
智能工業巡檢,巡檢這樣的場景是目前為止看到的,對AI技術可以非常快速植入應用並帶來價值的場景。
經常有討論說:AI是不是會大量替代人類的工作,造成人類的失業。實際上在我們現實的生活當中,有非常多的工作耗時耗力,而且需要長年累月的經驗積累,並且可能還有一定的危險性。這些工作既需要熟練工又有危險性,比如像高壓線上的巡檢等一系列工作。現在新一代的年輕人願意投入到這類工作中的人在變少。那麼AI應用於智能工業巡檢,在針對場景定義的問題上,一般來說目前能看到的就是應用圖像的分類、分割、檢測等方法,能夠快速準確識別。圖十五中,這幾個例子有安全帽的佩戴檢測,尤其是礦井裡的安全帽佩戴檢測,它可能會解放我們人類的很多工作,還有煙火的警報、儀器表的讀數識別等等方面。
這方面在應用AI算法之後,相當於訓練成為有經驗的巡檢師傅,可以大幅減少人工投入,也降低了人工學習的成本。
智能質檢。在一線的質檢工廠裡頭,工人每天要進行長時間的工作,尤其是這種精密零件質檢,零件非常小,而且需要在強光下進行。長時間的在強光下看微小的瑕疵,也容易造成工人們眼睛的疲勞。我們看到這樣的一個例子,這家工廠需要每天對出廠的2000多萬個產品,進行所有的檢測工作,每天都是超過10小時的高負荷工作,要檢查多達1萬多個零件。基本上每分鐘每個工人需要檢測19個,還需要對每個零件從多個不同的角度、不同的缺陷進行分類。我們提供了一個AI賦能的表面缺陷視覺檢測設備,它通過百度的AI技術和語音技術,自動對物體表面的缺陷進行大小、位置、形狀的檢測,並按照品質分門別類地分好。
它總體上可以幫助節省90%的人員成本。整個設備本身相比起原來的工作桌這樣的設備來說,可以將占地面積減少80%,漏檢率也是大幅降低。
當然剛才這兩個都是以感知層視覺技術為主的。其實感知層技術加上認知層技術,也可以在智能媒體上發揮作用,通過熱點發現、智能寫作、智能勘誤、以及智能發布整個的全流程,助力新聞的生產過程。
AI在抗疫中的應用案例
我今天其實還帶來了幾個在疫情期間,在整個的抗疫過程當中,對疫情的篩查、管理帶來幫助的解決方案。
首先是AI測溫,AI測溫是一套可以非接觸、進行遠距離多人測溫的設備。現在也已經在數百個場所部署,幫助全國各地完成了700萬人次的初篩工作。
整個AI測溫的過程分為幾個方面,首先在行人路過的時候,通過紅外的熱像儀捕獲到溫度,通過檢測攝像頭來不斷監測,對遠距離的戴口罩的人臉進行檢測。這套方案現在也在百度企業內部署,形成企業入場方案。測溫之後還可以進行人臉的識別、智能監控,並且如果同企業的報備系統打通,可以自動識別是否符合復工入場的要求。這裡所採用的AI技術,就是人臉檢測跟蹤算法,可以實現精準的人臉定位。即使是戴上口罩,現在也可以把身份識別出來。
過去的兩個月,大家應該也都感受到了,社區工作者在整個的抗疫管理過程當中,需要做很多一線的機械的工作。百度推出的基於智能對話技術的外呼系統可以幫助進行人員的隨訪,對人進行批量的外呼。人工智慧語音隨訪可以通過自動的外呼系統,觸達到人群,和他們進行交流和信息的採集,還可以進行防控的相關提醒。這些信息可以立即形成結構化數據分析報告,為後續的一系列決策或管理進行支撐性的幫助。
整個外呼系統所採用的技術包含有語音技術、自然語言處理技術以及知識圖譜等等。
我們知道在醫護人員最忙碌的時候,護理信息的數據採集、登記、錄入等也是醫護人員每天非常重要的工作。百度和相關的夥伴一起打造了語音床護理數據採集系統,通過這樣的設備進行語音錄入就可以了。
醫護人員不用摘掉手套,不用摘掉口罩,不用脫下防護服,就可以輕鬆對著設備進行語音錄入,很快就可以輸入大量的護理信息。這個過程當中,新冠肺炎相應的真實臨床數據,有非常多的醫療專用詞彙,專業醫療符號,我們的語音系統也可以快速進行定製訓練。在醫護語音錄入場景中,可以達到語音識別準確率92%以上。在煙台市傳染病醫院多個科室已經進行了部署使用。
另外,病毒分析和疫苗研發也是抗疫工作中的非常重要的一個工作。在2019年百度曾提出了LinearFold算法,這個算法可以將病毒的全基因組RNA二級結構分析的時間從55分鐘縮短到27秒,大幅地提升了 RNA二級結構分析的速度。目前也是在和很多的機構在進行合作,希望AI算法能夠助力醫學科技。
最後我還想分享的一個是飛槳和連心醫療開源了肺炎CT影像分析模型,這個模型的開源,能夠提升在CT影像肺炎篩查當中的醫護人員的工作效率。這個模型本身,對病灶的檢測精度可以達到92%,召回率97%,湘南學院附屬醫院現在已經在應用當中了。這些都是AI技術和場景結合之後所帶來的一系列的價值。
這些技術在不斷地產生應用價值,而這些應用價值恰恰是新基建非常重要的。
AI生態系統
在與廣大的行業夥伴進行合作的過程當中,我們也看到了對於大量的企業來說,業務創新和應用落地過程當中,其實也存在著一系列的挑戰。
比如說研發方面,AI技術的應用門檻其實挺高的,開發周期往往是不太可控的。有經驗的技術人員可以讓開發周期縮短,但有如果是比較缺乏經驗的研發團隊,它有可能會經過比較長的時間才能夠驗證,得到最佳的效果。在很多的企業進行了AI加持的產品和解決方案的研發之後,市場營銷,以及相應的整個過程,也是需要有大量資金投入的。我們也希望這些AI技術能夠更便利地被廣大的企業所使用。
所以百度大腦開放平台其實構建了多層次開放的能力。
最基礎有飛槳深度學習平台,面向場景有定製開發的平台以及開放的能力,和最後的部署集成一整套過程。現在在百度大腦開放平台上,已經開放了248項能力,整個百度大腦的日調用量超過萬億。在百度大腦開放平台和飛槳平台上進行開發的開發者,超過了180萬,發布的模型也已經有10多萬以上,這些模型都在大量場景當中在使用。
我們可以看到這樣的AI生態系統其實也在形成,AI產業化落地的整個鏈條比較複雜,角色也很多。在整個生態系統當中,我們能看到從硬體供應商到技術平台,到軟體供應到應用開發,到最後的終端場景,是一個多層的完整的生態系統。那麼這樣的一套生態系統,現在已經形成了,並且在我們的基礎設施上不斷地發揮著作用。剛才我所介紹的大量的應用場景當中,所落地的應用和方案也有非常多都是在百度大腦的生態系統中研發落地的。
AI人才培養
除了技術平台、終端場景以及生態角色,貫穿始終的還有一個非常重要的就是人工智慧、產業智能化相應所需要的人才。在AI人才當中,基礎的理論人才、算法人才等等都很重要。但在整個應用落地過程當中,這類人才會更加重要,他們就是既懂應用場景,又懂AI技術的復合型人才。這些人才在大的技術平台型公司里一般都會有,但想讓AI技術和產業去廣泛的結合時,我們會發現這類復合型人才會需要各個終端場景以及生態當中的生態企業,去不斷培養和積累起來相應的人才。
技術邊界和業務理解本身之間是存在鴻溝的,怎麼樣能夠彌補鴻溝?就是需要這些復合型人才來做到這樣的一點。所以百度也有推出一系列對於AI人才、應用型人才的培養計劃。
我今天介紹其中的一個項目,這個項目叫做首席AI架構師培養計劃。怎麼定義首席AI架構師,我們認為在企業當中懂自己的業務場景,懂應用當中的挑戰與難題,又懂AI技術和算法,同時能夠去落地實施的綜合性人才是企業當中的首席AI架構師。對於需要把AI技術應用起來,進行智能化轉型的企業來說,這一類架構師是非常重要的。我們推出了黃埔學院這樣的一個項目,在這個項目當中學員會與深度學習技術專家進行面對面的深度交流;會有深度學習、技術落地的關鍵認知的傳承;以及會去和學員們一起剖析場景需求與AI技術結合的典型案例。最後綜合AI思維、工具、方法和技術解決方案,解決實際的場景問題,在實際的場景當中能夠產生應用價值。
最後進行一個小結。新型的基礎設施建設,不單單是有業務平台就可以實現的,它其實是一個全方位的工作。就好像我們在建設高鐵,高鐵的硬體設施就像今天在建設的AI基礎設施,AI基礎設施就是構建在雲平台基礎上,以算力平台和數據平台支撐形成的AI技術開發平台、能力平台。而場景技術方案綜合的,以及AI安全保障的,是夯實有力的大型技術系統和工程系統。
在這樣的基礎之上,要不斷地產生應用場景當中的應用價值,需要AI加持持續創新,在應用中發揮充分的價值,以此形成正向的循環,它也會促進基礎平台進一步發展,促進整個AI系統進一步進化。但在AI的產業化過程中,因為它的過程鏈條長,角色複雜,也需要社會全方位地多方整合力量進行積木式社會的創新。因此共生共贏的生態系統也就應運而生了。
最後在基礎設施、應用、生態三者形成的閉環當中,我們還需要去重視人才的培養,促成應用更加繁榮,需要加大力度培養既懂應用場景又懂AI技術的復合型新型人才,也需要構建相應的教育培訓職業體系,多方位培養AI技術及應用人才,這也是AI加速產業智能化的重要組成部分。以上就是我對AI新基建的理解,也是基於AI建設新基建,發展產業智能化所需要考慮的幾個重要的方向。