華為大模型來了,網友:外面的世界已經發展成這樣了…

2023-07-15     視覺志

原標題:華為大模型來了,網友:外面的世界已經發展成這樣了…

文章轉載自微信公眾號:差評(chaping321)

老被人說在大模型競賽中掉隊的華為,這次終於帶著它的傢伙事兒來了。

這不,在華為開發者大會 2023 上,華為就狠狠地秀了一把。

將近三個小時的發布會,還是繼承了華為以往大雜燴的風格,看得世超是眼花繚亂。

不過,總結下來其實也就突出了一個主題:盤古大模型 3.0 。

其實就在前幾天,當別的大模型還在比各種評分的時候,盤古靠著世界頂級期刊 Nature 認證的金字招牌,以一種別具一格的方式進入了大家的視野。

據說,加入了盤古大模型,氣象預測的速度提高了 10000 倍以上,幾秒鐘就能出結果,颱風打哪來,幾點來,啥時候走,都能給你預測得明明白白的。

最主要的是,它的預測精度甚至超過了號稱全球最強的歐洲氣象中心的 IFS 系統,算是頭一個 AI 預測贏了傳統數值預測的產品。

要知道,以往的 AI 氣象預測多是基於 2D 神經網絡開發,但氣象這玩意實在是太複雜了,2D 著實有點兒吃不消。

而且,之前的 AI 模型會在預測的過程當中不斷累計疊代的誤差,容易影響到結果的精確性。

所以 AI 預測方法一直都不咋受待見。

而盤古氣象大模型牛就牛在,他們用了個叫 3DEST 的三維神經網絡來處理氣象數據, 2D 幹不了的那就換 3D 來。

3DEST 的網絡訓練和推理策略

針對疊代誤差的問題,模型還用了個 「 層次化時域聚合策略 」 來減少疊代誤差,從而提高預報的精度。

這詞兒雖然聽起來挺容易被唬住的,但其實很好理解。

就比如,之前的 AI 氣象預測模型 FourCastNet ,在颱風來之前,它會提前 6 小時進行預測,在這 6 個小時里,模型會多次計算颱風到底啥時候來。

可能一會兒算出來 5 個小時,一會兒又算出來 4 個半小時,這些結果加到一起誤差就大了。

但盤古氣象大模型想了個法子,訓練了 4 個不同預報間隔的模型,分別是 1 小時疊代 1 次,還有 3 小時、 6 小時和 24 小時疊代 1 次。

再根據具體的氣象預測需求,選擇相應的模型進行疊代。

就比如說,咱們如果要預測未來 7 天的天氣,那就讓 24 小時的模型疊代 7 次;預測 20 個小時就是 6 小時的模型疊代 3 次 +1 小時的疊代 2 次。

疊代次數越少,誤差也就越小。

這波操作,讓天氣預報又邁向了一個新的level。

不過,可能有差友開始犯嘀咕了,人家的大模型都是生成圖像和文字,怎麼到華為這就變成了天氣預報了?

有一說一啊,這盤古大模型跟咱之前接觸到的 ChatGPT 、 Midjourney 的確不太一樣,人家做的是行業的生意。

簡單來理解,就是盤古大模型咱個人一般用不上。

它並不是 大家期待的 ChatGPT「 剋星 」 ,而是針對平時不太能接觸到的To B 市場

咱先不提難與不難,至少華為這麼多年積累下來的企業客戶資源,確實很容易變現。

而且華為這次的發布會可不止帶來了氣象預測模型這一個狠角色。

40 多年都沒發現新的抗生素,盤古藥物分子大模型一來就找著了超級抗菌藥 Drug X ,而且藥物的研發周期從數年縮短至幾個月,研發成本降低 70% 。

盤古礦山大模型也能深入到採煤的 1000 多個工序之中,而且光是裡頭挑選精煤的這一個環節,就能讓精煤回收率提升 0.1% 到 0.2% 。

要知道,一家年產 1000 萬噸焦煤的選煤廠,每提升 0.1% 精煤產率,每年就能多 1000 萬的利潤。

這可都是白花花的銀子啊。。。

事實上,除了上邊兒咱提到的天氣預測、藥物研發和選煤,盤古大模型在很多行業里都已經用起來了。

發布會上,華為雲人工智慧首席科學家田奇就表示,華為雲人工智慧項目已經應用在了超過 1000 個項目中,其中 30% 用在客戶的核心生產系統里,平均推動客戶盈利能力提升了 18% 。

而華為能夠量產這些各不相同的行業大模型,要歸功於華為盤古大模型 3.0 的 5+N+X 三層架構。

正是這種結構,讓盤古能夠快速落地到各個行業里。

為什這麼說呢?

因為 AI 落地行業,數據是一大難點。

張平安在發布會上就說, 「 由於行業數據獲取難,技術與行業結合難,大模型在行業的落地進展較慢。 」

而盤古則很巧妙,通過 5+N+X 的三層架構,直接把這個大難題拆成了 3 個小問題來解決。

首先,是先讓盤古 L0 層的 5 個大模型,學習了上百 TB 的百科知識、文學作品、程序代碼等文本數據,以及數 10 億張帶文本標籤的網際網路圖像。

咱們可以理解為,先讓第一層 L0 的大模型 ( 自然語言大模型、視覺大模型、多模態大模型、預測大模型、科學計算大模型這 5 個基礎大模型 )建立起基本的認知,也就是有點像咱們大學前的素質教育階段。

然後,在第二層 L1 中的模型,則是讓 L0 中的某一個基礎大模型學習 N 個相關行業的數據形成的。這就像大學的本科階段,需要選擇各種專業去學習。

打個比方,醫院裡的 CT 影像檢測跟工廠的圖像質檢雖說用的都是視覺大模型。

但畢竟一個是醫院,一個是工廠,使用場景完全不一樣,光靠基礎大模型那肯定行不通,但如果把行業數據加進去,可能就有驚喜了。

最後的 L2 ,則類似研究生,會在具體行業的基礎上再細化到某個場景。比如在倉儲物流行業里,貨物的運輸、入庫、出庫可能都需要用到不一樣的部署模型。

與此同時呢,華為還在裡頭加入一個反饋環節,有點進公司實習內味了。

根據他們的說法,過去開發一個 GPT-3 規模的行業大模型,通常需要 5 個月;而有了這套東西,開發周期能縮短至原來的 1/5 。

同時很多行業數據集小的限制也能被解決。比如造大飛機這種很細很細的行業,也能有大模型。

除了這一套大模型,華為這次還提出了個非常有意思的東西——算力國產化。

眾所周知,咱們在 AI 算力方面,確實是比較尷尬。

一來, AI 行業的核心設備英偉達的 H100/A100 咱們買不到,二來,即使英偉達 「 貼心 」 出了平替 H800 ,但是也有所保留。比如,在傳輸速率上就砍了不少。

在大模型動輒幾個月訓練時間的背景之下,這就很容易被算力更強的國外同行彎道超車。

而這一回,針對這個問題,華為還是掏了些真傢伙出來的。

比如,在紙面性能上,華為的昇騰 910 處理器已經夠上了英偉達 A100 。

不過實際應用起來,還是有一些差距的。而且 A100 這也不是英偉達的終極武器。

但是,昇騰已經受到了不少友商的認可。華為甚至在發布會上,直接表示 「 中國一半大模型的算力都是由他們提供的 」 。

當然,華為這會兒在算力上的亮點,更像是整個軟體生態帶來的。

比如,根據發布會的說法,算上 AI 昇騰雲算力底座、計算框架 CANN 。。。等環節,華為在訓練大模型方面,效率是業界主流 GPU 的 1.1 倍。

還有,他們給用戶制定好了全套的應用套餐。

例如,美圖僅用 30 天就將 70 個模型遷移到了華為生態。同時華為還表示, 在雙方的努力下,AI 性能較原有方案提升了 30%

還是挺可觀的。

而且華為還說,他們現在有近 400 萬的開發者,這個數量,是和英偉達 CUDA 生態對齊了。

這一系列的動作, 算是把短板補上了一部分

總的來說,一場華為發布會看下來,我覺得華為在 AI 方面的布局是很深刻的,他們早就開始思考 「AI 真正能帶給我們什麼 」 這個問題了。

過去半年裡, AI 行業雖然掌聲雷動,但是真正落到行業層面,多少有些尷尬。

而華為的這一次動作,恰好印證了如任正非說的:

「 未來在 AI 大模型方面會風起雲湧的,不只是微軟一家。人工智慧軟體平台公司對人類社會的直接貢獻可能不到 2% ,98% 都是對工業社會、農業社會的促進。 」

AI 領域,真正的大時代還在後頭。

圖片、資料來源:

極客公園, 6000 字詳解盤古大模型:能否撐起世界 AI 另一極?

中國經濟網,華為最新消息,在 AI 大模型領域重大升級

財經雜誌,胡厚崑:大模型時代,華為的定位和路徑

遠川研究所,盤古 3.0 :中國大模型突圍的一個典型樣本

知乎,華為盤古天氣大模型:Pangu-Weather 打破中期天氣預報 AI-NWP 爭論

絡繹科學,華為盤古氣象大模型登 Nature 正刊:破解氣象預測難題,比傳統方法快 1 萬倍

歡迎關注他們獲取更多精彩內容~

15 / Jul / 2023

監製:視覺志

轉載:差評

微博:視覺志

文章來源: https://twgreatdaily.com/5986148f2992c41b1246fb20248525a9.html