今天多模態AI概持續活躍,蘇州科達3連板,宣亞國際大漲近13%,雲鼎科技漲停,力盛體育、三態股份等跟漲。
上周末發酵的是谷歌的Gemini大模型,「多模態AI」,谷歌做的這個有很大的優勢,自己握著大量的數據基礎,號稱「全面碾壓GPT-4」。Gemini模型作為谷歌以及全球範圍內最先發布的多模態模型,在性能上是第一個在MMLU上超越人類專家的模型。
現在很多廠商把目光放在多模態大模型上,對標GPT-4開發競品。像AI初創企業Anthropic做出了對標的AI聊天機器人Claude。Meta是開源了自己的大模型LLaMA,Vicuna、WizardLM、Guanaco等模型也是將自己的大模型進行開源。微軟KOSMOS-1模型擁有16億參數,解鎖多模態功能。之後或許還會有別的廠商陸陸續續做出來。
現在大廠們都發現了多模態AI具有明顯的優勢,可以超越單模態數據的限制,抓到不同數據模態之間的關聯性,獲得對自然現象更深入的理解。分析一個視頻時可以抓到圖像信息,音頻信息,視頻對話信息等等。多模態AI能夠整合這些信息,使其在諸如情感分析、語音識別或圖像描述等任務上表現出更高的性能。
當然了,我們也有很多廠商做多模態,三六零集團旗下智能硬體及物聯網事業群360智慧生活發布了360智腦-視覺大模型,以及4款AI硬體設備,並宣布360智慧生活將進軍SMB(中小型企業)市場。
比如科大訊飛做了星火認知大模型 V3.0 實現文本生成、語言理解、 知識問答、邏輯推理、數學、代碼、多模態七大能力提升。蘇州科達推出了KD-GPT大模型,包括多模態大模型、AIGC圖像大模型和行業大模型已經初具雛形,並開始在實際項目中投入應用。億嘉和發布的一種基於多模態超融合技術的大模型YJH-LM,目前已在公司商用清潔機器人上完成功能測試。等等。其他廠商也有。
但是前一陣比較火的是某達女兒創辦的PIKA遊戲,利用語音和文字描述對視頻修改和生成的一種應用!信某達這種裙帶關聯被爆炒6連板。帶火了多模態AI這個方向。
但是多模態AI現在還是太早了。
多模態技術處於大爆發早期,現在太早了
我們說,現在國內外吧,多模態技術應該還處於大爆發早期,現在得多模態AI的技術有點像幾年前得NLP技術,得去研究的上下游任務和之後技術之間得連結,有哪些連結可以做到,有哪些做不到。
但是GPT的出現結束了之前很多獨立存在的NLP上下游業務。GPT做了很多語言生成、對話、交互的業務,讓很多人都感受到了GPT的技術是什麼樣的,能做什麼用。GPT的出現也讓NLP技術變得沒那麼難了,而且也變得眾所周知了,因為之前那些自然語言專家,多是對自己的領域最熟知,文本分類的最了解文本分類,信息抽取的也是專門做手裡這些。
每個任務都有專門的模型和框架,然後還有專門的專家,根據專門數據訓練出來,然後擺在那兒供大家調用,所有這些NLP能力,仿佛工具集,有上千個工具供大家用。雖然有這麼多工具,不過不了解每種工具的人也很迷茫,到底我該用哪個?哪個最適合我?這些都不知道,就得一些算法專家進一步解釋,你面臨的這個問題是文本分類問題,那個問題是閱讀理解問題,再把工具給你。
於之後得ChatGPT的出現,就解決了這樣的問題,可以讓你用自然語言說你想幹什麼,讓大模型去理解你的意圖,再將這個能力給到它。很多東西ChatGPT都可以理解。並做出相關得回應。
這種大模型縮短了AI能力和我們之間的距離,很多廠商都可以用GPT 做個新的應用產品出來。而且OpenAI的ChatGPT、GPT API、ChatGPT Plugin差不多有了自己的核心技術和自己的生態。逐步用超級AI大模型建立生態,只要是有了自己生態的產品,以後都不用私有部署,很多能夠直接連接大廠大模型。
到最後可能就會是通用智能計算的生態越來越大,甚至是大廠壟斷,其他所有科技公司、創業者都很難在大語言模型這個領域建立起自己的技術壁壘。而一些專有智能計算上域,基於開源模型簡單封裝的解決方案將迅速實用化,在開發和部署做到價格越來越低。
但是和大語言模型相比,多模態AI在技術上還是一個開始,誰有實力,誰都可以研究,可以參與,無論研究還是是應用層面,都是處於上半場。
我們也說多模態現在還在研究階段,但是可以確定得是,不管是不是在訓練階段,或是在推理階段,對於算力的需求都相較於單模態模型有極大的提升。因為應用場景多或請求量大會增加對計算資源的需求,會帶動計算集群規模。所以無論怎麼發展,都繞不開算力。 算力核心只有四個公司,還記得嗎?我在每天9點直播中講過,記得的同學可以打上來!
呂長順(凱恩斯) 證書編號:A0150619070003。【以上內容僅代表個人觀點,不構成買賣依據,股市有風險,投資需謹慎】