8個月238個大模型，中國AI 奔向何處？

2023-12-05 光錐智能

文｜郝鑫、黃小藝

編｜劉雨琦

2022年11月30日，是ChatGPT面世的第一天。

至今整整一年的時間，「人類與AI的未來」撕開科幻的外衣，正式踏入現實。

在商業世界，新技術一路狂奔，引發百模大戰，一批創業公司如雨後春筍，退入幕後的大佬們紛紛下場，激烈的競爭中興奮、迷茫、挫敗相互交織；

而在普通人的生活中，既有AI模特、AI畫師等「新職業」引發下崗潮的恐慌，也有靠AI知識培訓月入一套房的弄潮兒，就連蕭山丈母娘，也知道該瞄準大模型工程師。

然而，伴隨著OpenAI的宮斗鬧劇，擺在所有人面前的是當AI作為新物種出現，生而為人數千年，巨變之下，何為我們？

美國物理學家費曼曾說，「我們每個人都有一把開啟通往天堂的鑰匙，很不幸，這把鑰匙同時能夠開啟地獄之門。」

害怕AI不夠強大，又害怕AI太過強大，是人類心中一道永遠在搖擺的天平。

在《流浪地球》的電影中，在極度不穩定的現實中，人們依賴於從MOSS身上得到確定性，而後又因恐懼MOSS失控，啟動「隔離計劃」，將其封存在北極與空間站。

人工智慧究竟如何改變了人類社會？有哪些具體而又深刻的影響？是否將重塑我們的世界？巨變之中有哪些機遇與風險？在全球的科技競賽中，中國的位置在哪？優勢又在哪？一個個看似遙遠而又宏大的問題，突然迫在眉睫。

炒作與機遇齊飛，理智與理想並存，關於大模型的答案之書，需要每個人的回答。

2023年，大模型完成三級跳

八個月內就誕生了238個大模型，每隔一天中國就會官宣一個新的大模型，這是2023年的中國速度。

回顧這一年，ChatGPT火爆後不到一個月的時間，阿里、華為、騰訊、京東、位元組、360、商湯、科大訊飛等一眾大廠紛紛下場，或官宣入場或亮相大模型。

百模大戰一觸即發，數據顯示，戰事最膠著之際，國內一個月就能冒出30多個大模型。截至2023年10月，我國擁有10億參數規模以上大模型的廠商及高校院所達到了254家，從「一百模」升級至了「二百模」。

但混戰只是短暫性的階段，僅三個月後，大模型行業就迎來了過濾分層，泥沙俱下過後，行業格局也逐漸變得明朗起來。

「高校和研究者關注基礎研究，培養人才；大廠提供算力支撐、基礎設施建設和MaaS服務；創業公司做大模型應用開發」，復旦大學計算機學院教授、Moss系統負責人邱錫鵬在2023騰訊ConTech大會上總結道。

底層是高校，中間層是大廠，最上面一層是大模型創業公司，分工清晰，各司其職，構成了當下的中國大模型版圖。

IDEA研究院、智源研究院、中科院自動化研究所、上海人工智慧實驗室、復旦大學、清華大學等高校和研究所，最早在技術路徑發展上關注、跟隨OpenAI的步伐。基於先一步市場的洞察，這些研究院所發布的論文、開源大模型、數據集和工具，都為中國大模型的誕生、疊代打下了基礎。

此外，這些高校也在源源不斷地向市場上輸送人才。清華系創業團隊撐起了國內大模型創業的「半壁江山」，王慧文、王小川等網際網路大佬高調入局，智譜AI、面壁智能、月之暗面等公司創始人師出同門。據不完全統計，近期活躍的AI大模型創企中，擁有清華背景的創始人至少有17位，涉及11家企業。

中間層的大廠，進一步劃分有兩類。一類是騰訊、百度、阿里、華為、位元組等網際網路大廠，憑藉著在雲計算和技術方面的積累，一方面可以自研通用大模和行業大模型，把現有的產品全部重做一遍，結合已經打透的行業，落地大模型解決方案；另一方面也可以給企業客戶和創業公司提供模型訓練的算力支撐，以MaaS的形式提供一站式的大模型服務。

第二類是AI1.0時代的科技公司，如商湯、雲知聲、科大訊飛等。結合在語音、CV方面的優勢，在此基礎之上研發大模型，商湯繼承在CV方面的優勢，發布了「日日新」大模型；雲知聲延續其在語言方面的優勢，發布了山海大模型，展現在醫療問診方面的能力。

隨著大模型地基的進一步穩固，基礎能力走向成熟，今年下半年，創業從想法落實到了行動，開始湧現出一批「黑馬」創業公司。

名校、技術、行業經驗三重背景拉滿，一出道就奔馳在了大模型的快車道上。

百川智能以平均28天的速度疊代大模型，探索醫療問診，預計明年推出第一款AI應用，劍指超級App；智譜AI今年累計獲得融資25億元人民幣，一舉成為國內公開融資最高的大模型創業企業之一；MiniMax海外推出的AI角色扮演類應用Talkie，增速一度跑贏國外同期明星產品Character AI；月之暗面從長文本技術切入，未來瞄準C端應用，正在探索AI角色扮演、對話等場景。

各類黑客馬拉松和路演現場，座無虛席、人聲鼎沸，創業者、投資人、觀眾擠破頭只為拿到一張入場券。創業者們激情澎湃，「超越位元組」，「打造下一個抖音」，「我就是下一個張一鳴」，一番豪言壯志響徹路演大廳。

最小00後，普遍95、90後，幾個搞技術、產品的人想法一碰，臨時組個小團隊就開始了創業之路。大模型儼然成為了香餑餑，奇績創壇剛結束的路演數據顯示，在AI方向，就有51家大模型公司，更有超過一半集中在應用層面。

至此，中國大模型已經完成了從基礎能力到應用層的三連跳，在近一年的摸索中，大模型創業者們逐漸意識到了一個事實：中國大模型「先天體弱」，中國創業機會不在基礎能力層，而在應用層。

中國大模型核心競爭力在哪兒？

中國大模型的「體弱」之症，還要追溯到「根」上，構成大模型有四要素，分別為數據、模型、算力和場景，根基打得不牢，大模型自然也就走得慢。

目前，大模型訓練數據主要來自於公開的文檔、資料和數據。從數據總量來看，公開的粗加工數據仍以英文居多，占主導優勢，中文數據開放得還遠遠不夠；從數據質量來看，由於國內在數據產業的投入和精細化程度不足，導致了中文語料不僅少且能用得也不多的現狀。數據質量直接與模型訓練效果掛鉤，比如ChatGPT雖然只有1.5%的中文語料，也能達到比較好的效果，但國內卻恰恰相反。

在模型層面的積累，短時間內，中國有著無法跨越的鴻溝。OpenAI自2015年成立，在大模型領域的技術積累和投入，已長達七年之久，而國內才僅僅一年的時間。而在中國馬不停蹄追趕過程中，OpenAI還在加速度，百億美金、頂尖人才、超級計算都在源源不斷地輸送進名為「GPT」的大模型引擎中。

在算力層面也不容樂觀，一面要面臨著算力資源短缺的共同問題，一面還要活在美國的層層封鎖之下。

在2023騰訊ConTech大會上，百川智能創始人、CEO王小川在矽谷調研中了解到，OpenAI正在嘗試把1000萬塊GPU連在一起訓練一個大規模的模型。

王小川對此感到十分震驚，「英偉達一年大概生產100萬塊GPU，訓練GPT-4要2.5萬塊，國內對標GPT-3.5訓練需要4000塊。要中國拿出1000萬塊GPU去訓練大模型，目前從資源層面還遠遠達不到」。

據邱錫鵬判斷：「我們離OpenAI算力的差距太大，能保持緊密跟隨已是不易，但要談到趕超，還是得結合當前我國具體的實際情況。」

有經驗、有方向，更要正視差距和不足，正如王小川所言，當下大模型公司需要思考的問題是，如何用一個稍弱的大模型做出一個好的AI原生應用。

「國外會做大模型，但並不代表著會做應用」，不少創業者向光錐智能反饋道，在應用方向，國內與國外目前處於同一起跑線上。

國外AI應用起步雖早，但發展仍處於早期，類型主要集中在效率對話助手、情感類對話助手、繪畫、照片、遊戲幾個領域。

以美區蘋果商店為例，大熱的效率工具中，OpenAI的ChatGPT有47萬個評分；微軟的Bing Chat有18萬個評分；大火的C端應用代表，Character AI有14萬個評價，Pi有1336個評價；風靡一時的AI生成相機Lensa AI有39萬個評價。作為參考，TikTok在美區蘋果商店有1634萬個評分；YouTube有3370萬個評分；Snapchat有196萬個評分。

(圖源：美區蘋果商店截圖）

大模型的技術能力再強，也要落在產品中被實際應用起來，而這恰恰是中國最核心的優勢。

「理想上慢一步，落地上快三步。」

這是王小川對當前中國大模型機會的詮釋，「理想」對應著大模型基礎技術能力，「落地」則對應著場景應用，「我們中國大模型的機會，不在技術科研，應用才是我們跑得更快的地方」。

回顧網際網路時代，中國曾經誕生了淘寶、微信、抖音等超級App，在產品體驗、市場運營、用戶需求洞察等方面都積累了大量的經驗，與此同時，繁榮的網際網路產品生態還培養起了一批產品經理。如今，上個時代的積累將沉澱為大模型應用誕生的肥料。

王小川認為這裡面有兩個核心的難點需要去解決，如果能解決好兩個問題，中國的應用或許就能走在美國的前面。

首先是要有大模型，模型效果差一點也沒關係，可以通過開源技術、端到端的模式、人的聰明才智，與做應用公司共同研發等途徑來彌補大模型本身的缺陷。

重要的是要把大模型用起來，有大模型應用創業者告訴光錐智能：「實際做AI應用，對大模型能力的要求遠沒有想像中那麼高，GPT-3.5基本就能達到一個還可以的效果。」

其次是，傳統意義上的產品經理需要轉型和提升。王小川指出，大模型創業跟網際網路創業最大的區別在於，大模型是科技創業，以技術為主要驅動，故而進入壁壘極高；而網際網路是創意創業，幾乎不存在卡技術的環節，換而言之，只要有好的想法就能實現。

」大模型創業的特性，就要求產品經理，需要懂得什麼樣的AI產品需要匹配什麼樣的技術，甚至更進一步還能以產品需求為導向引領技術的發展。這裡面可能涉及一些具體的問題，比如產品經理對技術的評測標準是什麼，怎麼去評價技術的好壞，怎麼才能讓算法工程師跟上產品疊代的步伐等等」，總而言之，王小川認為產品經理要對自己的技術有判斷和評價。

漫長的技術發展經驗告訴我們，這已經不是中國第一天面對基礎科技能力不如國外的棘手問題。暫時的技術領先也並不代表什麼，中國之所以能做大模型，一是因為本身市場就足夠大和複雜，若大模型企業能占據一席之地，或許就已經擁有了十分可觀的增長空間。

OpenAI的先進放在中國的環境中也會出現「水土不服」，一如多年前資料庫行業，Oracle雖然先進，但數字化程度滯後的國內根本用不上，全靠中國資料庫企業攬下髒活和累活，從搬運帳本切入資料庫賽道。

大模型亦是如此，國內企業生怕掉隊，迫切想趕緊用上大模型，但遠水解不了近渴，私有化部署、安全、價值觀對齊、場景落地等諸多現實問題更適合中國大模型企業發揮。

人與AI的未來，在變革中共生

過去不可被改變，但是未來可以被創造。

每當新技術出現，都會有一部分人積極占據先機，獲得技術紅利。任何技術革命帶來的技術變革都是由此開始的。

如今，在百模大戰的比賽場上，所有人都試圖尋找最終的天選之子，究竟是存量的競爭還是增量出奇蹟，大廠和創業公司們，都不肯放過任何一個機會。

「從信息時代走向智能時代，一個大的時代，就像之前工業時代一樣，會有新的公司起來。」正如王小川所說，儘管，大廠們有在網際網路時代積累了數十年的資本，但普遍觀點認為，小創新靠大廠，大創新仍然要靠小廠。

而在激烈的競爭之下，新公司又是否會像網際網路時代的巨頭們一樣，創造一個新的時代，甚至取代目前的科技巨頭，引領新的商業生態呢？

技術的變革總是周期性的，我們或許可以從歷史的長河中尋找答案。

正如網際網路時代，催生出了線上零售模式，成長出了阿里巴巴、京東等一批巨頭企業，產業鏈上也有無數網店、工廠抓住機會，踩上了暴富的快車道。在這個過程中，沒有誰取代誰，只有電商形態顛覆、重構了線下零售，同時也形成了線下、線上一體化的供應鏈、數字化雲倉、新零售等物種。

相比新舊之間的取代關係，更多的是業態模式的創新、重構。

不過，新的AI業態究竟如何展開，仍在朦朧之中。正如曾經位元組跳動給BAT的震動，在快手、抖音、秒拍、美拍、微視等一片短視頻App之中，沒有人知道，誰是最大的那匹黑馬。因此無論大廠還是小廠，都在積極探索AI與業務的結合，等待爆發的奇點、為明天押注。

與此同時，不同於以往高新技術突破的漂浮感，AI的變革已經滲透進了社會中每一個人的生活之中。

「用孫正義的話講，會用AI和不會用AI的人就是像人和猴子區別一樣。」王小川說道，「我把ChatGPT放在我手機頁面的底部，每天都會使用。在未來兩三年內，我們工作方式、生活方式會有天翻地覆的變化，智能體到來之後，跟你工作的可能不只是人，也有機器。」

「雖然大模型成長速度快於年輕人，但年輕人是快於非年輕人的。在時代變革的時候，年輕人更有機會。」他補充道。

機會固然存在，但難題也隨之而來——在暢想AI帶來社會進步之時，我們又該如何規避AI帶來的風險？

事實上，在幾百年的文學創作中，人類就不斷探討著人與非人物種之間的關係，AI作為人造智能，更是游離在倫理的邊緣。

要讓AI與人和平相處，基於一個先決條件，價值觀的對齊。正如《流量地球》里，MOSS被要求「保衛人類文明」，卻認為「保衛人類文明的唯一辦法，是毀滅人類」一樣，AI強大的計算、判斷能力與非人的認知，是恐懼的源頭之一。

也正是如此，在今年大模型狂奔以來，安全性始終都是根本宗旨，正如OpenAI早在年初，就曾發布過《我們保障AI安全的方法》，回應外界對其AI模型安全性的質疑。

想要實現AI與人類價值觀的對齊，一方面，依賴於技術，但更重要的是，人類自己先要形成一套一致的價值觀體系。

然而問題是，自人類社會誕生之時，偏見就根植于思想、行為，如今自然也藏匿在AI訓練的數據之中。換言之，當我們在探討AI倫理之時，我們也在審視著自己。

AI的發展推著人類文明的車輪滾滾向前，當我們站在一個新周期的門外，門縫已經打開。

2024，或將是一個嶄新的世界。

8個月238個大模型，中國AI 奔向何處？

2023年，大模型完成三級跳

中國大模型核心競爭力在哪兒？

人與AI的未來，在變革中共生

99%的行業大模型都可能被替代？| 對話百川智能王小川

用AI控制底盤，華為在下一盤什麼大棋？

8個月238個大模型，中國AI 奔向何處？

中國智能汽車這一年，主打一個「卷」

商業化三年，OceanBase在忙什麼？

2023 OPPO開發者大會：發布全新ColorOS 14

OpenAI、微軟押注，大模型應用的盡頭是AI Agent ？｜對話面壁智能

馬來西亞砂拉越州與螞蟻數科達成合作發展數字政務服務應用

發布自研大模型夸克App將迎來全面升級

單挑特斯拉，華為智選車邁入第二階段

算力被「卡脖子」，光子時代「換道超車」

再次炸天的OpenAI，大模型生態初現

思謀科技進博首秀：工業多模態大模型IndustryGPT V1.0正式發布

2023光子產業發展暨硬科技成果轉化論壇在西安舉行

大模型能帶手機穿越寒冬嗎？

阿里雲發布通義千問2.0，模型參數達千億級

阿里雲創始人王堅：雲計算的第三次浪潮有可能要幾十年才能到高峰

百川智能發布大模型Baichuan2-192K，一次可輸入35萬字超越Claude2

從騰訊混元升級，看國產大模型的226天

極越01高階智駕ROBO Drive Max發布明年覆蓋200+城市

大模型時代，AI如何成為數實融合的驅動力？

Stellantis集團將投資15億歐元成為零跑汽車的戰略股東

楊元慶與黃仁勛公布重大計劃：推出混合人工智慧解決方案

大模型，重構自動駕駛