位元組跳動加速AI布局

2023-12-09     中國經營報

原標題:位元組跳動加速AI布局

本報記者 李昆昆 李正豪 北京報道

11月27日,亦即位元組跳動確認收縮遊戲業務當天,《中國經營報》記者注意到,位元組跳動成立了一個新的AI(人工智慧)部門Flow,技術負責人為位元組跳動技術副總裁洪定坤,業務帶頭人為位元組跳動大模型團隊的負責人朱文佳。Flow 的相關招聘信息顯示,Flow 是位元組跳動旗下 AI 創新業務團隊,目前已在國內和海外分別上線了豆包和 Cici 兩款產品,還有多個 AI 相關創新產品在孵化中。業內普遍認為,這也許是位元組跳動在收縮遊戲業務的同時,加碼AI應用開發的信號。

《中國經營報》記者打開豆包App發現,發現其已經上線了編程助理、文學伴侶、爆款文案、戀愛大師等應用功能,值得一提的是,豆包上還上線了創建AI智能體功能,所有用戶都可以在豆包上創建自己的AI智能體。

記者詢問豆包都有哪些應用場景,結果顯示:「我是位元組跳動公司基於雲雀模型開發的人工智慧,我的名字叫豆包。我可以應用於自然語言處理、對話系統、智能客服、內容生成、智能助手、教育培訓等場景。這些只是我的一些應用場景,隨著技術的不斷發展,我的應用場景還會不斷擴展。」

而Cici主打海外市場,2023年8月已在海外多個市場上線,目前已在36個國家和地區上線,基本上除了歐美成熟市場之外的全球其他區域均有覆蓋。

創建AI智能體

實際上,早在2016年,位元組跳動就成立了AI實驗室,聚焦於自然語言處理、機器學習、數據挖掘等方面的研究。抖音、今日頭條等位元組跳動旗下產品中也頻頻加入AIGC(生成式人工智慧)功能,持續吸引流量。

一直以來,AI在位元組跳動的核心業務中都扮演著重要的角色。根據官方披露的抖音標籤算法圖,AI處於整個流程的核心地位。從機器視頻檢測,到結合關鍵詞匹配,再到疊加推薦、系統「挖墳」、更高級別流量池,相關場景都出現了AI的加持。

在豆包的介面中,尤其引人注意的是,每個用戶都可以在豆包上創建自己的AI智能體來獲取粉絲,粉絲可以與AI智能體對話。記者試著在豆包上創建了自己的智能體,諮詢問題都會收到自動回復。

比如,記者問豆包的數據來源來自哪裡,豆包是這樣回答的:「我是基於位元組跳動的雲雀模型開發的人工智慧,我的訓練數據來自於網際網路、書籍、新聞、社交媒體等多個領域的文本數據。這些數據經過清洗、預處理和標註等一系列處理步驟後,被用於我的訓練。」

談及豆包與OpenAI、文心一言等大模型產品的區別,盤古智庫高級研究員江瀚告訴本報記者:「從優勢來看,一是專注於某一領域,豆包可能專注於某一特定領域,如娛樂,這使得它在該領域內的理解和應用可能更深入。二是本地化優勢,如果豆包是針對某一特定地區或國家開發的,它可能更好地理解該地的文化、習慣和語言,從而在某些任務上表現出色。從劣勢看,一是規模較小,與OpenAI和文心一言等相比,豆包可能在模型大小、訓練數據量和計算資源上都有所限制,這可能會影響其在某些任務上的性能。二是通用性差,由於豆包當前專注於某一領域或地區,它在其他領域或地區的性能不如大型通用模型。」

記者了解到,豆包的訓練數據來自網際網路上的大量文本,包括新聞、博客、小說、論文等,而OpenAI的訓練數據則來自多個領域的文本,包括科學、技術、藝術等;豆包的模型結構是基於深度學習的,使用了多層神經網絡,而OpenAI 的模型結構則是基於強化學習的,使用了深度強化學習算法;豆包的應用場景主要是自然語言處理,包括文本生成、問答、翻譯等,而OpenAI的應用場景則更加廣泛,包括機器人、遊戲、金融等領域。

總的來說,目前豆包和OpenAI的區別可能在於其訓練數據、模型結構和應用場景不同。

大模型百花齊放

大模型是今年網際網路行業的關鍵詞。實際上,從2021年起,中國就湧現了一些有代表性且具備影響力的大模型。受ChatGPT影響,國內大模型在2023年進入高速發展階段,一時間呈現「百模大戰」局面。根據賽迪顧問數據,截至2023年7月底,中國累計發布了130個大模型,其中64個大模型是在2023年內發布。國內大模型技術分布基本與海外一致,65%的大模型集中在自然語言領域,22%的大模型集中在多模態領域。

從全球範圍來看,中國和美國在大模型領域引領全球發展。根據中國科學技術信息研究所、科技部新一代人工智慧發展研究中心聯合發布的《中國人工智慧大模型地圖研究報告》,截至2023年5月,美國已發布100個參數規模10億以上的大模型。中國亦積極跟進全球大模型發展趨勢,自2021年以來加速產出,如2021年6月北京智源人工智慧研究院發布1.75萬億參數量的悟道2.0、2021年11月阿里M6大模型參數量達10萬億等。

同時,在應用方面,基於通用大模型能力已相對成熟可用,其上的應用生態已逐漸繁榮。得益於對先進算法模型的集成以及較早的產品化,OpenAI不僅展現了GPT(生成式預訓練Transformer模型)在人機對話中的超預期表現,同時基於GPT的應用生態也已逐漸繁榮,微軟數款產品(Bing、Windows作業系統、Office、瀏覽器、Power Platform等)、代碼託管平台GitHub、AI營銷創意公司Jasper等均已接入GPT。

2023年,位元組跳動在AI領域的動作明顯加快。6月,火山引擎發布大模型服務平台——火山方舟,運營模式是在一個平台內提供多個模型,讓企業用戶同步試用,並選用更適合自身業務需要的模型組合,本質上扮演了「賣鏟人」的角色。其自研的通用大模型「雲雀」始終沒有官宣,直到今年8月才在首批通過《生成式人工智慧服務管理暫行辦法》大模型名單中露出。8月17日,位元組跳動公測基於雲雀大模型開發的AI聊天機器人「豆包」,面向C端市場發力AI應用。此外,市場還傳出了位元組跳動正在計劃開發雲端AI晶片和Arm伺服器晶片的消息。

在算力儲備方面,位元組跳動今年向英偉達訂購的GPU產品總價超10億美元,接近英偉達去年在中國銷售的商用GPU總和,而GPU是AI訓練不可或缺的計算基礎設施。

談及是否看好豆包未來的發展,財經專欄作者馬繼鵬對本報記者說:「目前來講,還是比較有潛力的,可能取決於幾個方面,一是位元組跳動的雲雀模型在業內來說還是比較先進的,之前有消息說位元組跳動在AI晶片儲備方面還是有優勢的,所以它的底層技術實力不用擔心。二是位元組跳動有很好的寫大模型代碼的人。三是因為位元組跳動也有龐大的數據能力,一定會把雲雀大模型訓練得比較聰明。基於以上三點,如果這個大模型本身比較先進、比較聰明的話,那它上面的應用應該也不會太差。」

江瀚認為,豆包的未來取決於多個因素,包括其技術路線、市場定位、合作夥伴和競爭格局等。如果豆包無法突破技術或資源的限制,或者面臨激烈的競爭和市場壓力,它的未來發展可能會受到挑戰。但如果豆包能夠繼續深化其在特定領域或地區的技術和應用優勢,並與其他企業或機構建立合作關係,它有可能在該領域或地區取得領先地位。另外,如果豆包能夠持續投入研發,跟上技術發展的步伐,並擴大其模型和數據的規模,它也有可能成為一個更具競爭力的通用模型。

文章來源: https://twgreatdaily.com/zh-tw/2dc3f2e25ca1bd59fd16ecc539ba5fca.html