11月25日,由創業黑馬主辦的「第15屆創業家年會」在北京舉辦,年會主題為「AI給世界一個確定性」。會上,拓爾思創始人施水才以《大模型產業落地的實踐》為主題發表了演講。
施水才在演講中表示,「燒錢做大模型已經成為過去,燒腦做AI應用正在當時」。他認為:大模型產業落地需要解決「合規可信、模型安全、數據質量、業務深度融合以及部署成本」等五大問題,未來大模型在千行百業的數字化轉型和賦能中有非常廣闊的市場。
以下為創業家&i黑馬編輯過的演講節選:
01
創業30年的三點體會
感謝創業黑馬給我頒發「2023年度創業家」這個榮譽稱號,我先分享下創業的感受和體會:
第一個體會是我懷疑自己還是創業者嗎?我1993年就下海創業了,到現在30年,經過努力在2011年把公司帶上了創業板。有一次開會時,一個券商老總看到我們的股票代碼(300229)說:「施總,你還在工作呀?」他覺得我早應該退休了,打球的打球,潤走的潤走,有的公司甚至退市了,這引發了我的思考,真正理解什麼是創業。我在母校西安電子科技大學做過一次演講,標題叫《創業永遠在路上》。創業是一種體驗,我仍然把自己當作一個創業者,我認為創業永遠在路上,它和財富沒有什麼關係,更多是興趣和體驗。
第二個體會是關於科學家和企業家在未來的商業公司里的地位。我不是著名的科學家,而是非主流教授下海,所以我的體會有兩點:1、創業一定要all in。很多教授出來創業時,作為學者創業,不想放棄之前的東西,雖然我也有學校教授身份,但我120%的時間都在做公司業務。2、必須學會自我批判、自我否定。因為教授和科學家追求完美、非常執著。但作為企業家,要學會妥協。比如產品上要妥協,不能等做到100%再賣,否則會錯過時間窗口;還需要跟用戶妥協,甚至於還要跟友商妥協,因為這是一個商業生態。這裡面不存在誰主導的問題,一位科學家要創業的話,自我否定、自我批判是非常重要的。
第三個體會是我們公司已經成立30年了,為什麼還能活下來?最近跟很多領導和同行交流這個問題,我們也在反思,我們是不是沒有戰略。有一本書叫《為什麼偉大不能被計劃》,我們能活到今天,絕對不是沒有戰略。裡面有幾個重要的核心點:1、行穩致遠,公司這麼多年發展的比較穩。2、穩的同時不折騰,很多上市公司折騰一下,可能就把自己的公司折騰沒了。3、不斷去學習,思維不能僵化,在學習中持續創新。
以上是我在創業的這個歷程中的一些感想。
02
IT產業發生的兩個重大變化:智能化,數據化
我們發展到今天,整個IT產業發生了兩個重大的變化:一、從自動化到智能化。以前IT公司做流程也很重要,這是信息化,我們一直在做文本的信息化和自動化處理,到今天這個時代智能化處理已經成為生產力編個的關鍵。二、從IT企業發展到DT企業,大家所知道的數據要素,包括人工智慧都是以高質量且大量的數據為基礎。如果我們抓住了這兩個變化,就可以穿越產業的發展周期。
03
大模型產業落地需解決的五大問題
有句話大家可能會感同身受:「燒錢做大模型已經成為過去,燒腦做AI應用正在當時。」截至目前中國已經有320個大模型,美國有100多個,在美國做AI應用正在蓬勃興起。這兩句話,對我們來說是有啟發的。大模型在產業落地時,有五個方面的必須解決:1.合規、可信。2.模型本身的安全。3.訓練數據的質量。4.業務的深度融合。5.部署大模型應用的成本。
第一點,大模型生成內容的合規可信問題。一個知名的媒體機關做價值觀對齊,要做1萬個對齊的句子,看看回答的問題對不對。有些大模型,為了保證結果不違反規定,選擇不回答。如果大模型不回答問題,那還要大模型幹什麼?所以大模型生成的內容合規問題很重要,它泛化產生的幻覺,時間、地點對不上,如何解決?
第二點,安全問題。分成三個層面,一是模型本身的安全,因為模型可能會被攻擊,比如數據投毒;二是數據安全,私域數據交給大模型學習,意味著我們的業務數據丟失,也是不行的。三就是個人隱私的數據安全問題。
第三點,高質量的數據是大模型效果的核心。現在有一種觀點,用千億參數加低質量數據訓練的大模型,還不如用高質量數據加百億參數訓練的模型效果好,我是認同的。因為大模型的原理和方法,大家都清楚了,更重要的是數據、調優和工程化的能力。數據黑盒存在「三不」問題:數據的質量不高、實時性不夠和覆蓋率不全。
第四點,大模型的技術和業務是兩張皮,很難創造價值。微軟把所有的任務都轉化為對話,把所有的任務都變成Copilot,所以在office裡面它可以做個助手,但企業業務系統裡面只有助手是不夠的,必須解決大模型能力和業務兩張皮的問題。
第五點,成本高。高成本下的回報在哪裡?ROI有多少?
要解決這些問題,拓爾思也一直在探索,有幾個探索點:
第一,要用一些方法來保障大模型生成內容的這個質量,使內容合規可信。一是中文特性增強的可控生成技術,包括安全圍欄提示工程、知識注入等,還有大模型和知識圖譜怎麼結合,包括用知識增強這個方法,如何把搜索技術和大模型結合來提高生成內容的相關性和質量。另外用一些向量資料庫來加持並實現多模態長期記憶和克服這個上下文的限制。
第二,安全。一定要強化數據安全的保護。
第三,高質量的數據。我們三大數據資產平台大概積累有 2000 億條數據,每天日增大概2億。現在這三個數據中心也都在服務於各行各業。我們為了驗證數據質量對大模型的用處,在今年6月開展了一個行動:把我們的數據開放給各大基礎模型研發的公司,看他們是否需要。經過一個多月時間,已經實現商業化收入的有將近10家,另外還有10家左右在合作使用。
第四,與業務的深度融合也是非常重要的。跟業務融合時,現在的基座大模型是什麼並不是很重要,重要的是把所有這些都變成AI Agent。
第五,大模型到底是選擇私有化部署還是SaaS服務,主要考慮成本問題和數據安全問題。大模型私有化部署時,工程化能力是大模型產業落地的重要保障。
04
拓爾思大模型的行業落地
拓爾思在6月29號的時候推出了拓天大模型,首先應用在媒體、金融和政務,最近又推出了輿情和公安等行業大模型應用。在媒體行業主要用大模型來做三件事:第一,成為內容生產環節的助手;第二,在內容搜索和推薦方面可利用大模型的知識增強能力;第三,在傳播方面。拓天媒體大模型已在人民日報社部署使用。在金融行業,像信貸、投研、審批和客戶服務,比如招商銀行的消費者保護平台,用大模型的技術,從投訴分析到給出解決方案。另外跟平安銀行做的審計大腦也使用了大模型技術。
在政務方面的實踐也是一個非常大的市場,具體的應用場景包括政策研究,辦公以及辦事諮詢助手等。在輿情方面,輿情報告的寫作和分析助手,可以大大減少人工,這是它的一些應用亮點。在公安行業我們推出了分析、研判、執法和重大事件處理的一些應用。
未來大模型在千行百業的數字化轉型和賦能中有廣闊的市場,是大模型的主戰場!