近日,#00 後用 AI 幫人談戀愛月入百萬#衝上熱搜。畢業不久的Blake W. Anderson敏銳地捕捉到年輕人群體在親密關係中的溝通障礙,開發了輔助溝通工具Plug AI。短短几個月,Plug AI的下載量便突破了 150 萬次。
一個爆款的AI應用無需廣闊的田野,寄身於一點就能野蠻生長——只要那個「痛點」足夠「痛」。
「國內現在已經是百模爭艷,要在這個內卷的環境中殺出血路,就需要在某一個方向上打出優勢。」Soul AI產品負責人程兆華告訴我們,「市場上從不缺60分的產品,難的是怎麼打磨到70分以上」。
程兆華告訴我們,他在手機里下載過幾百款的競品應用,只要出現了新款就會抓緊體驗下,一邊使用一邊思考每個設計背後對應的用戶需求是怎樣的。
產品負責人,可能是花費最多的時間去思考AI如何賦能業務的人。程兆華反對所謂「做垂域大模型,就是拿著錘子找釘子」的說法,他說,「要先想清楚有什麼樣的釘子存在,我可以拿錘子去敲。」同時他也提到,如果市場規模沒有達到幾十億,自己做「錘子」(大模型)就不划算了。
一個合格的AI項目牽頭人,往往像橋樑一樣連接著用戶與後端的算法。在和技術團隊溝通時,產品負責人需要從更感性的角度去考慮用戶的需要,但也要發揮技術的能力最大程度的解決問題。
因此,作為一個「拍板方」,產品負責人的崗位對能力的考量通常是「既要又要」的。用程兆華的話來說,就是要和精通業務的人比拼自己對業務的了解深度,同時又要與技術人員拼自己對大模型技術的了解廣度。
相應的,他作為Soul AI的產品負責人背負了業務指標、AI能力建設、團隊建設三個層面的OKR。
從程兆華身上我們看到了AI產品負責人們繁忙又充實的縮影。
1.2024,單點AI應用更容易出圈?
薛彥澤:今年主打長文本處理的Kimi從一眾ChatBot中脫穎而出, 這是不是說明當前單點AI應用更容易出圈?
程兆華: 國內現在已是百模爭艷,普通廠商是不可能跟大廠拼資源的。要在這個內卷的環境中殺出血路,就需要在某一個方向上打出優勢,解決某個特定問題。
以Kimi為例,長文本的功能回應了大學生群體的論文寫作需求,這一點非常直接。除此之外,小說創作者使用Kimi能夠處理長達十幾萬字的文本,那時GPT的上限大概是4000 Tokens,這個點就會很好地解決長篇創作的痛點。
歸根結底,只有基於特定場景進行深入挖掘,滿足用戶實際的需求,單點AI應用才能在市場中脫穎而出。市場上不缺60分的產品,要的是在某些領域做出深度,打磨至70分以上。
薛彥澤: 評論區有觀眾表達了質疑,說GPT-4o出來以後通用模型已經高度可用,現在搞這種單點AI應用還有意義嗎?
程兆華:舉個常用的例子,現在GPT也可以去做搜索,但海外就是有特別多的用戶在用perplexity。為什麼?這個產品的從搜索的效率、視覺呈現、交互等方面做了優化,整體的用戶體驗比GPT的搜索更好用。
再如細分場景下,例如教育,GPT做得再強大,也很難讓小朋友直接與其聊天、互動。
這些情況下單點AI應用就能發揮其優勢。
2.垂域AI產品,是不是拿著錘子找釘子?
薛彥澤: 垂域AI產品,是不是拿著錘子找釘子?為大模型找場景,還是從已有產品出發尋求AI賦能,您是哪一派?
程兆華: 從根本上說,需求不是被創造出來的。更通順的邏輯是,我們需要想有什麼樣的釘子存在,我可以拿錘子去敲。
開發大模型的過程就像是造錘子,鑄造的過程中模型會有能力上的丟失。如果我們試圖用一個通用的大模型去解決所有問題,肯定是不夠合適的。因此,拿著錘子找釘子的方法可能並不適用。所以說,我們的大模型探索了許多架構,比如MOE專家模型和向量檢索技術,去更好地解決細分場景下的問題。
薛彥澤: 那您覺得釘子體量多大才值得用錘子?
程兆華:從整體的商業價值上考慮的話,如果市場規模沒有達到幾十億,那麼使用大模型的成本就太高了。訓練一個大模型的成本至少是上百萬,而推理和優化的成本可能高達幾千萬甚至上億。因此,如果市場規模不夠大,我們很難收回成本,也就不值得去使用這樣的"錘子"。
3.自研垂直領域模型,好壞標準如何定義?
薛彥澤:打造一個垂域的大模型,肯定會遇到很多的挑戰,我們比較好奇模型的好壞標準是如何定義的?
程兆華:在做模型的時候,我們通常會說讓算法去定義模型的好壞,這包括模型的邏輯性、準確性、一致性、安全性和魯棒性等常用指標。
但是對於產品來說,我們更關注產品適合哪類用戶,我的產品怎樣更容易出圈。以苟蛋為例,我們會從用戶的角度,評判模型生成內容的趣味性、豐富性,用更多這樣的指標來描述用戶的主觀體驗。
在整個研發流程中,我們產品會成為一個拍板方,會從更感性的角度去考慮用戶的需要,通過疊代模型達到我們追求的效果。這是我們的基本思路。
薛彥澤: 我比較好奇,你作為項目牽頭人在跟算法或者技術同學討論這些case時,一般爭議點會在哪兒,怎麼解決?
程兆華:算法的同學可能會比較頭疼,他們不直接面向用戶,而且可能對該垂域了解不深。這就需要我們產品去做拍板,運營的同學提供用戶反饋,指出當前模型不滿足我們預期的點,針對特定的case再去拆解指標、去做優化。
隨著團隊的磨合,算法團隊也能根據用戶反饋,主動思考模型的疊代方向和方法的有效性。
薛彥澤: 可以分享一下具體的案例嗎?
程兆華:我們當時在去做對話的時候,剛開始經常遇到AI重複回答問題的情況,用戶已經提出新的問題了,AI還給出上個問題的答案,這嚴重影響了用戶體驗。
面對這種情況,算法團隊從技術角度出發,提出了增加重複性懲罰的策略,以降低AI的重複率。同時,我們也review了數據集,如果發現近期存在大量重複性數據,就需要對數據進行清洗,甚至說引入更多的數據去覆蓋bad case。
4.聊一聊AI產品負責人的OKR
薛彥澤: 程老師作為AI產品的負責人,您的OKR是什麼?
程兆華:我的OKR主要圍繞三個方面:
首先,最核心的一個部分是業務指標的提升,我們需要確保在AI研發上的投入能夠帶來實際回報。我們會對齊業務指標,比如新項目的拉流、時長和產品的DAU,我需要負責的是確保AI能力對這些指標有積極貢獻。
第二點是AI能力的建設,需要確保我們的AI能力保持領先,比如Sora推出後我們就需要考慮是否跟進視頻能力。這部分會創新性指標,需要與算法團隊合作,推動新能力的落地。
最後一部分與企業內部的團隊建設有關,我需要思考其他部門如何用好AI提高效率,並且構建一個高效的AI團隊。
薛彥澤:對於AI產品負責人,尤其咱們這樣To C的社交應用,用戶留存的指標達到多少算比較OK?
程兆華: 可以大概說一下,傳統的聊天場景次日留存一般很高,能達到50%以上。虛擬人對話一般會低一些,因此次留達到50%是一個比較高的要求。尤其這個領域已經卷了一年,供用戶選擇的產品不少,如果一個產品想要脫穎而出,日留存至少應該在40%到50%之間。
此外,我們還需要關注長流,七日留存率至少需要達到15%,甚至以上。
5.讓大模型的局限性被用戶接納,有何良方?
薛彥澤: 想聊聊大模型的局限性,例如幻覺、延遲等等,怎樣讓用戶接受一個無法盡善盡美的產品?
程兆華:所有的東西都是要找到一個「度」。在技術方案難以解決問題的前提下,我們會從產品層面進行包裝。
例如,如果一個虛擬客服形象可愛、聲音溫柔,即使犯了些小錯,用戶也更願意接受。對於延遲問題,我們可以通過添加"思考中"的狀態來模擬真人的思考過程,減少用戶的阻尼感。
在成本方面,我們需要考慮是否可以利用已有的模型,減少訓練成本。同時,我們可以通過緩存機制處理高頻問題。還可以考慮將大模型蒸餾成更小的模型,以減少部署和運行成本。
薛彥澤: 大模型蒸餾成小模型,怎麼調度,如何解決算力分配?
程兆華: 利用現有的技術架構來解決,我們我們會有一套判斷邏輯來決定哪些問題更適合由小模型來處理。
薛彥澤: 評論區有觀眾提問,大模型的魯棒性該如何評估?
程兆華:魯棒性就是模型的統一性。例如,前面的信息說A是B的姐姐,那麼整個對話都應該輸出一致的答案。
提升魯棒性的最佳方法之一是通過數據構建,通過構建攻擊性問題,在case中變著花樣去問,然後喂給這個模型,它的魯棒性就會提高。
此外,在強化學習階段,特別是在知識類場景中,採用如PPO(Proximal Policy Optimization)等強化學習算法,可以有效地提高模型的魯棒性。大概是這兩種方法。
6.如何培養自己的大模型話語權?
薛彥澤: 下個問題,如何培養自己的大模型的話語權?
程兆華:對於一個去做大模型的產品來說,培養大模型的話語權,我認為關鍵在於兩個方面:
一是提升自己對大模型技術的了解廣度,不僅要跟上新技術的發展,還要理解這些技術如何應用在不同場景中。
二是提升自己對業務的了解深度,特別是業務如何與大模型技術結合。如果你不玩社交軟體,不熟悉你的產品功能,就很難理解大模型是用來解決什麼問題的。比如,Soul的社交內容更偏男女生互動,這就與抖音等平台的娛樂、萌寵等內容有差異,理解這些才能更好地將技術應用於業務場景。
薛彥澤: 雖然每個人都會思考,但是大多數人很難想得很深,你有沒有什麼經驗?
程兆華:我覺得可以分為三部分來談:思考深入並非憑空產生,而是需要持續的輸入和實踐。我的經驗可以概括為三點:
首先是廣泛輸入,思考並非是憑空出現的。我的手機中裝有數百個競品App,我會觀察大家都是怎麼設計功能的,大量的競品應用,體會產品間的差異點,能找到更多可能性。
其次是保持思考的習慣,日常使用產品、玩遊戲的時候,我都會思考其設計和交互能否更好,理解設計背後的理念和用戶需求。
最後需要親身體驗,比如現在負責AI虛擬陪伴產品,我會花費大量時間與虛擬角色互動,「臥底」到用戶社群,甚至競品的社群,從中獲取用戶反饋和期望。
其實深度的提升是一個刻意練習的結果。用商業化來舉例,可以看到不同的商業模式,去探究它們是如何構建和運作的。慢慢就會在生活的方方面面,養成習慣思考現象背後的行為動機。