詹姆斯· 弗拉霍斯在《智能語音時代》中有一個大膽的預測：智能語音有可能成為最有感情的技術。

不過在太多人眼中，當下的合成語音很難和情感特徵相關聯，韻律表現上不夠靈活，聲音變化上相對死板。幾乎無法讓人相信那些冷冰冰的機械音可以承載豐富的情感，直到百度地圖的一場發布會。

用戶只需要在百度地圖App上錄製20句話，然後等待15分鐘左右的時間，即可生成有自己聲音特色的個性化語音包。有些預料之外的是，原本被某手機廠商預定的朋友圈，猛然被百度地圖語音定製的截圖刷了屏。

以至於有人在朋友圈中寫下了這樣一句話：充滿「人氣」的導航語音定製，正在打破語音時代的「花園圍牆」。

只要20分鐘，聽見自己的聲音

作為對新技術永遠有著嘗鮮慾望的泛極客，我在第一時間去AppStore更新了最新版的百度地圖，滿懷期待地錄製了自己的語音包。為了方便大家對「語音定製功能」的理解，這裡將整個體驗分為三個過程：

第一步，錄製環境的準備。

語音導航早已不是什麼新事物，之所以在過去那麼長時間裡沒有出現個性化定製的語音包，最大的門檻就在於錄製條件：首先要找到一個專業的錄音棚，然後錄製上萬句導航文本，最後花上半年的時間進行處理。即便是定製化的明星語音包，也需要在通用語音庫的基礎上錄製一兩千句語音，大概要在錄音棚里待兩個禮拜的時間，再花兩個月的時間用語音技術生成語音包。

「想要定製自己的導航語音，要麼你爸爸是王健林，要麼你自己是王思聰。」大概就是很多人對語音定製的原始印象。

但在最新版的百度地圖App中，只需要語音喚醒「小度小度」後說「錄製我的語音」，或者在個人中心中找到「語音定製」的按鈕，即可進入到語音定製的介面。不需要跑到專業的錄音棚中，只要不是那麼嘈雜的環境，達到系統自動檢測的噪音標準後，即可在手機上定製屬於自己的語音包。

第二步，語音定製的過程。

進入語音定製的介面後，百度地圖提供了個性化的選擇，在性別上可以選擇男聲、女聲以及童聲女和童聲男，可供選擇的錄製文本包括推薦文本、卡通文本、電影台詞和超短文本。比較貼心的是，卡通文本中可以看到《喜羊羊與灰太狼》、《超級飛俠》、小豬佩奇等時下熱門動畫片的台詞，並且在朗讀文本前設定了「自動跟讀」，針對兒童群體進行了一系列細節上的打磨優化。

占用5分鐘的時間錄製20句左右的文本，然後等待15分鐘上下的時間進行雲端語音處理，即可下載自己專屬的語音包。

簡單的對比即可以發現，百度地圖已然最大程度的降低了語音定製的門檻，原本動輒幾個月的語音包生產過程，被壓縮到幾分鐘的時間，重新定義語音包生產模式的同時，也讓語音定製進一步普惠化。不再局限在幾個明星的語音包，人人都可以是「大明星」。

第三步，場景體驗的感受。

市面上並不缺少商用語音合成的產品和服務，但絕大多數都是構建在傳統的TTS框架上，至於語音合成的效果，往往少不了合成語音的機械感。

關於百度地圖「語音定製」的體驗，最大的感受就是驚艷。

首先在音色上，合成語音和原始聲音的相似度在90%以上，或許一些實驗室里可以做到95%左右的水平，考慮到百度地圖的規模化應用，這樣的成績已經足夠令人興奮。同樣讓人驚嘆的是，僅僅錄製了20個短句，有個人特色的短句方式被完美保留，比如我在讀一個長句時習慣在中間進行停頓，百度地圖的語音包中精準呈現了這一細節。

其次在場景上，本以為只是應用在路線導航的特定場景中，在使用自己的語音包後，每次在百度地圖中喚醒「小度小度」，聽到的居然是自己的聲音，進一步深入體驗後發現定製的語音包可以在景區智能語音導覽、智能語音交互、導航等全部場景使用。

不客氣地說，如果Siri的出現開啟了語音助理的時代，百度地圖的「語音定製功能」開啟了智能語音規模化應用的先河。告別冷冰冰的機械感，自然、有情感、高表現力的聲音，將是語音技術進一步在生活中滲透的開始。

7年技術打磨，語音合成的進階

羅馬不是一天建成的，語音技術也是如此。

原先幾個月才能搞定的語音包，百度為何在15分鐘的時間內完成，百度語音首席架構師賈磊在百度地圖的發布會上進行了「揭秘」：

先來熟悉下百度在語音技術上的深耕，也許是讀懂百度語音合成技術躍遷的關鍵。

我在之前的文章中梳理過語音識別的進化簡史，比如百度2012年開始把深度學習技術DNN技術用於語音搜索，2013年開始基於CNN模型進行研究，2015年初推出基於LSTM –HMM的語音識別，年底發展出基於LSTM-CTC的端對端語音識別系統，今年1月份又發布了流式多級的截斷注意力模型……

其實百度的語音技術進化還存在另一條曲線，即語音合成技術的創新進化史。2013年就已啟動TSS研發，2014年實現了HTS離線參數合成，2016年在基於深度學習的語音合成產品落地上持續發力，並打造了世界上第一個能在雲端提供大規模WaveRNN實時語音合成服務的系統……

僅以WaveRNN技術為例，傳統的RNN技術是單點遞推的，只有計算完當前的音頻點，才能計算下一個音頻點，而百度創新的並行WaveRNN技術，可以把一句話分成若干個音節，每個音節同時並行合成，從而實現了WaveRNN技術可以線上大規模使用，為語音合成的商業化應用奠定了基礎。

當然作為普通的「吃瓜群眾」，我們無須熟知上述提到的專有名詞，在討論百度地圖的語音定製功能時，還要從百度獨創的風格遷移技術Meitron模型說起，特點主要體現在音色轉換、多情感朗讀和韻律遷移三個方面。

關於「音色轉換」可能很多人並不陌生，在動畫片《名偵探柯南》中，柯南正是通過胸口的「蝴蝶結變聲器」模仿其他人的聲音。現實中的「音色轉換」少了些魔法的光環，需要收集大量的聲音數據，生成訓練模型，再通過個性化的學習完成音色的變換。但在百度的Meitron模型中,可以利用少量語音快速合成一個人的專屬音庫。

「多情感朗讀」顧名思義就是讓合成語音擁有自然、有情感的聲音，常見的思路是從說話人的情感語音語料中獲得平均音模型，對說話人的情感說句進行自適應變換，構建目標情感的聲學參數模型，繼而合成出目標說話人的情感語音效果。同樣的，Meitron模型減少了語音庫中的個體差異，只需要少量語料，就能在合成的語音中注入不同的情感。

「韻律遷移」通俗的說就是一個人的聲音可以講出不同風格的文本，比如一個人說話時的音調、音節、停頓等，目的是讓合成語音正確表達語義，聽起來更加自然。倘若缺少韻律前移模型，無法無法精確控制語音的發聲，語音的表現力和自然地也就無從談起。百度地圖的「語音定製功能」之所以可以實現個性化的語音合成，與「韻律遷移」方面的方面的深厚積累無不關係。

從時間上來看，百度並非是第一家進行語音合成研究的公司，然而百度地圖「語音定製」的國民級應用，無疑闡述了這樣一個事實：那些動輒需要幾十個小時的語音採集，消耗幾個月的時間進行拼接合成的語音技術已經過時，在人工智慧技術的賦能下，語音合成技術正在創造無限可能。

分鐘級語音定製，開啟大生產時代

在體驗和技術之外，不應該被忽略的是，百度地圖選擇在這個時間點上線「語音定製功能」，本質上在於解決了兩個棘手問題：

一是語音合成技術本身，業已實現了核心技術的突破，以及與工業級應用的結合；

二是語音合成的成本控制，百度深度學習平台飛槳實現了純端側的廉價GPU部署，無疑是個性化語音合成技術規模化落地的關鍵。

由此來看，百度語音技術的想像空間遠沒有局限在百度地圖的個性化語音包上，開始從積累和沉澱進入商業化的爆發期。

就應用場景而言，除了導航語音之外，電子閱讀、智能硬體、智能音箱、機器人等都將是個性化語音的潛在市場。特別是即將到來的5G時代，或將有上百億台設備入網，作為萬物互聯以及AIoT的一個重要入口，智能語音賽道終將成為搜索、電商、社交之外的下一個「現金奶牛」。

就情感維繫來說，鍵盤、觸控乃至現階段的語音，以往的人機互動都是效率主導的，在很大程度上缺少了人情味兒，但百度的個性化語音定製已經釋放了積極的信號，語音不僅是高效的交互方式，也是情感的載體，人類與機器之間的隔閡勢必會進一步縮小，取而代之的是親和力。

同時對於百度這樣的網際網路巨頭而言，過去幾十年中的技術深耕，註定會在人工智慧進入大生產時代時一步步變現。

作者 | Alter 公眾號 | Alter聊IT

作者系獨立撰稿人，微信號imhefei

鈦媒體2018十大作者

品途商業評論2018十佳專欄作者

百家號千分好文出彩創作者

人人都是產品經理年度作者

入駐虎嗅、創業邦、介面等50餘家科技媒體

智能語音私有化，百度地圖邁入AI時代下一個強「音」

只要20分鐘，聽見自己的聲音

7年技術打磨，語音合成的進階

分鐘級語音定製，開啟大生產時代

直播的方向，別被羅永浩們帶偏了

刷新紀錄的ffit8，為代餐市場帶來了什麼啟示？

外媒稱百度AI領跑全球，一場「戰疫」告訴你為什麼

Z世代的社交圈，需要慢慢「養」出來

CT+AI加速辨別感染者，為醫療行業造了座「燈塔」

百度財報首秀智能音箱交互次數，語音交互的春天來了？

微信開放小程序直播，「櫃姐」們等來新風口？

生鮮「戰疫」的B面：中上遊走向零售一線

進化與重塑：在線教育的「路徑革命」

醒醒吧，國人拷問智商的醫學常識

2020微信公開課：與零售相關的6重利好和5個趨勢

「真香」的realme 真我X50 5G，正改變年輕人對5G手機的認知

跨年晚會15載：國民品牌的「王朝更迭」

2020自動駕駛拼「車速」？先把安全落實了再說

近七成月活過億的App都在做小程序，BAT依然是最大的流量池

百度發布小度在家智能屏X8，一場智能音箱邊界的探索

集中式和分布式架構的「伯羅奔尼撒戰爭」

坐上無人駕駛通勤車，我理解了實地的智慧人居

一天世界晴 | 傳奇五莊的台前幕後

行業追風智能合同，電子簽名越過山丘

AI人才爭奪：授之以財，不如授之以才

深度解析微盟矩陣：去中心化的智能商業生態鏈

攜號轉網，空歡一場？

整合前裝與後裝，華為給出全屋智能新路徑