導讀
每一次技術的革新,改變的都是連接人類和世界的方式。
圖說:在11月21日周五舉行的微軟小冰科研成果分享會上,微軟小冰首席科學家宋睿華和他的同事,微軟小冰首席NLP科學家武威、微軟小冰首席語音科學家欒劍介紹了最近小冰所取得的新進展。
撰文 | 邸利會
在微軟小冰首席科學家宋睿華眼中,每一次技術的革新,改變的都是連接人類和世界的方式。
藉助網際網路,可以不必「跨越大半個地球去看你」,技術壓縮了物理的空間,拉近了人們的距離。換言之,網際網路延長了你的眼睛和耳朵,讓你方便的觸達世界的任何角落。
而手機再一次改變了人類和世界連接的方式,手機成了最懂你的人——當你打車,手機會知道你常去的地方,當你聽歌,手機會推薦給你最喜歡的曲目,甚至有人說,手機比你都更了解你自己。
「 我們的猜測是AI產品也會成為下一個改變人類和世界方式的點,我們希望小冰所完善的人工智慧框架能夠做出這樣的一個連接點。」 宋睿華說。
在11月21日周五舉行的微軟小冰科研成果分享會上,宋睿華和他的同事,微軟小冰首席NLP科學家武威、微軟小冰首席語音科學家欒劍介紹了最近小冰所取得的新進展。
2014年,小冰在微軟(亞洲)網際網路工程院誕生,經歷了5年時間,今年已經進化到了第七代。小冰是一個融合了自然語言處理、計算機語音和計算機視覺等技術的完備的人工智慧底層框架和系統。該框架注重人工智慧在擬合人類情商維度的發展,強調人工智慧情商,而非任務完成,在人機互動中的基礎價值。
第七代微軟小冰已成為全球最大的跨領域人工智慧系統之一,產品形態涵蓋社交對話機器人、智能語音助理、人工智慧內容創作和生產平台等。在全球多個國家,微軟小冰單一品牌已覆蓋6.6億在線用戶、4.5億台第三方智能設備和9億內容觀眾,在交互場景大幅度拓寬的情況下,微軟小冰與用戶的單次平均對話輪數(CPS)仍保持在23輪。
把控對話流程
平均對話輪數當然是衡量用戶是否深度參與聊天的重要指標,不過武威說,在某些情形下,比如商品推薦、智能家居,是「需要越短越好,而且還要答得對」。要讓小冰適應如此廣泛的應用場景確實是一項挑戰。
武威說,要發展自我完備的對話機器人,首先需要的是學習的能力——可以從人類的對話中學,也可以機器人之間互相學。此外,機器人還應該能自主管理,單輪的表達管理做好後,還能把控整個的對話流程;最後,機器人應該還能連接散落在這個世界上的多模態的知識。
小冰的對話引擎這些年也經歷了進化,從一開始的「檢索模型」,重用已有的人類的對話來實現人機互動,到「生成模型」,可以自己去合成回復,再到「共感模型」,也就是可以自主的去把握整個對話流程。
在各個模型上,武威介紹,他們都做了一些工作和常識。比如,考慮到簡單的生成模型的回覆沒有多少信息量,2017年他們將話題內容引入到了回覆中,這樣的回覆就更有內容。
「由於我們引入了話題,如果用戶說在左臉頰上有一些血絲,機器回復,我也是敏感肌,敏感肌就是一個話題的詞彙;再比如,有人說,我的皮膚很乾,也可以回復,那你補水保濕吧,補水保濕也是一個話題。」 武威解釋說。
小冰第六代的「共感模型」,背後包括了兩個模型,回復生成模型和策略決定模型。武威解釋說,這裡的策略可以是主動引導話題,提問,向對方確認一些事情;也可以是一些情感的表達,通過意圖、話題、情感等策略的組合,可以產生非常多樣、複雜的對話流程。
融合了對話、語音、文本知識、多媒體的多模態交互也是武威他們正在研究的重點。「如何把散落在各個地方的知識連接起來,然後以一種一致的方式再通過對話機器人輸出出來,我認為做到這點之後多模態交互基本上就解決了。」 武威說。
多種風格的歌唱
在當天的分享會上,欒劍展示了小冰唱歌技術在過去一年的進展。事實上,在2015年,小冰推出語音聊天功能時就收到了市場的積極反應,之後又加入了兒化音、中英文混雜朗讀、講兒童故事等,2016年進一步開始嘗試唱歌。
「做唱歌主要有三個原因,一是唱歌門檻比說話高,二是唱歌在情感表達上更為豐富激烈,三是唱歌本身是很重要的娛樂形式。」 欒劍解釋說。
那麼,如何讓機器學習唱歌了,一是可以像唱歌的人學習,二是直接通過讀曲譜。這兩種方式對機器來說,第二種要簡單一些。「如果從人的錄音去學的話,它有時候會需要檢測音高的曲線,需要檢測每個字起始和結束的位置,還需要去判斷每個發音,所以這中間都會有一些誤差和錯誤存在,所以如果是有曲譜輸入的話,接下來就會更簡單一些。」 欒劍說。
而唱歌合成的方式也有兩類,一是單元拼接。這個方式比較簡便,但最大的問題是唱出來往往不那麼自然,像是一個字一個字的蹦出來。第二種是參數合成的方式,這種方式會比較靈活,變化很豐富,甚至可以創造一個從來不存在的聲音,但缺點是音質上可能會有所下降。
欒劍介紹說,小冰採用的是參數合成的方式,並不斷提升。他們講樂譜中能量譜、時長和音高用同一個模型進行預測,雖然模型很複雜,但「用這種方式生成的波形,它的自然度和流暢度會得到一個明顯的提升」。
儘管小冰在唱歌方面已取得不俗的進展,但欒劍認為,對唱歌這個人物,數據依然是個困難點。鑒於清唱的數據非常少,他們需要利用混合了伴奏的數據進行學習。「不管是人工智慧的創造還是提高唱歌上,我覺得需要兩條腿走路,一是不斷提高模型,二是不斷挖掘更多的數據,這兩個東西如果做的更好,我們的質量會不斷得到提高。」 欒劍總結道。
比喻與繪本創作
在寫作中,比喻是一種比較高級的修辭手法,可以把抽象難懂的概念具像化,讓讀者產生深刻的印象。可讓機器人學會運用比喻卻不是一件容易的事情,何況是創造一種新穎的比喻。
「我們有一個要求是不要在人類已有的文章里去挖掘這種比喻句,不要用』像』、『就像』、『一樣』 這樣子的模板把它挖掘出來,因為這些都是人類創造的比喻,跟小冰沒有那麼大的關係,我們希望小冰真正創造出人類不曾說過的比喻。」 宋睿華說。
那麼,如何做呢?對機器,這樣的輸入往往是本體、喻體,而輸出是一個解釋。宋睿華他們首先找出了小冰用戶喜歡說的96個抽象概念,包括了分離、愛情、心、世界、母親、美人、人、夢想、生活、快樂等。另外再找出常用的一萬個詞,都是一些好理解的具體的概念,如食物、信號、遊戲等。最後,他們在兩組概念中間挖掘一些連接詞,之後根據連接詞是動詞,名詞還是形容詞,再做不同的處理。用他們的方法做出的比喻有些有十分貼切的效果,如「孤獨像是空無一人的車站」,當然也有「戀人像是可靠的報表」這樣略有些奇怪的比喻。也許,像詩人一樣,進行新的比喻的創作有時不可避免會有不那麼好的結果。
在最近的發展中,小冰的另外一項技能是用一系列圖片描述一個故事。談起這項研究的初衷,宋睿華告訴筆者,當時他們是在合作一個兒童繪本的項目,希望除了給兒童故事加朗讀外還能配上一些畫面。
要實現從故事上的文字轉變成一系列的圖畫是一些具有挑戰的任務,包括了三個難點,一是需要更好的利用上下文,二是需要做好細節上的對應,三是很多的數據都是一一對應的。宋睿華他們用了一系列的方法改善他們的結果,儘管現在還需要一些人工的輔助,但已經是取得了不錯的進步。
文章來源: https://twgreatdaily.com/zh-tw/7ilmv24BMH2_cNUgP-t6.html