上交友軟體先測謊?日本大學生開發匹配模型,60個問題綜評價值觀,精度達75%

2021-03-12   大數據文摘

原標題:上交友軟體先測謊?日本大學生開發匹配模型,60個問題綜評價值觀,精度達75%

大數據文摘出品

作者:常田小希

去年年末,日本政府宣布要用AI給民眾匹配交往對象,這一新聞一出,引得吃瓜群眾紛紛上線。

雖然現在想來仍然感到魔幻,但在文摘菌報道的文章下方,也有讀者一針見血地留言指出,這不就是交友軟體麼?

文摘菌轉念一想,那也就是說,人們很有可能仍然會不顧一切地包裝自己,「見光死」的現象並不會得到根除。

這個時候,其實只需要哆啦A夢的真假嘴道具就行了。

最近,日本早稻田大學的一個學生團隊就把「真假嘴道具」現實化了,並且他們還憑藉此獲得了「第二屆數據科學競賽」的最高獎

簡單來說,他們主要是通過註冊時讓用戶填寫的問卷,對用戶在「上進或穩定」「個人或群體」「工作或愛好」三個維度上進行分析,從價值觀入手,預測每個人獨特的行為方式,從而達到高精度的匹配效果。

從結果上看,利用交叉驗證得出的正確率達到了75%,雖然看上去還有很大的改進空間,但考慮到實驗數據主要是基於一些企業提供的消費者數據,也可以說十分優秀了。

而且,這個學生團隊總共就只有4個人,從大二到研一,是不是感覺更厲害了?趕快和文摘菌一起來看看吧~

從營銷專業論文中獲得創新靈感

我們都知道,在交友軟體上進行匹配的話,系統都是根據用戶自己提供的照片和填寫的興趣愛好等特徵做出匹配結果。

但不少人也正是利用到了這一點,為了能夠和更優秀的人匹配上,不斷地在交友軟體上粉飾自己,一發不可收拾。

比如,Christian Rudder對美國一個交友軟體OkCupid做過一項調查。他發現,一般來說,真人一般會比交友軟體填寫的身高矮上5厘米;年齡越大的美國人越愛對自己的收入撒謊,一個人的真實收入和約會軟體上相比要打個8折

有沒有什麼方法能杜絕這種現象呢?

在發表研究提案時,大三學生字井崇晴提到了一個關鍵點,在一篇營銷學論文上,研究人員寫過這麼一句話,「價值會影響消費者的行為」

同隊的其他成員表示,「價值觀這種東西,很多人可能自己也說不怎麼上來,因此可能存在有意無意的撒謊行為,如果是這樣的話,匹配效果就會非常不理想」。

於是,在開發初期,他們從主辦方提供的大量數據中提取了約60項內容,例如「愛好是什麼」和「喜歡觀看什麼樣的運動」,並通過應用稱為主成分的統計處理將信息壓縮為三個維度進行分析,這三個維度也就是「上進或穩定」「個人或群體」「工作或愛好」

當他們通過交叉驗證方法確認所創建的模型時,發現模型的正確率達到了75%。研究團隊負責人原健人說到,這表示,基於價值觀的匹配比基於可以作假的問題的情況要準確得多

在決定了「基於消費行為來猜測三軸值」的策略之後,研究人員嘗試使用線性回歸和隨機森林等各種模型來分析數據,從結果上看,算法LightGBM是精度最高的。對於適當的目的變量的提取,也是在不斷的試錯中進行的。

如果後續該應用程式得以發布,通過接收用戶的反饋來獲取新的數據的話,那麼匹配的精度還會進一步提高。

基於雲的機器學習平台與真實數據的結合

這次的數據科學競賽,早稻田大學提供了由微軟為分析環境開發的基於雲的機器學習平台「Azure ML」

之所以決定使用這個平台,一是因為它有一個「設計師」功能,可以讓不習慣編碼程序的學生通過拖拽的方式建立分析模型,二是它可以安全地在雲端完成對敏感和龐大調查數據的處理。

在上述交友軟體的開發過程中,學生團隊就使用「Jupyter Notebook」編寫了用於Python分析的代碼,該代碼可以輕鬆地在Azure ML上編寫和執行代碼。

由於分析數據量很大,在PC的本地環境中就資源而言很難處理。此外,由於數據是從實際調查表中獲得的,因此大學方面希望避免在本地下載。Azure的功能與本地分析環境幾乎相同,並且可以執行從數據存儲到雲分析的所有操作,也符合本次競賽的需求。

團隊中負責應用程式開發的鈴木說:「我可以立即共享無法在本地保存的數據或想要在線共享的數據,這是一個優勢。」

作為競賽的組織者,數據科學中心的小林學教授表示,「如果你是從頭開始安裝和設置工具,門檻自然是很高的。此外,為了提高利用分析的能力,Azure ML將為學生提供最新的分析環境。在設置使用量的上限的同時,可以靈活地擴展規格,同時觀察學生的使用情況,這也是雲技術獨有的優勢」。

該競賽的宗旨是將數據科學和各專業領域的知識相結合,來創造新的研究和知識,其目的是通過實際數據的處理來提高數據科學的相關技能,提高學生的能力。

商學院的守口剛教授說:「我們看到每個團隊在參加比賽時都使用自己的特殊技能,這取決於他們的專業,但都相當有趣。」

例如,參加比賽的一名理工科學生建議使用一種在商業中不廣為人知的最新機器學習方法。商學院的學生擅長將分析結果與商業和營銷建議聯繫起來,「這些方法和觀點都給我留下了深刻的印象」。

數據科學中心的野村亮教授說:「當有機會接觸到實際數據並獲得結果時,學生將變得更有動力並成長。」「明年希望能吸引到更多學生來參加」。

有技術,有真實數據,希望以後在國內,也會有更多腦洞大開的AI被開發出來~

相關報道:

https://www.itmedia.co.jp/news/articles/2103/01/news002.html

https://theblog.okcupid.com/?gi=af6b5f380650