作者:Prateek Joshi
編譯:ronghuaiyang
昨天給大家介紹了CRF的基本概念,今天我們聊一聊為什麼需要這麼個東西。
這是一個分為兩部分的討論。在這篇博文中,我們將討論條件隨機場的需求。在下一篇文章中,我們將討論它們到底是什麼以及如何使用它們。在計算機視覺、生物信息學、計算語言學和語音識別等諸多領域,都出現了為一組觀測序列分配標籤的任務。例如,考慮自然語言處理任務,即在句子中使用相應的詞性標記標記單詞。在這個任務中,每個單詞都有一個標記,表示其適當的詞性,從而產生帶標註的文本。再舉一個例子,考慮根據所觀察到的行為給一個視頻貼上一個人的心理狀態標籤的任務。你必須分析用戶的面部表情,確定用戶是否高興、生氣、悲傷等等。我們經常希望預測大量相互依賴的變量以及其他觀察到的變量。如何實現這些任務?我們應該使用什麼模型?
為什麼要用條件隨機場?
在許多應用中,我們希望能夠預測相互依賴的多個變量。例如,一個運動隊的表現取決於該隊每個隊員的健康狀況。每個成員的健康可能會受到團隊旅行計劃的影響。比賽的結果可能會影響全隊的士氣。反過來,士氣可能會影響健康。正如你所看到的,有多個變量錯綜複雜地相互依賴。條件隨機場(CRFs)對這些問題的建模非常有用。與此類似的應用有很多,比如對圖像的區域進行分類,在戰略遊戲中估計分數,在DNA鏈中分割基因,從自然語言文本中提取語法等等。在這樣的應用中,我們希望在給定觀測特徵向量的情況下對隨機變量序列進行預測。圖模型提供了一種自然的方法來表示輸出變量相互依賴的方式。圖模型,包括如貝葉斯網絡、神經網絡、因子圖、馬爾可夫隨機場等,表示了許多變量上的複雜分布,是局部因子在較小的變量子集上的乘積。
為什麼有了圖模型還不夠?
在學習圖模型方面,特別是在統計自然語言處理方面,有很多工作都集中在生成模型上,生成模型明確地嘗試對輸入和輸出的聯合機率分布建模。生成模型是基於給定參數隨機生成可觀測數據的模型。儘管這種方法有優點,但也有重要的局限性。不僅輸入的維數非常大,而且特徵之間具有複雜的依賴關係,因此構造它們之間的機率分布非常困難。對輸入之間的依賴關係建模可能導致難以處理的模型。如果是這樣,我們為什麼不忽略依賴關係呢?這樣會更容易嗎?不完全是。忽略它們將導致性能下降,這肯定是我們不希望看到的。這就是CRF的作用。當普通分類器預測單個樣本的標籤而不考慮相鄰的輸入樣本時,CRF會考慮上下文。
舉個栗子
讓我們考慮這個例子。讓你去判斷一桌菜的國籍。你只是看到一個米飯為主的菜,沒有額外的信息。沒有上下文,很難確定它來自哪裡,因為許多不同的菜系都以大米為主要成分。現在,你會看到來自相同菜系的更多菜肴。比如說這些額外的菜是海鮮飯,西班牙辣香腸,玉米餅等。現在你開始理解這種模式,並意識到最初的菜肴可能來自西班牙。這就是CRF的工作原理。在做任何決定之前,它會先了解背景,而不是盲目地看一些東西。
既然我們已經清楚了為什麼需要CRFs,我們將繼續看看這些CRFs到底是什麼以及它們是如何表示的。我將在下一篇博客文章中討論這些問題。
英文原文:https://prateekvjoshi.com/2013/02/23/why-do-we-need-conditional-random-fields/
請長按或掃描二維碼關注本公眾號