機器學習的數據準備:為什麼它如此重要,我們應該怎麼做?

2019-11-07     CDA數據分析師

作者 | Nandhini TS

編譯 | CDA數據分析師

Data Preparation for Machine learning : Why it’s important and how to do it

編碼是成功的業務模型的前提。

建立成功的AI / ML模型3個方面算法,數據和計算。

雖然建立準確的算法和計算技能的應用是過程的一部分,但這是什麼基礎呢?

使用正確的數據奠定基礎

​ 從自動駕駛汽車等基於AI的大規模技術革命到構建非常簡單的算法,您都需要正確格式的數據。實際上,特斯拉和福特一直在通過行車記錄儀,傳感器和倒車攝像頭收集數據,並對其進行分析以製造出無人駕駛和全自動汽車,以確保安全的道路。

​ 收集數據之後的下一步是準備數據的過程,這將成為本文的重點,並將在後續部分中詳細討論。在深入研究數據準備過程的概念之前,讓我們首先了解其含義。作為基於AI創新的大腦的數據科學家,您需要了解數據準備的重要性,以實現模型所需的認知能力。

什麼是數據準備?

​ 數據是每個組織的寶貴資源。但是,如果我們不進一步分析該聲明,它可能會否定自己。 企業將數據用於各種目的。從廣義上講,它用於制定明智的業務決策,執行成功的銷售和營銷活動等。但是,這些不能僅用原始數據來實現。

數據只有經過清洗,貼標籤,注釋和準備後,才能成為寶貴的資源。數據經過適應性測試的各個階段後,便最終具備進行進一步處理的資格。處理可以採用多種方法-將數據提取到BI工具,CRM資料庫,開發用於分析模型的算法,數據管理工具等。

​ 現在,重要的是您從此信息的分析中收集的見解是準確且值得信賴的。實現此輸出的基礎在於數據的健康狀況。此外,無論您是構建自己的模型還是從第三方那裡獲得模型,都必須確保標記,擴充,乾淨,結構化的整個過程背後的數據都經過標記,概括,即數據準備。

​ 正如Wikipedia所定義的,數據準備是將原始數據(可能來自不同的數據源)操縱(或預處理)為可以方便,準確地進行分析的形式的行為,例如出於商業目的。數據準備是數據分析項目的第一步,可以包括許多離散任務,例如加載數據或數據攝取,數據融合,數據清理,數據擴充和數據交付。

機器學習數據準備的重要性

​ 根據Cognilytica的最新研究,其中記錄並分析了組織,機構和最終用戶企業的響應,以識別在標記,注釋,清理,擴充和豐富機器學習模型的數據上花費了大量時間。

​ 數據科學家80%以上的時間都花在準備數據上。儘管這是一個好兆頭,但考慮到隨著良好的數據進入建立分析模型,準確的人會得到輸出。但是,理想情況下,數據科學家應該將更多的時間花在與數據交互,高級分析,培訓和評估模型以及部署到生產上。

只有20%的時間進入流程的主要部分。為了克服時間限制,組織需要利用用於數據工程,標記和準備的專家解決方案來減少在清理,擴充,標記和豐富數據上花費的時間(取決於項目的複雜性)。

這將我們帶入了「 垃圾中的垃圾 」概念,即輸出的質量取決於輸入的質量。

數據準備過程

以下是針對機器學習模型的數據準備過程的簡要介紹:

數據提取數據工作流程的第一階段是提取過程,通常是從非結構化源(如網頁,PDF文檔,假脫機文件,電子郵件等)中檢索數據。部署從網絡中提取信息的過程稱為網絡刮。

數據概要分析是檢查現有數據以提高質量並通過格式帶來結構的過程。這有助於評估質量和對特定標準的一致性。當數據集不平衡且配置不當時,大多數機器學習模型將無法正常工作。

數據清理可確保數據乾淨,全面,無錯誤,並提供準確的信息,因為它不僅可以檢測文本和數字的異常值,還可以檢測圖像中無關的像素。您可以消除偏見和過時的信息,以確保您的數據是乾淨的。

數據轉換是對數據進行轉換以使其均勻。地址,名稱和其他欄位類型之類的數據以不同的格式表示,數據轉換有助於對此進行標準化和規範化。

數據匿名化是從數據集中刪除或加密個人信息以保護隱私的過程。

數據擴充用於使可用於訓練模型的數據多樣化。在不提取新信息的情況下引入其他信息包括裁剪和填充以訓練神經網絡。

數據採樣識別大型數據集中的代表性子集,以分析和處理數據。

特徵工程是將機器學習模型分類為好模型還是壞模型的主要決定因素。為了提高模型的準確性,您可以將數據集合併以將其合併為一個。

這是一個例子:

假設有兩列,一列是收入,另一列是輸出分類(A,B,C)。輸出A,B,C取決於收入範圍$ 2k-$ 3K,$ 4k-$ 5K和$ 6K-$ 7K。新功能是在收入範圍內分配數值1,2和3。現在,這些數值被映射到我們最初創建的3個數據集。

在這裡,收入範圍是要素工程。

數據準備過程的另一個重要部分是標記。為了使這個概念易於理解,讓我以熱飲料(例如茶)為例。

現在,該項目的目標是確定特定類型茶中所含咖啡因的百分比或數量。

紅茶含咖啡因20 毫克 茶+牛奶含咖啡因11 毫克 草 茶含咖啡因0毫克伯爵灰茶咖啡因40毫克

注意:(咖啡因百分比以100克茶計算)

因此,ML模型將為咖啡因含量最高的伯爵茶分配一個數值,例如1,為紅茶分配2,依此類推。這將我們帶入有助於識別數據集的標籤概念。

數據標記-數據準備必不可少的組成部分

標記只是將標籤分配給一組未標記的數據,以使其更易於識別以進行預測分析。

這些標籤表明照片中的動物是狗還是狐狸(請參見下圖)。

通過向模型提供數百萬個標記數據,標記可以幫助機器學習模型猜測和預測一條未標記數據。

數據標記的一些用例:

  • 視頻和圖像的圖像分類/注釋包括圖像的注釋,其描述,邊界框定義等。
  • 會話標記一個典型的例子是聊天機器人,其中對數據進行標記和訓練以使與用戶的對話更加真實和相關。
  • 情感分析數據

標籤是文本還是圖像,以了解內容的情感,例如在推文中。

語音和文本NLP

是音頻和文本源的標籤。

  • 人臉檢測標籤圖像集和訓練,以進行準確的檢測和預測
文章來源: https://twgreatdaily.com/mmzER24BMH2_cNUgQ7PK.html