Data Vault 2.0 不僅是建模技術,也提供了一整套數據倉庫項目的方法論。它能提供一套非常可行的方案來滿足數據倉庫項目中對於歷史軌跡和審核兩個方面的需求。
多年來,商業智能(BI)項目一直並將繼續在瀑布模型下運行。它是由每個階段的長時間延伸的序列定義的,該序列需要一份詳盡的前期需求列表、一個完整的數據模型設計,然後將所有硬業務規則和軟業務規則編入ETL流程。可視化層是按順序構建的,並從最初的開始日期算起,在幾個月甚至幾年之後提交給最終用戶。
我們經常看到團隊採用「縮小範圍」的瀑布模式,目的是將大型BI計劃分解成較小的項目。雖然有助於降低整體的複雜性,但是這種方法在應用於BI時仍然有很大的風險,因為有兩個主要的問題:
以上兩個原因就是為什麼我們設計模式從瀑布轉向可疊代敏捷模式,這種模式提供了一些方法來解決問題。但是在數據分析領域,敏捷本身並不能解決我們在更詳細的數據倉庫或BI項目級別上遇到的重大挑戰。這些包括:
為了應對這些問題,Data Vault 2.0應運而生,它定義了一種方法,該方法側重於從敏捷實踐中獲得最大收益,並使用其他已被證明有效的規程和技術,看起來是迄今為止最疊代的BI方法
Data Vault (DV)將敏捷、BEAM需求收集、CMMI、TQM、六西格瑪和DV建模等方面結合在一起,以定義一種旨在提高BI項目速度和質量的方法。因為它既能提高適應性,又能提高準確性。
DV還包括關於DW項目評估和敏捷任務分級的敏捷方法,以確複雜性或跨DW所涉及的工作。在較低的層次上,它還提供了一種非常簡潔和疊代的方法來處理常見的功能需求。這些包括全面的、可重複的、漸進的、基於敏捷的流程,以完成日常的任務。這些任務包括(但不限於)在ETL和建模階段增加數據屬性、切片、新增加數據源、擴大源、歷史跟蹤、棄用源和源結構更改。
簡單地說,DV模型是一個存在於常規維度建模(OLAP、星型模式)和分段之間的層,它根據不斷增長的業務需求提供伸縮性,並分解建模和ETL的複雜性。它由中心(業務實體)、連結(關係)和衛星(描述性屬性)組成,它們在3NF和星型模式之間建模。該模型被放置在數據倉庫的數據集成層(通常稱為原始資料庫)中,並與Kimball的模型有效地結合使用。
Data Vault 2.0 優點
下面概述了Data Vault 2.0方法的一些主要優點:
雖然DV優點很多,但是其缺點也不少, 比如:
有幾個關鍵變量才是判斷的標準。比如,
l 我們認為DV建模是滿足數據倉庫項目需求的一種非常可行的方法,其中歷史軌跡跟蹤和審核是兩個重要的因素。
l 此外,如果跨業務實體的關係在數據倉庫中不斷發展(例如1:M到M:M),那麼data Vault將簡化這些關係的捕獲,並更關注於交付真正的價值。
l 如果計劃在倉庫中存儲PII數據,並受GDPR、HIPPA或其他法規的約束,data Vault將幫助進行數據審計和可追溯性
權衡DV的利弊,找到更好的適用於自身情況的建模方法才是最佳方案。