概述
今天主要介紹下kettle的記錄集連接功能和一些注意點。
一、什麼是記錄集連接
記錄集連接可以實現數據集合的關聯,也分為內連接,左連接,右連接,外連接。
多表的join,可以直接用sql寫入【表輸入】組件,也可以藉助kettle提供的【記錄集連接】組件,使用kettle的記錄集連接組件,首先必須要兩個輸入數據集是有序的,並且是根據需要join的欄位排序,可以藉助kettle的【排序記錄】組件。
步驟:
1:首先根據【排序記錄】組件將兩個數據集需要join的欄位進行排序。
2:使用記錄集連接組件對數據集進行排序。
註:
1:第一個步驟為連接的主表
2:連接類型分為,內連結,左外連接,右外連接,全外連接。
3:兩個步驟的連接欄位必須和排序記錄中的名稱一致。
其他:
1:步驟名稱:在單一轉換中名稱必須唯一。
2:第一個步驟:指定要合併的第一個輸入步驟。
3:第二個步驟:指定要合併的第二個輸入步驟。
4:連接類型:選擇合併可用的類型。
5:連接欄位:指定要做關聯的欄位。
二、記錄集連接實驗
需求:將A表(code,部門,指標)、B表(code,部門,核心內容)組合輸出結果:S表(code,部門,指標,核心內容)
1、準備A表、B表
A表:
B表:
2、kettle流程
其中以code進行排序,注意AB兩張表的code都是不重複的
3、結果:
覺得有用的朋友多幫忙轉發哦!後面會分享更多devops和DBA方面的內容,感興趣的朋友可以關注下~