Sap-bods-etl-introduction
提供:Dev Guides
ETL-はじめに
ETLはExtract、Transform、Loadの略です。 ETLツールは、さまざまなRDBMSソースシステムからデータを抽出し、計算の適用、連結などのデータを変換します。 データをデータウェアハウスシステムにロードします。 データは、ディメンションテーブルとファクトテーブルの形式でDWシステムにロードされます。
抽出
- ETLロード時にはステージング領域が必要です。 ステージング領域が必要な理由はさまざまです。
- ソースシステムは、データを抽出するために特定の期間のみ利用可能です。 この期間は、データのロード時間の合計よりも短くなります。 したがって、ステージング領域を使用すると、ソースシステムからデータを抽出し、タイムスロットが終了する前にステージング領域に保持できます。
- 複数のデータソースからデータを取得する場合、または2つ以上のシステムを結合する場合は、ステージング領域が必要です。 たとえば、物理的に異なる2つのデータベースの2つのテーブルを結合するSQLクエリを実行することはできません。
- 異なるシステムのデータ抽出のタイムスロットは、タイムゾーンと運用時間によって異なります。
- ソースシステムから抽出されたデータは、複数のデータウェアハウスシステム、オペレーションデータストアなどで使用できます。
- ETLを使用すると、複雑な変換を実行でき、データを保存するための追加の領域が必要になります。
変換する
データ変換では、抽出されたデータに一連の関数を適用して、ターゲットシステムにロードします。 変換を必要としないデータは、直接移動またはパススルーデータとして知られています。
ソースシステムから抽出したデータにさまざまな変換を適用できます。 たとえば、カスタマイズした計算を実行できます。 売上合計が必要で、これがデータベースにない場合は、変換中に SUM 式を適用してデータをロードできます。
たとえば、テーブルに異なる列の名と姓がある場合、ロードする前に連結を使用できます。
Load
ロード段階では、データはエンドターゲットシステムにロードされ、フラットファイルまたはデータウェアハウスシステムになります。