Etl-testing-introduction
ETLテスト–はじめに
データウェアハウスシステムのデータは、ETL(抽出、変換、ロード)ツールでロードされます。 名前が示すように、それは次の3つの操作を実行します-
- Oracle、Microsoft、またはその他のリレーショナルデータベースであるトランザクションシステムからデータを抽出します。
- データクレンジング操作を実行してデータを変換し、次に
- OLAPデータウェアハウスにデータをロードします。
また、ETLツールを使用してスプレッドシートやCSVファイルなどのフラットファイルからデータを抽出し、データ分析とレポートのためにOLAPデータウェアハウスにロードすることもできます。 例をよく理解してみましょう。
例
販売、人事、資材管理、EWMなどの複数の部門を持つ製造会社があると仮定しましょう。 これらすべての部門には、情報w.r.tを維持するために使用する個別のデータベースがあります。 彼らの仕事と各データベースには異なる技術、風景、テーブル名、列などがあります。 現在、企業が履歴データを分析してレポートを生成する場合は、これらのデータソースからすべてのデータを抽出してデータウェアハウスにロードし、分析作業のために保存する必要があります。
ETLツールは、これらすべての異種データソースからデータを抽出し、データを変換して(計算の適用、フィールド、キーの結合、不正なデータフィールドの削除など)、データウェアハウスにロードします。 後で、さまざまなビジネスインテリジェンス(BI)ツールを使用して、このデータを使用して意味のあるレポート、ダッシュボード、視覚化を生成できます。
ETLとBIツールの違い
ETLツールを使用して、さまざまなデータソースからデータを抽出し、データを変換し、DWシステムにロードします。ただし、BIツールを使用して、エンドユーザー向けのインタラクティブでアドホックなレポート、上級管理職向けのダッシュボード、月次、四半期、および年次の取締役会のデータ視覚化を生成します。
最も一般的なETLツールには、SAP BOデータサービス(BODS)、Informatica – Power Center、Microsoft – SSIS、Oracle Data Integrator ODI、Talend Open Studio、Clover ETL Open sourceなどが含まれます。
人気のあるBIツールには、SAP Business Objects、SAP Lumira、IBM Cognos、JasperSoft、Microsoft BI Platform、Tableau、Oracle Business Intelligence Enterprise Editionなどがあります。
ETLプロセス
ここで、ETL手順に含まれる重要な手順についてもう少し詳しく説明します-
データの抽出
異なる異種データソースからデータを抽出する必要があります。 トランザクションシステムからのデータ抽出は、要件と使用中のETLツールによって異なります。 通常、夜間や週末にジョブを実行するなど、営業時間外にスケジュールされたジョブを実行することによって行われます。
データの変換
データをDWシステムに簡単にロードできる適切な形式に変換する必要があります。 データ変換には、計算、結合、およびデータの主キーと外部キーの定義が含まれます。 たとえば、データベースにない総収益の%が必要な場合、変換に%式を適用し、データをロードします。 同様に、ユーザーの姓と名が異なる列にある場合、データをロードする前に連結操作を適用できます。 一部のデータは変換を必要としません。このようなデータは、*直接移動*または*パススルーデータ*と呼ばれます。
データ変換には、データの修正とデータのクレンジング、不正なデータの削除、不完全なデータ形成、データエラーの修正も含まれます。 また、DWシステムにロードする前に、データの整合性と互換性のないデータをフォーマットします。
DWシステムへのデータのロード
分析レポートと情報のためにデータをDWシステムにロードする必要があります。 ターゲットシステムは、単純な区切りのあるフラットファイルまたはデータウェアハウスにすることができます。
ETLツール機能
典型的なETLツールベースのデータウェアハウスは、ステージング領域、データ統合、およびアクセスレイヤーを使用してその機能を実行します。 通常は3層のアーキテクチャです。
- ステージング層-ステージング層またはステージングデータベースは、異なるソースデータシステムから抽出されたデータを格納するために使用されます。
- データ統合層-統合層は、ステージング層からデータを変換し、データをデータベースに移動します。データベースでは、データは、*ディメンション*と呼ばれる階層グループ、および*ファクト*および*集計ファクト*に配置されます。 DWシステムでのファクトテーブルとディメンションテーブルの組み合わせは、*スキーマ*と呼ばれます。
- アクセス層-アクセス層は、分析レポートおよび情報用のデータを取得するためにエンドユーザーによって使用されます。
次の図は、3つのレイヤーがどのように相互作用するかを示しています。