Etl-testing-introduction

提供:Dev Guides
移動先:案内検索

ETLテスト–はじめに

データウェアハウスシステムのデータは、ETL(抽出、変換、ロード)ツールでロードされます。 名前が示すように、それは次の3つの操作を実行します-

  • Oracle、Microsoft、またはその他のリレーショナルデータベースであるトランザクションシステムからデータを抽出します。
  • データクレンジング操作を実行してデータを変換し、次に
  • OLAPデータウェアハウスにデータをロードします。

また、ETLツールを使用してスプレッドシートやCSVファイルなどのフラットファイルからデータを抽出し、データ分析とレポートのためにOLAPデータウェアハウスにロードすることもできます。 例をよく理解してみましょう。

販売、人事、資材管理、EWMなどの複数の部門を持つ製造会社があると仮定しましょう。 これらすべての部門には、情報w.r.tを維持するために使用する個別のデータベースがあります。 彼らの仕事と各データベースには異なる技術、風景、テーブル名、列などがあります。 現在、企業が履歴データを分析してレポートを生成する場合は、これらのデータソースからすべてのデータを抽出してデータウェアハウスにロードし、分析作業のために保存する必要があります。

ETLツールは、これらすべての異種データソースからデータを抽出し、データを変換して(計算の適用、フィールド、キーの結合、不正なデータフィールドの削除など)、データウェアハウスにロードします。 後で、さまざまなビジネスインテリジェンス(BI)ツールを使用して、このデータを使用して意味のあるレポート、ダッシュボード、視覚化を生成できます。

ETLとBIツールの違い

ETLツールを使用して、さまざまなデータソースからデータを抽出し、データを変換し、DWシステムにロードします。ただし、BIツールを使用して、エンドユーザー向けのインタラクティブでアドホックなレポート、上級管理職向けのダッシュボード、月次、四半期、および年次の取締役会のデータ視覚化を生成します。

最も一般的なETLツールには、SAP BOデータサービス(BODS)、Informatica – Power Center、Microsoft – SSIS、Oracle Data Integrator ODI、Talend Open Studio、Clover ETL Open sourceなどが含まれます。

人気のあるBIツールには、SAP Business Objects、SAP Lumira、IBM Cognos、JasperSoft、Microsoft BI Platform、Tableau、Oracle Business Intelligence Enterprise Editionなどがあります。

ETLプロセス

ここで、ETL手順に含まれる重要な手順についてもう少し詳しく説明します-

データの抽出

異なる異種データソースからデータを抽出する必要があります。 トランザクションシステムからのデータ抽出は、要件と使用中のETLツールによって異なります。 通常、夜間や週末にジョブを実行するなど、営業時間外にスケジュールされたジョブを実行することによって行われます。

データの抽出

データの変換

データをDWシステムに簡単にロードできる適切な形式に変換する必要があります。 データ変換には、計算、結合、およびデータの主キーと外部キーの定義が含まれます。 たとえば、データベースにない総収益の%が必要な場合、変換に%式を適用し、データをロードします。 同様に、ユーザーの姓と名が異なる列にある場合、データをロードする前に連結操作を適用できます。 一部のデータは変換を必要としません。このようなデータは、*直接移動*または*パススルーデータ*と呼ばれます。

データ変換には、データの修正とデータのクレンジング、不正なデータの削除、不完全なデータ形成、データエラーの修正も含まれます。 また、DWシステムにロードする前に、データの整合性と互換性のないデータをフォーマットします。

DWシステムへのデータのロード

分析レポートと情報のためにデータをDWシステムにロードする必要があります。 ターゲットシステムは、単純な区切りのあるフラットファイルまたはデータウェアハウスにすることができます。

ETLツール機能

典型的なETLツールベースのデータウェアハウスは、ステージング領域、データ統合、およびアクセスレイヤーを使用してその機能を実行します。 通常は3層のアーキテクチャです。

  • ステージング層-ステージング層またはステージングデータベースは、異なるソースデータシステムから抽出されたデータを格納するために使用されます。
  • データ統合層-統合層は、ステージング層からデータを変換し、データをデータベースに移動します。データベースでは、データは、*ディメンション*と呼ばれる階層グループ、および*ファクト*および*集計ファクト*に配置されます。 DWシステムでのファクトテーブルとディメンションテーブルの組み合わせは、*スキーマ*と呼ばれます。
  • アクセス層-アクセス層は、分析レポートおよび情報用のデータを取得するためにエンドユーザーによって使用されます。

次の図は、3つのレイヤーがどのように相互作用するかを示しています。

ETLツール関数