Etl-testing-data-completeness
提供:Dev Guides
ETLテスト-データの完全性
データの完全性のチェックは、ターゲットシステムのデータがロード後の予想どおりであることを確認するために行われます。
このために実行できる一般的なテストは次のとおりです-
- 集計関数(合計、最大、最小、カウント)の確認、
- 変換なしまたは単純な変換を使用した列のソースとターゲット間のカウントと実際のデータの確認と検証。
カウント検証
ソーステーブルとターゲットテーブルのレコード数のカウントを比較します。 それは次のクエリを書くことで行うことができます-
SELECT count (1) FROM employee;
SELECT count (1) FROM emp_dim;
データプロファイルの検証
ソーステーブルとターゲットテーブル(ファクトまたはディメンション)のカウント、合計、最大値などの集計関数をチェックする必要があります。
列データプロファイルの検証
これには、個別の値と、個別の値ごとの行数の比較が含まれます。
SELECT city, count(*) FROM employee GROUP BY city;
SELECT city_id, count(*) FROM emp_dim GROUP BY city_id;
重複データ検証
これには、ビジネス要件に従って一意である必要がある列または列の組み合わせで、主キーと一意キーを検証することが含まれます。 次のクエリを使用して、重複データの検証を実行できます-
SELECT first_name, last_name, date_of_joining, count (1) FROM employee
GROUP BY first_name, last_name HAVING count(1)>1;