2024年5月31日

【Google Cloud】Dataplexデータ品質について検証してみた(2/2)


Content
こんにちは。Google Cloud研究開発チームです。
今回は、Google Cloud Dataplexの「データ品質」の以下機能のうち、「①自動データ品質」について深堀しようと思います。
・データ品質管理
├①自動データ品質
└②データ品質タスク
・データプロファイリング
└③データプロファイリング

「自動データ品質」は、品質要件を定義し、その定義に基づいてデータを検証する機能です。
品質要件の定義には、以下を使用することができます。
 

本記事では、このうち、『「データプロファイリング」を使用したルール』の流れと、データが品質要件に満たしていない場合のアラートの設定方法について確認していきます。

「データプロファイリング」を使用したルール

「データプロファイリング」を使用したルールを使用するためには、まず対象のテーブルで「データプロファイルスキャン」を実行し、統計情報を取得する必要があります。
「データプロファイリング」を使用したルールでは、この統計情報をもとに自動でルールが作成されます。
自動でルールを作成してくれるため、ルール作成時の考慮漏れを防ぎ、ひいてはデータ品質の低下を防ぐことにつながります。

 

今回は、以下のテーブルを対象に「データプロファイルスキャン」を実行し、その結果に基づいて自動でルールが作成される過程を確認していきます。
「データプロファイルスキャン」の実行までは以下でも記載しているため、それ以降の流れについて記載します。
【Google Cloud】Dataplexによるデータファブリックな環境検証(データ編成・検出・品質編)

<対象テーブル>

<「データプロファイルスキャン」の実行結果>

<手順>

①Google Cloudコンソール上の「管理」>「データ品質」にて、「データ品質スキャンを作成」をクリック

②必要情報を入力し、「続行」をクリック
先ほど、対象テーブルにて「データプロファイルスキャン」を実行しているため、「プロファイルスキャンが見つかりました。次の画面でこれを使用すると、ルールの推奨事項を取得できます。」と出てきています。

③「ルールを追加」をクリックし、「プロフィールに基づく推奨事項」をクリック

④「データプロファイルスキャン」の実行結果に基づいたルールが自動で作成されていることが確認できます。
必要と思われるルールをクリックし、「選択」をクリック。その後、「続行」をクリック
例)
「データプロファイルスキャン」の結果、
(1)カラム「id」の「一意の値の割合」が100%のため、「Uniqueness Check(一意性チェック)」が推奨ルールとして作成されています
(2)カラム「name」の「統計情報」の最小/最大の長さから、「Row Condition Check(行の条件チェック)」として文字の長さが1~3であることが推奨ルールとして作成されています
(今回の場合、データとしては名字が格納されているため、そのまま使用するのはイマイチとは思います)

⑤「作成」をクリック

アラートの設定方法

「データ品質スキャン」の実行結果が「合格」ではなかった場合、アラートを設定し、データ品質の低下を検知する方法について説明します。
アラートを設定する方法は複数ありますが、ここでは、Cloud Loggingのログを使用し、アラートを設定する方法について説明します。
Cloud Loggingは、Google Cloudリソースから自動的にログを収集するため、「データ品質スキャン」が実行されると、ログが残ります。このログを使用します。

<手順>

①Google Cloudコンソール上の「ロギング」>「探索」>「ログ エクスプローラ」にて、以下クエリを実行する
クエリ)
resource.type=”dataplex.googleapis.com/DataScan”
AND labels.”dataplex.googleapis.com/data_scan_state”=”SUCCEEDED”
AND resource.labels.resource_container=”projects/0000000000000″ — ご自身の内容に変更ください
AND resource.labels.datascan_id=”test-score2″ — ご自身の内容に変更ください
AND NOT jsonPayload.dataQuality.passed=true

②「アラートを作成」をクリック

③「Alert Policy Name(アラートポリシー名)」を入力し、「次へ」をクリック

④先ほど実行したクエリが表示されていることを確認し、「次へ」をクリック

⑤「通知の間隔」と「インシデントの自動クローズ期間」を選択し、「次へ」をクリック

⑥アラートを通知する媒体を設定し、「Save」をクリック

 

実際に「データ品質スキャン」に引っかかる内容にテーブルを変更し、「データ品質スキャン」を実行してみました。
今回はアラートを通知する媒体をメールアドレスにしたため、メールにて問題なくアラートを受信することができました。

 

以上が『「データプロファイリング」を使用したルール』の流れと、データが品質要件に満たしていない場合のアラートの設定方法になります。
簡単にデータ品質の確認ができました。

2024年5月31日 【Google Cloud】Dataplexデータ品質について検証してみた(2/2)

Category Google Cloud

ご意見・ご相談・料金のお見積もりなど、
お気軽にお問い合わせください。

お問い合わせはこちら