2024年5月31日 【Google Cloud】Dataplexデータ品質について検証してみた(2/2) Dataplex Google Cloud 検索する Popular tags 生成AI(Generative AI) Looker Studio BigQuery AlloyDB Google Workspace 事例紹介 Cloud SQL Category Google Cloud Author Google Cloud研究開発チーム SHARE 目次 「データプロファイリング」を使用したルール アラートの設定方法 Content こんにちは。Google Cloud研究開発チームです。 今回は、Google Cloud Dataplexの「データ品質」の以下機能のうち、「①自動データ品質」について深堀しようと思います。 ・データ品質管理 ├①自動データ品質 └②データ品質タスク ・データプロファイリング └③データプロファイリング 「自動データ品質」は、品質要件を定義し、その定義に基づいてデータを検証する機能です。 品質要件の定義には、以下を使用することができます。 組み込みのルール SQLを使用した独自のルール 「データプロファイリング」を使用したルール ※本記事 本記事では、このうち、『「データプロファイリング」を使用したルール』の流れと、データが品質要件に満たしていない場合のアラートの設定方法について確認していきます。 「データプロファイリング」を使用したルール 「データプロファイリング」を使用したルールを使用するためには、まず対象のテーブルで「データプロファイルスキャン」を実行し、統計情報を取得する必要があります。 「データプロファイリング」を使用したルールでは、この統計情報をもとに自動でルールが作成されます。 自動でルールを作成してくれるため、ルール作成時の考慮漏れを防ぎ、ひいてはデータ品質の低下を防ぐことにつながります。 今回は、以下のテーブルを対象に「データプロファイルスキャン」を実行し、その結果に基づいて自動でルールが作成される過程を確認していきます。 「データプロファイルスキャン」の実行までは以下でも記載しているため、それ以降の流れについて記載します。 【Google Cloud】Dataplexによるデータファブリックな環境検証(データ編成・検出・品質編) <対象テーブル> <「データプロファイルスキャン」の実行結果> <手順> ①Google Cloudコンソール上の「管理」>「データ品質」にて、「データ品質スキャンを作成」をクリック ②必要情報を入力し、「続行」をクリック 先ほど、対象テーブルにて「データプロファイルスキャン」を実行しているため、「プロファイルスキャンが見つかりました。次の画面でこれを使用すると、ルールの推奨事項を取得できます。」と出てきています。 ③「ルールを追加」をクリックし、「プロフィールに基づく推奨事項」をクリック ④「データプロファイルスキャン」の実行結果に基づいたルールが自動で作成されていることが確認できます。 必要と思われるルールをクリックし、「選択」をクリック。その後、「続行」をクリック 例) 「データプロファイルスキャン」の結果、 (1)カラム「id」の「一意の値の割合」が100%のため、「Uniqueness Check(一意性チェック)」が推奨ルールとして作成されています (2)カラム「name」の「統計情報」の最小/最大の長さから、「Row Condition Check(行の条件チェック)」として文字の長さが1~3であることが推奨ルールとして作成されています (今回の場合、データとしては名字が格納されているため、そのまま使用するのはイマイチとは思います) ⑤「作成」をクリック アラートの設定方法 「データ品質スキャン」の実行結果が「合格」ではなかった場合、アラートを設定し、データ品質の低下を検知する方法について説明します。 アラートを設定する方法は複数ありますが、ここでは、Cloud Loggingのログを使用し、アラートを設定する方法について説明します。 Cloud Loggingは、Google Cloudリソースから自動的にログを収集するため、「データ品質スキャン」が実行されると、ログが残ります。このログを使用します。 <手順> ①Google Cloudコンソール上の「ロギング」>「探索」>「ログ エクスプローラ」にて、以下クエリを実行する クエリ) resource.type=”dataplex.googleapis.com/DataScan” AND labels.”dataplex.googleapis.com/data_scan_state”=”SUCCEEDED” AND resource.labels.resource_container=”projects/0000000000000″ — ご自身の内容に変更ください AND resource.labels.datascan_id=”test-score2″ — ご自身の内容に変更ください AND NOT jsonPayload.dataQuality.passed=true ②「アラートを作成」をクリック ③「Alert Policy Name(アラートポリシー名)」を入力し、「次へ」をクリック ④先ほど実行したクエリが表示されていることを確認し、「次へ」をクリック ⑤「通知の間隔」と「インシデントの自動クローズ期間」を選択し、「次へ」をクリック ⑥アラートを通知する媒体を設定し、「Save」をクリック 実際に「データ品質スキャン」に引っかかる内容にテーブルを変更し、「データ品質スキャン」を実行してみました。 今回はアラートを通知する媒体をメールアドレスにしたため、メールにて問題なくアラートを受信することができました。 以上が『「データプロファイリング」を使用したルール』の流れと、データが品質要件に満たしていない場合のアラートの設定方法になります。 簡単にデータ品質の確認ができました。 関連コンテンツ 【Google Cloud】Dataplexデータ品質について検証してみた(1/2) by Google Cloud研究開発チームon 2024年5月31日 頂きましたご意見につきましては、今後のより良い商品開発・サービス改善に活かしていきたいと考えております。 Author Google Cloud研究開発チーム 株式会社システムサポート(STS)のGoogle Cloud研究開発チームです。 実際に技術検証した事例を中心に記事発信していきます。 Dataplex Google Cloud 2024年5月31日 【Google Cloud】Dataplexデータ品質について検証してみた(2/2) Category Google Cloud 前の記事を読む 【Google Cloud】Dataplexデータ品質について検証してみた(1/2) 次の記事を読む 【Google Cloud】IPS で不正アクセスを防御してみた Recommendation オススメ記事 2023年9月5日 Google Cloud 【Google Cloud】Looker Studio × Looker Studio Pro × Looker を徹底比較!機能・選び方を解説 2023年8月24日 Google Cloud 【Google Cloud】Migrate for Anthos and GKEでVMを移行してみた(1:概要編) 2022年10月10日 Google Cloud 【Google Cloud】AlloyDB と Cloud SQL を徹底比較してみた!!(第1回:AlloyDB の概要、性能検証編) BigQuery ML ワークショップ開催のお知らせ 生成AI導入支援パッケージ Discovery AI導入支援パッケージ Google Cloud ホワイトペーパー 新着記事 2025年1月15日 Google Cloud 【Google Cloud】M2VMでHyper-V、KVMもお引越し 2025年1月8日 イベント・セミナー 【参加無料】typeエンジニア転職フェア 出展のお知らせ(2025/1/11) 2025年1月7日 Google Cloud 【Google Cloud】第2回:Oracle Database@Google Cloudを利用してみよう~実践編~ HOME Google Cloud 【Google Cloud】Dataplexデータ品質について検証してみた(2/2) ご意見・ご相談・料金のお見積もりなど、お気軽にお問い合わせください。 お問い合わせはこちら HOME Categories お知らせ イベント・セミナー Google Cloud Google Workspace モバイル インフラ 技術開発 ブログ 4koma Tags 生成AI(Generative AI) Looker Studio BigQuery AlloyDB Google Workspace 事例紹介 Cloud SQL STSエンジニアリングマガジン 「サイタル」 当サイトではクッキー(Cookie)、Googleアナリティクスを利用します。 「同意する」をクリックいただくことで、サイト上での最高のエクスペリエンスをご提供いたします。 ※詳細は以下をご覧ください。 外部送信ポリシー プライバシーポリシー同意する同意しない