2024年5月31日 【Google Cloud】Dataplexデータ品質について検証してみた(2/2) Dataplex Google Cloud 検索する Popular tags 事例紹介 GEN-STEP 生成AI(Generative AI) Vertex AI Search Looker Studio BigQuery AlloyDB Google Workspace Cloud SQL Category Google Cloud Author Google Cloud研究開発チーム SHARE 目次 「データプロファイリング」を使用したルール アラートの設定方法 Content こんにちは。Google Cloud研究開発チームです。 今回は、Google Cloud Dataplexの「データ品質」の以下機能のうち、「①自動データ品質」について深堀しようと思います。 ・データ品質管理 ├①自動データ品質 └②データ品質タスク ・データプロファイリング └③データプロファイリング 「自動データ品質」は、品質要件を定義し、その定義に基づいてデータを検証する機能です。 品質要件の定義には、以下を使用することができます。 組み込みのルール SQLを使用した独自のルール 「データプロファイリング」を使用したルール ※本記事 本記事では、このうち、『「データプロファイリング」を使用したルール』の流れと、データが品質要件に満たしていない場合のアラートの設定方法について確認していきます。 「データプロファイリング」を使用したルール 「データプロファイリング」を使用したルールを使用するためには、まず対象のテーブルで「データプロファイルスキャン」を実行し、統計情報を取得する必要があります。 「データプロファイリング」を使用したルールでは、この統計情報をもとに自動でルールが作成されます。 自動でルールを作成してくれるため、ルール作成時の考慮漏れを防ぎ、ひいてはデータ品質の低下を防ぐことにつながります。 今回は、以下のテーブルを対象に「データプロファイルスキャン」を実行し、その結果に基づいて自動でルールが作成される過程を確認していきます。 「データプロファイルスキャン」の実行までは以下でも記載しているため、それ以降の流れについて記載します。 【Google Cloud】Dataplexによるデータファブリックな環境検証(データ編成・検出・品質編) <対象テーブル> <「データプロファイルスキャン」の実行結果> <手順> ①Google Cloudコンソール上の「管理」>「データ品質」にて、「データ品質スキャンを作成」をクリック ②必要情報を入力し、「続行」をクリック 先ほど、対象テーブルにて「データプロファイルスキャン」を実行しているため、「プロファイルスキャンが見つかりました。次の画面でこれを使用すると、ルールの推奨事項を取得できます。」と出てきています。 ③「ルールを追加」をクリックし、「プロフィールに基づく推奨事項」をクリック ④「データプロファイルスキャン」の実行結果に基づいたルールが自動で作成されていることが確認できます。 必要と思われるルールをクリックし、「選択」をクリック。その後、「続行」をクリック 例) 「データプロファイルスキャン」の結果、 (1)カラム「id」の「一意の値の割合」が100%のため、「Uniqueness Check(一意性チェック)」が推奨ルールとして作成されています (2)カラム「name」の「統計情報」の最小/最大の長さから、「Row Condition Check(行の条件チェック)」として文字の長さが1~3であることが推奨ルールとして作成されています (今回の場合、データとしては名字が格納されているため、そのまま使用するのはイマイチとは思います) ⑤「作成」をクリック アラートの設定方法 「データ品質スキャン」の実行結果が「合格」ではなかった場合、アラートを設定し、データ品質の低下を検知する方法について説明します。 アラートを設定する方法は複数ありますが、ここでは、Cloud Loggingのログを使用し、アラートを設定する方法について説明します。 Cloud Loggingは、Google Cloudリソースから自動的にログを収集するため、「データ品質スキャン」が実行されると、ログが残ります。このログを使用します。 <手順> ①Google Cloudコンソール上の「ロギング」>「探索」>「ログ エクスプローラ」にて、以下クエリを実行する クエリ) resource.type=”dataplex.googleapis.com/DataScan” AND labels.”dataplex.googleapis.com/data_scan_state”=”SUCCEEDED” AND resource.labels.resource_container=”projects/0000000000000″ — ご自身の内容に変更ください AND resource.labels.datascan_id=”test-score2″ — ご自身の内容に変更ください AND NOT jsonPayload.dataQuality.passed=true ②「アラートを作成」をクリック ③「Alert Policy Name(アラートポリシー名)」を入力し、「次へ」をクリック ④先ほど実行したクエリが表示されていることを確認し、「次へ」をクリック ⑤「通知の間隔」と「インシデントの自動クローズ期間」を選択し、「次へ」をクリック ⑥アラートを通知する媒体を設定し、「Save」をクリック 実際に「データ品質スキャン」に引っかかる内容にテーブルを変更し、「データ品質スキャン」を実行してみました。 今回はアラートを通知する媒体をメールアドレスにしたため、メールにて問題なくアラートを受信することができました。 以上が『「データプロファイリング」を使用したルール』の流れと、データが品質要件に満たしていない場合のアラートの設定方法になります。 簡単にデータ品質の確認ができました。 関連コンテンツ 【Google Cloud】Dataplexデータ品質について検証してみた(1/2) by Google Cloud研究開発チームon 2024年5月31日 頂きましたご意見につきましては、今後のより良い商品開発・サービス改善に活かしていきたいと考えております。 Author Google Cloud研究開発チーム 株式会社システムサポート(STS)のGoogle Cloud研究開発チームです。 実際に技術検証した事例を中心に記事発信していきます。 Dataplex Google Cloud 2024年5月31日 【Google Cloud】Dataplexデータ品質について検証してみた(2/2) Category Google Cloud 前の記事を読む 【Google Cloud】Dataplexデータ品質について検証してみた(1/2) 次の記事を読む 【Google Cloud】IPS で不正アクセスを防御してみた Recommendation オススメ記事 2023年9月5日 Google Cloud 【Google Cloud】Looker Studio × Looker Studio Pro × Looker を徹底比較!機能・選び方を解説 2023年8月24日 Google Cloud 【Google Cloud】Migrate for Anthos and GKEでVMを移行してみた(1:概要編) 2022年10月10日 Google Cloud 【Google Cloud】AlloyDB と Cloud SQL を徹底比較してみた!!(第1回:AlloyDB の概要、性能検証編) BigQuery ML ワークショップ開催のお知らせ 生成AI導入支援パッケージ Discovery AI導入支援パッケージ Google Cloud ホワイトペーパー 新着記事 2026年6月3日 Google Cloud BigQueryの新AI関数 AI.PARSE_DOCUMENT でPDF請求書を構造化データに変換してみた! 2026年6月2日 イベント・セミナー 【2026/6/26開催】NotebookLM・Gemini・Google スライドで変わる仕事術 〜「30分で提案資料作って」への最適解!Next ’26最新アップデートも解説 〜 2026年5月28日 Google Cloud Gemini Embedding 2 でマルチモーダル検索を試す HOME Google Cloud 【Google Cloud】Dataplexデータ品質について検証してみた(2/2)