2023年5月10日

【Google Cloud】Dataplexのプロファイル機能を試してみた

Dataplex

Popular tags

Content

みなさま、こんにちは。Y.Yです。

今回は、Google Cloud（GCP）のDataplexについての記事です。
現在（本記事執筆時点）プレビューで公開されているプロファイル機能を使って、BigQueryテーブルの各列の統計情報（NULL値の割合や平均値など）を取得してみます！

プロファイル機能に興味のある方は是非ご覧ください！

事前設定

プロファイルを行うためには、Dataplexでレイク・ゾーン・アセットを作成する必要があります。
レイク・ゾーンは論理的なデータの集合です。データの種類や用途、アクセス制御などによるグループ分けに用います。
レイクの中にゾーンが含まれます。
アセットは、Cloud Storage または BigQueryのデータへのマッピングを定義します。
（用語 – 公式ドキュメント）

APIの有効化

レイクを作成するには、まず「Cloud Dataplex API」を有効にします。

レイクの作成

ConsoleのDataplex画面で、「レイクの管理」＞「管理」を開き、「作成」ボタンで作成画面を開きます。
IDとリージョンを指定して、「作成」ボタンを押下します。

ゾーンの作成

上で作成したレイクの詳細画面を開き、「ゾーンを追加」を押下します。

ゾーンIDとタイプを指定し、ゾーンを作成します。

アセットの追加

上で作成したゾーンの詳細画面を開き、「アセットを追加」を押下します。

マッピングするデータの種類（BigQueryデータセット or Cloud Storageバケット）とデータ、及びアセットのIDを指定し、アセットを作成します。
（その他の項目はデフォルトのままにしました）

（作成完了）

プロファイルの作成

レイク・ゾーン・アセットの作成が完了したら、いよいよプロファイルを作成してみます。
「データプロファイルスキャンを作成する」を押下します。

IDとスキャンするテーブルを指定して、「作成」ボタンを押下します。
今回はその他の設定はデフォルトのままにしました。
（範囲は、データ全体またはインクリメンタル（タイムスタンプ列に基づく増分）のいずれかを選択できます）

※スキャンするテーブルは、先ほど作成したレイク・ゾーン・アセット（マッピングしているBigQueryデータセット）内のテーブルから選択できます。

プロファイルの確認

プロファイルの作成が完了したら、スキャンを実行して対象テーブルの情報を取得します。
作成したプロファイルの詳細画面を開き、「今すぐ実行」を押下します。

スキャンジョブが完了するとスキャン結果が表示されます。

数値データの列であれば、下の画像のように
・列名
・データ型
・NULL率
・ユニーク率
・平均、標準偏差、最大/最小、四分位数
・上位10個の値、及びそれらの割合と個数（個数は棒グラフにカーソルあてて表示）
を確認できました。

また、日付や文字型の列の場合は以下の情報が取得できました。
・列名
・データ型
・NULL率
・ユニーク率
・（文字列のみ）長さの最大/最小/平均
・上位10個の値、及びそれらの割合と個数（個数は棒グラフにカーソルあてて表示）

まとめ

今回は、Dataplexの新機能であるプロファイルを実際に使ってみました。
テーブルの各列に対して統計情報を取得できるのは、データの品質チェック（正しくデータが格納されているか、おかしなデータが紛れ込んでいないかなど）に役立ちそうですね。

皆さんも是非使ってみてください！

ご覧いただきありがとうございました。

当社、システムサポートは、Google Cloudの導入・移行・運営支援を行っています。
お問い合わせは以下よりお願いいたします。

Google Cloud導入についてのお問い合わせはこちら

関連コンテンツ

【Google Cloud】BigQueryのデータリネージ（Dataplex機能）を試してみた

by Y.Y
on 2023年4月20日

【Google Cloud】DataplexのAutoDQを使ってみた

by Y.Y
on 2023年5月15日

頂きましたご意見につきましては、
今後のより良い商品開発・サービス改善に活かしていきたいと考えております。

: Author Y.Y
株式会社システムサポート名古屋支社BI事業部所属。 2020年新卒入社で、2021年の末頃からGoogle Cloudを使い始めました。趣味はジャグリング。

Dataplex

2023年5月10日【Google Cloud】Dataplexのプロファイル機能を試してみた

: Category Google Cloud

Recommendation オススメ記事

: 2023年9月5日 Google Cloud 【Google Cloud】Looker Studio × Looker Studio Pro × Looker を徹底比較！機能・選び方を解説

: 2023年8月24日 Google Cloud 【Google Cloud】Migrate for Anthos and GKEでVMを移行してみた（1：概要編）

: 2022年10月10日 Google Cloud 【Google Cloud】AlloyDB と Cloud SQL を徹底比較してみた！！(第1回：AlloyDB の概要、性能検証編)

新着記事

: 2025年8月8日 Google Cloud Google Cloud Next Tokyo 25 参加レポート【全体ダイジェスト編】

: 2025年8月8日 Google Cloud Google Cloud Next Tokyo ’25 参加レポートDAY2

: 2025年8月8日 Google Cloud Google Cloud Next Tokyo ’25 参加レポートDAY1

ご意見･ご相談･料金のお見積もりなど、
お気軽にお問い合わせください。

お問い合わせはこちら

Categories

Tags

STSエンジニアリングマガジン「サイタル」