2023年5月10日
【Google Cloud】Dataplexのプロファイル機能を試してみた
-
- Category Google Cloud

今回は、Google Cloud(GCP)のDataplexについての記事です。
現在(本記事執筆時点)プレビューで公開されているプロファイル機能を使って、BigQueryテーブルの各列の統計情報(NULL値の割合や平均値など)を取得してみます!
プロファイル機能に興味のある方は是非ご覧ください!
事前設定
プロファイルを行うためには、Dataplexでレイク・ゾーン・アセットを作成する必要があります。
レイク・ゾーンは論理的なデータの集合です。データの種類や用途、アクセス制御などによるグループ分けに用います。
レイクの中にゾーンが含まれます。
アセットは、Cloud Storage または BigQueryのデータへのマッピングを定義します。
(用語 – 公式ドキュメント)
APIの有効化
レイクを作成するには、まず「Cloud Dataplex API」を有効にします。
レイクの作成
ConsoleのDataplex画面で、「レイクの管理」>「管理」を開き、「作成」ボタンで作成画面を開きます。
IDとリージョンを指定して、「作成」ボタンを押下します。
ゾーンの作成
上で作成したレイクの詳細画面を開き、「ゾーンを追加」を押下します。
ゾーンIDとタイプを指定し、ゾーンを作成します。
アセットの追加
上で作成したゾーンの詳細画面を開き、「アセットを追加」を押下します。
マッピングするデータの種類(BigQueryデータセット or Cloud Storageバケット)とデータ、及びアセットのIDを指定し、アセットを作成します。
(その他の項目はデフォルトのままにしました)
(作成完了)
プロファイルの作成
レイク・ゾーン・アセットの作成が完了したら、いよいよプロファイルを作成してみます。
「データプロファイルスキャンを作成する」を押下します。
IDとスキャンするテーブルを指定して、「作成」ボタンを押下します。
今回はその他の設定はデフォルトのままにしました。
(範囲は、データ全体 または インクリメンタル(タイムスタンプ列に基づく増分)のいずれかを選択できます)
※スキャンするテーブルは、先ほど作成したレイク・ゾーン・アセット(マッピングしているBigQueryデータセット)内のテーブルから選択できます。
プロファイルの確認
プロファイルの作成が完了したら、スキャンを実行して対象テーブルの情報を取得します。
作成したプロファイルの詳細画面を開き、「今すぐ実行」を押下します。
スキャンジョブが完了するとスキャン結果が表示されます。
数値データの列であれば、下の画像のように
・列名
・データ型
・NULL率
・ユニーク率
・平均、標準偏差、最大/最小、四分位数
・上位10個の値、及びそれらの割合と個数(個数は棒グラフにカーソルあてて表示)
を確認できました。
また、日付や文字型の列の場合は以下の情報が取得できました。
・列名
・データ型
・NULL率
・ユニーク率
・(文字列のみ)長さの最大/最小/平均
・上位10個の値、及びそれらの割合と個数(個数は棒グラフにカーソルあてて表示)
まとめ
今回は、Dataplexの新機能であるプロファイルを実際に使ってみました。
テーブルの各列に対して統計情報を取得できるのは、データの品質チェック(正しくデータが格納されているか、おかしなデータが紛れ込んでいないかなど)に役立ちそうですね。
皆さんも是非使ってみてください!
ご覧いただきありがとうございました。
当社、システムサポートは、Google Cloudの導入・移行・運営支援を行っています。
お問い合わせは以下よりお願いいたします。