2023年5月10日 【Google Cloud】Dataplexのプロファイル機能を試してみた Dataplex 検索する Popular tags 生成AI(Generative AI) Looker Studio BigQuery AlloyDB Google Workspace 事例紹介 Cloud SQL Category Google Cloud Author Y.Y SHARE 目次 事前設定 プロファイルの作成 プロファイルの確認 まとめ Content みなさま、こんにちは。Y.Yです。 今回は、Google Cloud(GCP)のDataplexについての記事です。 現在(本記事執筆時点)プレビューで公開されているプロファイル機能を使って、BigQueryテーブルの各列の統計情報(NULL値の割合や平均値など)を取得してみます! プロファイル機能に興味のある方は是非ご覧ください! 事前設定 プロファイルを行うためには、Dataplexでレイク・ゾーン・アセットを作成する必要があります。 レイク・ゾーンは論理的なデータの集合です。データの種類や用途、アクセス制御などによるグループ分けに用います。 レイクの中にゾーンが含まれます。 アセットは、Cloud Storage または BigQueryのデータへのマッピングを定義します。 (用語 – 公式ドキュメント) APIの有効化 レイクを作成するには、まず「Cloud Dataplex API」を有効にします。 レイクの作成 ConsoleのDataplex画面で、「レイクの管理」>「管理」を開き、「作成」ボタンで作成画面を開きます。 IDとリージョンを指定して、「作成」ボタンを押下します。 ゾーンの作成 上で作成したレイクの詳細画面を開き、「ゾーンを追加」を押下します。 ゾーンIDとタイプを指定し、ゾーンを作成します。 アセットの追加 上で作成したゾーンの詳細画面を開き、「アセットを追加」を押下します。 マッピングするデータの種類(BigQueryデータセット or Cloud Storageバケット)とデータ、及びアセットのIDを指定し、アセットを作成します。 (その他の項目はデフォルトのままにしました) (作成完了) プロファイルの作成 レイク・ゾーン・アセットの作成が完了したら、いよいよプロファイルを作成してみます。 「データプロファイルスキャンを作成する」を押下します。 IDとスキャンするテーブルを指定して、「作成」ボタンを押下します。 今回はその他の設定はデフォルトのままにしました。 (範囲は、データ全体 または インクリメンタル(タイムスタンプ列に基づく増分)のいずれかを選択できます) ※スキャンするテーブルは、先ほど作成したレイク・ゾーン・アセット(マッピングしているBigQueryデータセット)内のテーブルから選択できます。 プロファイルの確認 プロファイルの作成が完了したら、スキャンを実行して対象テーブルの情報を取得します。 作成したプロファイルの詳細画面を開き、「今すぐ実行」を押下します。 スキャンジョブが完了するとスキャン結果が表示されます。 数値データの列であれば、下の画像のように ・列名 ・データ型 ・NULL率 ・ユニーク率 ・平均、標準偏差、最大/最小、四分位数 ・上位10個の値、及びそれらの割合と個数(個数は棒グラフにカーソルあてて表示) を確認できました。 また、日付や文字型の列の場合は以下の情報が取得できました。 ・列名 ・データ型 ・NULL率 ・ユニーク率 ・(文字列のみ)長さの最大/最小/平均 ・上位10個の値、及びそれらの割合と個数(個数は棒グラフにカーソルあてて表示) まとめ 今回は、Dataplexの新機能であるプロファイルを実際に使ってみました。 テーブルの各列に対して統計情報を取得できるのは、データの品質チェック(正しくデータが格納されているか、おかしなデータが紛れ込んでいないかなど)に役立ちそうですね。 皆さんも是非使ってみてください! ご覧いただきありがとうございました。 当社、システムサポートは、Google Cloudの導入・移行・運営支援を行っています。 お問い合わせは以下よりお願いいたします。 Google Cloud導入についてのお問い合わせはこちら 関連コンテンツ 【Google Cloud】BigQueryのデータリネージ(Dataplex機能)を試してみた by Y.Yon 2023年4月20日 【Google Cloud】DataplexのAutoDQを使ってみた by Y.Yon 2023年5月15日 頂きましたご意見につきましては、今後のより良い商品開発・サービス改善に活かしていきたいと考えております。 よく分かった よく分からなかった もっと知りたい 使ってみたい 便利そう Author Y.Y 株式会社システムサポート名古屋支社BI事業部所属。 2020年新卒入社で、2021年の末頃からGoogle Cloudを使い始めました。趣味はジャグリング。 Dataplex 2023年5月10日 【Google Cloud】Dataplexのプロファイル機能を試してみた Category Google Cloud 前の記事を読む 【Google Cloud】Backup and DRでEC2のファイルシステムをバックアップしてみた 次の記事を読む 【Google Cloud】【最短10分】無料ではじめるGoogle Cloud入門 Recommendation オススメ記事 2023年9月5日 Google Cloud 【Google Cloud】Looker Studio × Looker Studio Pro × Looker を徹底比較!機能・選び方を解説 2023年8月24日 Google Cloud 【Google Cloud】Migrate for Anthos and GKEでVMを移行してみた(1:概要編) 2022年10月10日 Google Cloud 【Google Cloud】AlloyDB と Cloud SQL を徹底比較してみた!!(第1回:AlloyDB の概要、性能検証編) BigQuery ML ワークショップ開催のお知らせ 生成AI導入支援パッケージ Discovery AI導入支援パッケージ Google Cloud ホワイトペーパー 新着記事 2024年10月9日 イベント・セミナー 【参加無料】typeエンジニア転職フェア 出展のお知らせ(2024/10/12) 2024年10月4日 イベント・セミナー 【11/20開催】データ分析&活用ウェビナー(事例紹介付き) 2024年9月30日 Google Cloud 【Google Cloud】サーバレスでマネージドなサービス「Cloud Run」でアプリケーションを走らせよう! HOME Google Cloud 【Google Cloud】Dataplexのプロファイル機能を試してみた ご意見・ご相談・料金のお見積もりなど、お気軽にお問い合わせください。 お問い合わせはこちら HOME Categories お知らせ イベント・セミナー Google Cloud Google Workspace モバイル インフラ 技術開発 ブログ 4koma Tags 生成AI(Generative AI) Looker Studio BigQuery AlloyDB Google Workspace 事例紹介 Cloud SQL STSエンジニアリングマガジン 「サイタル」 当サイトではクッキー(Cookie)、Googleアナリティクスを利用します。 「同意する」をクリックいただくことで、サイト上での最高のエクスペリエンスをご提供いたします。 ※詳細は以下をご覧ください。 外部送信ポリシー プライバシーポリシー同意する同意しない