2023年4月20日 【Google Cloud】BigQueryのデータリネージ(Dataplex機能)を試してみた BigQuery Dataplex 検索する Popular tags 生成AI(Generative AI) Looker Studio BigQuery AlloyDB Google Workspace 事例紹介 Cloud SQL Category Google Cloud Author Y.Y SHARE Content みなさん、こんにちは。Y.Yです。 2022年12月22日に、BigQueryのテーブルプロパティページに「リネージ」タブが追加されました。 (本記事執筆時点ではプレビュー段階の機能です。) 「リネージ(Lineage)」は日本語に訳すと「系統」で、この「リネージ」タブでは Dataplex の機能でデータの系統(データの取得元や送信先など)を把握することができます。 今回はこの機能を実際に試してみて、どのように表示されるのかを確認してみます。 「どんな機能なんだろう?」と気になっていた方は是非ご覧ください! ・事前設定 ・リネージ機能の検証 ・まとめ 事前設定 リネージ機能を使うためには、「Data Lineage API」と「Data Catalog API」を有効にする必要があります。 まだ有効にしていない場合は「リネージ」タブを開くと以下のメッセージが表示されますので、「必要なAPIの有効化」を押下します。 有効になると、リネージが表示できるようになります。 それでは、実際にデータの流れを作ってリネージを確認してみます! リネージ機能の検証 【1】ロード処理 / ユニオン処理 まず、以下の処理を実施してみました。 サンプルテーブルを2つ作成(order_shopA, order_shopB) Cloud Storageに格納したファイルからテーブルにデータをロードする 2つのテーブルをユニオンして新しいテーブル(orders)を作る リネージを確認すると以下のように表示されます。 データの取得元となったテーブルと、さらにそれらのテーブルのソースとなったファイルの情報を確認できます。 また、各要素をクリックすると詳細情報が表示されます。 (データであれば格納先の情報、処理であればジョブIDや実行されたクエリなど) 図の①の部分をクリックします。 次に、図の②の部分をクリックします。 ここで、ユニオンに使ったテーブルのリネージも見てみます。 取得元の情報だけでなく、送信先(テーブルのデータがどこに送られたのか)の情報も表示されることがわかりますね。 【2】ビューの作成 次に、複数のテーブルを組み合わせてビューを作ってみました。 リネージは以下のように表示されます。 ビューでも同様に、どのテーブルからデータを取得するのかが一目でわかりますね。 また、取得元テーブルの「+」を押下すると、取得元テーブルのデータがどこから来たのかを確認することもできます。 【3】Insert処理 / Merge処理 最後に、上で作ったビューから新規テーブルにInsert文とMerge文を実行してみました。 リネージは以下のように表示されます。 複数の処理を行うと、間の矢印もその分増えました。 オレンジのマークをクリックすると、実行SQLを確認できます。 まとめ 今回は、BigQueryのデータリネージを確認してみました。 この機能で、 ・どこから来たデータなのか ・どこにデータが流れていったのか ・どんな処理でデータが流れたのか を確認することができました。 ETL処理で不正データが紛れ込んでエラーになったときなどに、「どこからどのように来たデータなの?」を視覚的に追えるのは便利そうですね。 多数のデータが絡み合うようなシステムでは、効果をより発揮しそうです。 皆さんも是非リネージ機能を試してみてくださいね! ご覧いただきありがとうございました。 【参考】※Google Cloud公式ドキュメント ・BigQuery テーブルコピー ジョブのデータリネージを追跡する ・データリネージについて ・Data Catalog を操作する 当社、システムサポートは、Google Cloudの導入・移行・運営支援を行っています。 お問い合わせは以下よりお願いいたします。 Google Cloud導入についてのお問い合わせはこちら 頂きましたご意見につきましては、今後のより良い商品開発・サービス改善に活かしていきたいと考えております。 よく分かった 使ってみたい! 使ってる! もっと知りたい 分からなかった Author Y.Y 株式会社システムサポート名古屋支社BI事業部所属。 2020年新卒入社で、2021年の末頃からGoogle Cloudを使い始めました。趣味はジャグリング。 BigQuery Dataplex 2023年4月20日 【Google Cloud】BigQueryのデータリネージ(Dataplex機能)を試してみた Category Google Cloud 前の記事を読む 【告知】typeエンジニア転職フェア 出展のお知らせ(2023/4/15) 次の記事を読む 【動画解説】基本情報 科目B試験 サンプル問題解説 第2弾 Recommendation オススメ記事 2023年9月5日 Google Cloud 【Google Cloud】Looker Studio × Looker Studio Pro × Looker を徹底比較!機能・選び方を解説 2023年8月24日 Google Cloud 【Google Cloud】Migrate for Anthos and GKEでVMを移行してみた(1:概要編) 2022年10月10日 Google Cloud 【Google Cloud】AlloyDB と Cloud SQL を徹底比較してみた!!(第1回:AlloyDB の概要、性能検証編) BigQuery ML ワークショップ開催のお知らせ 生成AI導入支援パッケージ Discovery AI導入支援パッケージ Google Cloud ホワイトペーパー 新着記事 2024年9月30日 Google Cloud 【Google Cloud】サーバレスでマネージドなサービス「Cloud Run」でアプリケーションを走らせよう! 2024年9月27日 技術開発 モブレビューを導入して分かったメリットとデメリットについて 2024年9月26日 Google Cloud 自然言語でデータを可視化できるLookerのExplore Assistantを試してみた HOME Google Cloud 【Google Cloud】BigQueryのデータリネージ(Dataplex機能)を試してみた ご意見・ご相談・料金のお見積もりなど、お気軽にお問い合わせください。 お問い合わせはこちら HOME Categories お知らせ イベント・セミナー Google Cloud Google Workspace モバイル インフラ 技術開発 ブログ 4koma Tags 生成AI(Generative AI) Looker Studio BigQuery AlloyDB Google Workspace 事例紹介 Cloud SQL STSエンジニアリングマガジン 「サイタル」