2024年5月9日 【Google Cloud】Dataplexによるデータファブリックな環境検証(データリネージ・セキュリティ編) Dataplex Google Cloud 検索する Popular tags 生成AI(Generative AI) Looker Studio BigQuery AlloyDB Google Workspace 事例紹介 Cloud SQL Category Google Cloud Author Google Cloud研究開発チーム SHARE 目次 データリネージについて セキュリティについて ユースケース Content こんにちは。Google Cloud研究開発チームです。 今回は、Google Cloud Dataplex でどんなことができるのか調査しました。 このデータリネージ・セキュリティ編では、Dataplex機能のデータリネージ、セキュリティについて説明します。 【Google Cloud】Dataplexによるデータファブリックな環境検証(データ編成・検出・品質編) 【Google Cloud】Dataplexによるデータファブリックな環境検証(データリネージ・セキュリティ編)※本記事 データリネージについて データリネージとは、システム内でのデータの移動を追跡できる機能です。 データリネージを使用することでデータがシステム内のどこから来たデータなのか、どこに渡されたのか、 どのような変換が適用されたのか確認することができます。 リネージグラフでリネージを可視化できます。 グラフはデータ取得元やデータ送信先を表すエンティティ(小さな長方形ボタン)と、取得元から送信先に変換した ジョブを示すプロセスボタン(Data Lineage API に報告されたソースシステムに固有のアイコン)で表示されます。 データがどのように収集され、データにどのような処理が行われたか、そしてその処理がいつ行われたか、 リネージの関係を視覚的に確認できます。 複数のデータが絡みあうシステムではETL処理でエラーになったときの原因や影響範囲の把握が容易に可能です。 2つのテーブルから新しいテーブルに統合した場合、リネージグラフは以下のように表示されます。 各アイコンをクリックすると詳細が表示されます。 青枠で囲ったアイコンをクリックした場合は以下が表示されます。 赤枠で囲ったアイコンをクリックした場合は以下が表示されます。 データリネージを利用するには「Data Lineage API」と「Data Catalog API 」の両方を有効にする必要があります。 有効にしていない場合、「必要なAPIの有効化」を押下します。 データリネージはプロジェクトごとに有効になります。 有効にするとデータリネージをサポートするプロダクトのリネージ情報が自動的に記録されます。 サポートされているプロダクトは、BigQuery、Cloud Composer、Cloud Data Fusion です。 セキュリティについて Google Cloud Dataplexで実現する、バラバラだったデータの一元管理と権限分散 従来のデータ管理の課題 従来のデータ管理は、まるで書類を部屋ごとにバラバラに保管しているような状態でした。必要な書類を探すのは大変だし、誤って破棄してしまうリスクも高くなります。 Google Cloud Dataplexで実現できること Dataplexは、Google Cloudが提供するデータファブリックサービスです。Dataplexを使うと、分散されたデータを一元管理し、組織全体で安全かつ効率的にデータを活用することができます。 Dataplexによる一元管理のメリット 探し物がすぐに見つかる データをまとめて管理することで、必要な情報にすぐにアクセスできます。 組織内の別プロジェクトのデータも管理できます。 データの安全性を高める データの管理を一元化することで、不正アクセスや漏洩を防ぎやすくなります。 組織全体のデータに対して同じ管理方法が行えます。 ルールを守りやすくする データの管理を一元化することで、会社全体のデータ管理ルールを統一しやすくなります。 既存のプロジェクト単位の管理と同じ体系で会社全体のデータ管理が行えます。 データ分析をもっと簡単に データがまとまっているので、様々な分析を簡単に実行できます。 データが集約されているため、どのデータへもアクセス可能です。 ビジネスドメインに基づいたデータのオーナー権限の分散 Dataplexは、データの所有権限を、ビジネスドメインに基づいて分散させることができます。これは、各部門が自分のデータを管理し、責任を持つことができるようにするためです。 Dataplexによる権限分散のメリット 部門のデータ管理の自主性を向上 各部門は、自分のデータの管理方法を自由に決定できます。 データの責任の所在を明確化 データの管理責任は、データの所有者に明確に割り当てられます。 データガバナンスの強化 組織全体のデータガバナンスを、より効果的に実施することができます。 Dataplexで実現する、データの統合と権限分散 Dataplexは、バラバラだったデータを一元管理し、組織全体で安全かつ効率的にデータを活用するための最適なソリューションです。 実装例 以下の構成の処理の場合 【レイク】 【ゾーン】 【アセット】 権限はレイク>ゾーン>アセットの順に継承可能な他、BigQueryとCloudStorageを同じ画面で管理可能です。 (ただし、IAM権限で付与されたものも引き継がれます。必要に応じてIAM権限で付与されたものを削除する等の制御を行ってください。) 【レイク】 【ゾーン】 【アセット】 ユースケース 今回の調査で上げられるDataplexのユースケースは以下3点です。 データメッシュを利用したデータの一元管理、監視 組織内でどこにデータがあり、誰が持っているか分からないデータのサイロ化を解決し、データを一元管理できます。 データカタログを用いたデータの民主化 どんなデータがあるのか分からないデータのブラックボックス化を解決し、データの有効活用の場を提供します。 データの信頼性・品質の向上と分析時間の短縮 障害の原因となっているデータをより早く発見でき、品質向上や工数削減に役立ちます。 関連コンテンツ 【Google Cloud】Dataplexによるデータファブリックな環境検証(データ編成・検出・品質編) by Google Cloud研究開発チームon 2024年5月9日 頂きましたご意見につきましては、今後のより良い商品開発・サービス改善に活かしていきたいと考えております。 Author Google Cloud研究開発チーム 株式会社システムサポート(STS)のGoogle Cloud研究開発チームです。 実際に技術検証した事例を中心に記事発信していきます。 Dataplex Google Cloud 2024年5月9日 【Google Cloud】Dataplexによるデータファブリックな環境検証(データリネージ・セキュリティ編) Category Google Cloud 前の記事を読む 【参加無料】typeエンジニア転職フェア 出展のお知らせ(2024/4/13) 次の記事を読む 【Google Cloud】Dataplexによるデータファブリックな環境検証(データ編成・検出・品質編) Recommendation オススメ記事 2023年9月5日 Google Cloud 【Google Cloud】Looker Studio × Looker Studio Pro × Looker を徹底比較!機能・選び方を解説 2023年8月24日 Google Cloud 【Google Cloud】Migrate for Anthos and GKEでVMを移行してみた(1:概要編) 2022年10月10日 Google Cloud 【Google Cloud】AlloyDB と Cloud SQL を徹底比較してみた!!(第1回:AlloyDB の概要、性能検証編) BigQuery ML ワークショップ開催のお知らせ 生成AI導入支援パッケージ Discovery AI導入支援パッケージ Google Cloud ホワイトペーパー 新着記事 2024年9月2日 4koma 【4コマ漫画】SEひつじは定時退社の夢を見る ~ダウングレード~ 2024年8月29日 Google Cloud 【Google Cloud】Cloud NGFW Standard を試してみた 2024年8月29日 Google Cloud 【Google Cloud】Cloud Storage FUSE Read Cache を試してみた HOME Google Cloud 【Google Cloud】Dataplexによるデータファブリックな環境検証(データリネージ・セキュリティ編) ご意見・ご相談・料金のお見積もりなど、お気軽にお問い合わせください。 お問い合わせはこちら HOME Categories お知らせ イベント・セミナー Google Cloud Google Workspace モバイル インフラ 技術開発 ブログ 4koma Tags 生成AI(Generative AI) Looker Studio BigQuery AlloyDB Google Workspace 事例紹介 Cloud SQL STSエンジニアリングマガジン 「サイタル」