2024年5月9日

【Google Cloud】Dataplexによるデータファブリックな環境検証(データリネージ・セキュリティ編)


Content
こんにちは。Google Cloud研究開発チームです。

今回は、Google Cloud Dataplex でどんなことができるのか調査しました。
このデータリネージ・セキュリティ編では、Dataplex機能のデータリネージ、セキュリティについて説明します。

 

データリネージについて

データリネージとは、システム内でのデータの移動を追跡できる機能です。
データリネージを使用することでデータがシステム内のどこから来たデータなのか、どこに渡されたのか、
どのような変換が適用されたのか確認することができます。

リネージグラフでリネージを可視化できます。
グラフはデータ取得元やデータ送信先を表すエンティティ(小さな長方形ボタン)と、取得元から送信先に変換した
ジョブを示すプロセスボタン(Data Lineage API に報告されたソースシステムに固有のアイコン)で表示されます。
データがどのように収集され、データにどのような処理が行われたか、そしてその処理がいつ行われたか、
リネージの関係を視覚的に確認できます。
複数のデータが絡みあうシステムではETL処理でエラーになったときの原因や影響範囲の把握が容易に可能です。

2つのテーブルから新しいテーブルに統合した場合、リネージグラフは以下のように表示されます。

各アイコンをクリックすると詳細が表示されます。
青枠で囲ったアイコンをクリックした場合は以下が表示されます。

赤枠で囲ったアイコンをクリックした場合は以下が表示されます。

データリネージを利用するには「Data Lineage API」と「Data Catalog API 」の両方を有効にする必要があります。
有効にしていない場合、「必要なAPIの有効化」を押下します。

データリネージはプロジェクトごとに有効になります。
有効にするとデータリネージをサポートするプロダクトのリネージ情報が自動的に記録されます。
サポートされているプロダクトは、BigQuery、Cloud Composer、Cloud Data Fusion です。

セキュリティについて

Google Cloud Dataplexで実現する、バラバラだったデータの一元管理と権限分散

従来のデータ管理の課題

従来のデータ管理は、まるで書類を部屋ごとにバラバラに保管しているような状態でした。必要な書類を探すのは大変だし、誤って破棄してしまうリスクも高くなります。

Google Cloud Dataplexで実現できること

Dataplexは、Google Cloudが提供するデータファブリックサービスです。Dataplexを使うと、分散されたデータを一元管理し、組織全体で安全かつ効率的にデータを活用することができます。

Dataplexによる一元管理のメリット

  • 探し物がすぐに見つかる
    • データをまとめて管理することで、必要な情報にすぐにアクセスできます。
    • 組織内の別プロジェクトのデータも管理できます。
  • データの安全性を高める
    • データの管理を一元化することで、不正アクセスや漏洩を防ぎやすくなります。
    • 組織全体のデータに対して同じ管理方法が行えます。
  • ルールを守りやすくする
    • データの管理を一元化することで、会社全体のデータ管理ルールを統一しやすくなります。
    • 既存のプロジェクト単位の管理と同じ体系で会社全体のデータ管理が行えます。
  • データ分析をもっと簡単に
    • データがまとまっているので、様々な分析を簡単に実行できます。
    • データが集約されているため、どのデータへもアクセス可能です。

ビジネスドメインに基づいたデータのオーナー権限の分散

Dataplexは、データの所有権限を、ビジネスドメインに基づいて分散させることができます。これは、各部門が自分のデータを管理し、責任を持つことができるようにするためです。

Dataplexによる権限分散のメリット

  • 部門のデータ管理の自主性を向上
    • 各部門は、自分のデータの管理方法を自由に決定できます。
  • データの責任の所在を明確化
    • データの管理責任は、データの所有者に明確に割り当てられます。
  • データガバナンスの強化
    • 組織全体のデータガバナンスを、より効果的に実施することができます。

Dataplexで実現する、データの統合と権限分散

Dataplexは、バラバラだったデータを一元管理し、組織全体で安全かつ効率的にデータを活用するための最適なソリューションです。

実装例

以下の構成の処理の場合

【レイク】

【ゾーン】

【アセット】

 

権限はレイク>ゾーン>アセットの順に継承可能な他、BigQueryとCloudStorageを同じ画面で管理可能です。

(ただし、IAM権限で付与されたものも引き継がれます。必要に応じてIAM権限で付与されたものを削除する等の制御を行ってください。)

【レイク】

【ゾーン】

【アセット】

ユースケース

今回の調査で上げられるDataplexのユースケースは以下3点です。

  1.  データメッシュを利用したデータの一元管理、監視
    組織内でどこにデータがあり、誰が持っているか分からないデータのサイロ化を解決し、データを一元管理できます。
  2.  データカタログを用いたデータの民主化
    どんなデータがあるのか分からないデータのブラックボックス化を解決し、データの有効活用の場を提供します。
  3.  データの信頼性・品質の向上と分析時間の短縮
    障害の原因となっているデータをより早く発見でき、品質向上や工数削減に役立ちます。

2024年5月9日 【Google Cloud】Dataplexによるデータファブリックな環境検証(データリネージ・セキュリティ編)

Category Google Cloud

ご意見・ご相談・料金のお見積もりなど、
お気軽にお問い合わせください。

お問い合わせはこちら