2025年12月24日 【Google Cloud】BigQuery Data Engineering Agent使ってみた!~AIで進化するデータパイプライン開発~ BigQuery Dataplex Google Cloud 生成AI(Generative AI) 検索する Popular tags 生成AI(Generative AI) Vertex AI Search Looker Studio BigQuery AlloyDB Google Workspace 事例紹介 Cloud SQL Category Google Cloud Author えいきち SHARE 目次 BigQuery Data Engineering Agent とは? BigQuery Data Engineering Agent の主な機能/特徴 使い方 実際に利用してみて 感想&まとめ Content 多くの企業が AI の業務活用に取り組み始めています。しかし、企業内で AI 活用を進めようとした際、最初につまずくポイントとしてよく挙げられるのが 「データが整理されていない」 という問題です。 実際の現場では、形式がばらばらなデータや欠損値を含むデータ、命名規則が統一されていないカラムなど、いわゆる「汚いデータ」がそのまま蓄積されているケースも少なくありません。このような状態のままでは、どれだけ高度な AI モデルを利用しても、期待した精度や効果を得ることは困難です。 AI の精度を高め、継続的に活用していくためには、その前提となる データ分析基盤やデータパイプラインの整備が不可欠 です。 一方で、データエンジニアリングの現場では、BigQuery 上でのデータ整形や前処理など、時間と労力を要する作業(ちょっと面倒くさいな、、と感じてしまう作業)が数多く発生します。 例えば、以下のようなケースが挙げられます。 - 日付フォーマットが YYYY/MM/DD と YYYY-MM-DD で混在している - 数値カラムに文字列や NULL が混ざっている - データソースごとにカラム名や意味が微妙に異なっている このような「汚いデータ」を整形・正規化する作業は、AI 活用以前に必ず発生する重要な工程です。 こうした課題に対し、生成 AI の進化によって、「コードを書く」だけでなく、「データパイプラインの設計・改善・調査までを支援する」AI エージェントが登場し始めています。その一つが、BigQuery に統合された BigQuery Data Engineering Agent です。 本記事では、BigQuery Data Engineering Agent の概要を整理したうえで、利用方法と使ってみた感想を紹介いたします。 ※本記事は2025年12月22日時点の情報をもとに執筆しています。現在の時点では、BigQuery Data Engineering Agentはプレビュー機能として提供されています。 BigQuery Data Engineering Agent とは? BigQuery Data Engineering Agent は、BigQuery 上でのデータパイプライン開発を支援する AI エージェント機能です。自然言語で要件を入力することで、パイプラインの構成や SQL、処理フローの案を生成・提案してくれます。 従来のように、要件定義から SQL を一つひとつ手で書くのではなく、「どのようなデータを、どのように加工したいか」を文章で伝えるだけで、実装のたたき台を作れる点が大きな特徴です。 なお、このエージェントは パイプラインを自動実行するものではなく、あくまで生成・提案を行う支援ツール である点は重要なポイントです。 最終的な実行やスケジューリング、レビューは人が行います。 【公式ドキュメントより引用】 The Data Engineering Agent cannot execute pipelines.Users need to review and run or schedule pipelines. ※Data Engineering Agent はパイプラインを実行できません。ユーザーがレビューしてパイプラインを実行・スケジュールする必要があります。 BigQuery Data Engineering Agent の主な機能/特徴 BigQuery Data Engineering Agentの主な機能として下記の2つがあげられます。 ①自然言語によるパイプライン生成: 最も基本的な機能が、自然言語によるパイプライン生成です。 例えば、「○○ バケットからデータを読み込み、日付形式を標準化し、 ○○ という名前の BigQuery テーブルにロードするパイプラインを作成して」というような形でパイプラインの要件を指示すると、処理フローや SQL を含むパイプライン案が自動的に生成されます。 ②既存パイプラインの修正・改善支援: 新規作成だけでなく、既存パイプラインの修正にも活用できます。 例えば、以下のようなケースです。 カラム追加や型変更への対応 データ品質チェックの追加 処理ロジックの改善提案 既存のパイプラインを前提に、変更点や改善ポイントを踏まえた提案を行ってくれる点が特徴です。 BigQuery Data Engineering Agent は、単なる SQL 自動生成ツールとは異なる特徴として下記があげられます。 パイプライン全体の構成を理解したうえで提案する 既存のパイプラインを前提に、修正・改善案を出せる このように、パイプライン設計や改善を効率化する支援機能を提供する点が、BigQuery Data Engineering Agent の大きな強みだと思います。 使い方 BigQuery Data Engineering Agentは、BigQuery pipelines インターフェースあるいはDataformから利用できます。 利用にあたっては、事前にGemini Data Analytics API を有効化し、実行するユーザーあるいはサービスアカウントに対して『roles/dataform.codeEditor』と『roles/bigquery.jobuser』の権限を付与する必要があります。 本記事では、BigQuery pipelines インターフェースから利用する方法を紹介します。 ①まず、BigQueryのコンソール画面で、「パイプライン」を選択します。 ②実行資格情報のオプションが表示されるので、適切な資格情報を選択し、「開始」をクリックします。 ③「Try out the agent experience for data pipeline」をクリックし、エージェントに対して指示を入力します。 以上の手順で、BigQuery Data Engineering Agent を簡単に利用できます。 実際に利用してみて 公式ドキュメントのサンプルでは、BigQuery のパブリックデータを用いたディメンションテーブルの作成などが紹介されています。 一方で、私自身の業務では、既存テーブルの整形よりも、まだ全く整っていない CSV ファイルを BigQuery に取り込むケースの方が多くあります。 そこで本記事では、公式サンプルとは少し異なる観点として、未整形の CSV データを対象にした検証を行いました。 ※なおBigQuery Data Engineering Agent は、Cloud Storage(CSV / Avro / Parquet など)のような外部データソースからデータを読み込むパイプライン生成を公式にサポートしています。現在のドキュメントでは、その他の外部データソース(例:データベース接続や他クラウドのストレージなど)についての明示的な対応は記載されていません。 利用するデータ: 検証のためにAIに作成させた下記のデータを利用しました。 日付や金額の表記が統一されていない場合、どこまで整えてくれるかみたいと思います。 sale_date,amount,product_name,store_id,remark 2024/01/01,1000,おむすび,S001, 2024-1-2,"1,200",おにぎり,S001,税込 2024.01.03,¥900,おむすび,S002, 01-04-2024,800円,おにぎり,S002,割引後 2024/1/5,one thousand,お結び,S003, 2024-01-06,,おにぎり,S003,金額欠損 20240107,1500,おむすび,S001, 2024/01/08,¥1,300,おにぎり,S004,通貨記号あり 2024-01-09T00:00:00Z,1200JPY,お結び,S004, ,1000,おにぎり,S005,日付欠損 ①まず作成した上記のデータをcsv形式にして、GCSのバケットにアップロードします。 ②公式ドキュメントで推奨されている内容をもとに、BigQuery Data Engineering Agentに画像のような指示を行いました。 ③エージェントから提案されたパイプラインを実行すると、下記のデータが表示されました。 ④ここからエージェントと対話しながら、最終的に下記の想定していた処理を行ってくれるところまでたどり着きました。 具体的には下記の指示を対話しながら1つ1つ追加しました。 【NULLがあるデータについても表示】 ・データにNULLがある場合も表示させてください。 【sale_date カラムの変換】 ソースデータには、以下の様々な形式の日付データが含まれています。 YYYY-MM-DD (例: 2023-12-26) YYYY/MM/DD (例: 2024/01/02) YYYY.MM.DD (例: 2024.01.03) YYYYMMDD (例: 20240107) DD-MM-YYYY (例: 01-04-2024) ISO 8601 形式 (YYYY-MM-DDTHH:MI:SSZ) (例: 2024-01-09T00:00:00Z) これらすべての形式を、YYYY-MM-DD という単一の形式を持つ DATE 型のデータに変換してください。 どの形式にも当てはまらず、変換できない値は NULL としてください。 【amountカラムの変換】 ・1200JPYは1200と表示させたい。 ⑤パイプラインの作成が完了した後は、画面の右上にあるapplyを押すことで適用されます。 また実行ボタンで、1回のみ実行することや、スケジュール設定から定期的に実行することも可能です。 それぞれの処理のノードを選択すると生成されたSQLXクエリが表示されるので、処理の内容を確認することも可能です。 感想&まとめ 今回、BigQuery Data Engineering Agent を使って未整形の CSV データを対象に検証を行いましたが、すべてを AI に任せるだけで自動的に理想的なパイプラインが完成する、という性質のものではないと感じました。 データの読み込みや基本的な整形、テーブル構成の提案といった部分については、比較的少ない指示でも実用的なパイプライン案を提示してくれる点は非常に有用です。処理フロー全体を意識した提案が得られる点は、単なる SQL 自動生成ツールとは異なる価値だと感じました。 一方、日付カラムの扱いについては、今回あえて複数のフォーマットを混在させたこともあり、どのようなデータが含まれているのか、最終的にどの形式へ統一したいのかといった前提を明確に指示する必要がありました。この検証を通じて、データが曖昧であればあるほど、人が前提条件を言語化する重要性が高まることを改めて実感しました。 総じて、BigQuery Data Engineering Agent は、データパイプライン開発における初期設計やたたき台作成を大きく効率化してくれる一方で、細かな仕様調整や品質の担保までを自動化するものではありません。AI が設計を支援し、人が品質を担保するという役割分担を前提に活用することで、実務において高い効果を発揮するツールだと感じました。 AI を使いこなすには、データや要件をどれだけ正確に言語化できるかが重要になります。BigQuery Data Engineering Agent は、エンジニアの思考を置き換えるものではなく、それを加速させる存在であり、その特性を理解したうえで活用していきたいと感じました。 関連コンテンツ 【Gemini in BigQuery】一通り試してみた by yaon 2025年5月20日 【BigQuery】SQLいらずでデータが整う?BigQuery × Gemini のデータ準備(data preparation)を試してみた by えいきちon 2025年9月1日 頂きましたご意見につきましては、今後のより良い商品開発・サービス改善に活かしていきたいと考えております。 よく分かった 分からなかった 興味がある 面白かった 使ってみたい Author えいきち 2023年中途入社。元医療職のデータアナリストです。 最近の趣味はバドミントンとランニングです。愛読書はジャンプです。 BigQuery Dataplex Google Cloud 生成AI(Generative AI) 2025年12月24日 【Google Cloud】BigQuery Data Engineering Agent使ってみた!~AIで進化するデータパイプライン開発~ Category Google Cloud 前の記事を読む KMPとCMPでモバイルアプリを作ってみた Recommendation オススメ記事 2023年9月5日 Google Cloud 【Google Cloud】Looker Studio × Looker Studio Pro × Looker を徹底比較!機能・選び方を解説 2023年8月24日 Google Cloud 【Google Cloud】Migrate for Anthos and GKEでVMを移行してみた(1:概要編) 2022年10月10日 Google Cloud 【Google Cloud】AlloyDB と Cloud SQL を徹底比較してみた!!(第1回:AlloyDB の概要、性能検証編) BigQuery ML ワークショップ開催のお知らせ 生成AI導入支援パッケージ Discovery AI導入支援パッケージ Google Cloud ホワイトペーパー 新着記事 2025年12月24日 Google Cloud 【Google Cloud】BigQuery Data Engineering Agent使ってみた!~AIで進化するデータパイプライン開発~ 2025年12月22日 モバイル KMPとCMPでモバイルアプリを作ってみた 2025年12月22日 Google Cloud データサイエンスエージェントにポッドキャスト作成機能を持たせてみた! HOME Google Cloud 【Google Cloud】BigQuery Data Engineering Agent使ってみた!~AIで進化するデータパイプライン開発~