2025年9月1日

【BigQuery】SQLいらずでデータが整う?BigQuery × Gemini のデータ準備(data preparation)を試してみた


Content

データ分析において「前処理(データ準備)」は、全体の作業時間の約7〜8割を占めるともいわれる重要なフェーズです。

眠っているデータは、すぐに利用できる状態であることはあまりなく、欠損値の補完、フォーマットの統一、文字列操作や型変換といったデータを整える前処理が必要になります。

前処理作業は地味ですが、分析結果の精度に大きく影響する、欠かせない工程です。

Google Cloud の BigQuery は大規模データの処理に強みを持ち、従来から DWH として活用されてきました。

最近では自律型 AI プラットフォームとしても進化しており、その中で Gemini in BigQuery の機能のひとつとして「データ準備(data preparation)」が利用できるようになっています。

AI モデル Gemini を活用し、GUI 上で提案を確認しながら直感的にデータ整形を行えるのが大きな特徴です。

実際に試してみると、SQL を書かずに Gemini の提案を選ぶだけでデータがきれいになることを体感できました。この記事では、その詳細をご紹介します。

Gemini でデータを準備する

Gemini in BigQuery の全体的な機能は下記の記事で分かりやすく紹介していますので、ぜひご覧ください!

【Gemini in BigQuery】一通り試してみた

BigQueryデータ準備を利用するには

BigQuery データ準備は BigQuery Studio に統合されており、追加の外部サービスを使わずに利用できます。
利用には以下の権限が必要です。

  • roles/bigquery.studioUser

  • roles/cloudaicompanion.user

必要なロール

権限を持つユーザーは BigQuery コンソールから「データ準備」を選び、次の方法でエディタを開けます。

  • 新しいデータ準備パイプラインを作成

  • 既存テーブルを右クリックして「データ準備」から起動

  • 保存済みのパイプラインを再利用

BigQueryでデータ準備エディタを開く

エディタのインターフェース

データ準備エディタには大きく分けて 3 つのビューがあります。

  • Data View(データビュー)
    テーブルのプレビューを見ながら、Gemini がカラムやセルごとに提案を出してくれます。欠損値の補完や日付フォーマット変換などはここで操作します。

  • Schema View(スキーマビュー)
    出力テーブルのスキーマを確認・編集する場所です。不要なカラム削除や新しいカラム追加などの構造的な操作が可能です。

  • Graph View(グラフビュー)
    適用した変換手順がノードとして表示され、データフローを視覚的に確認できます。処理が複雑になるほど、全体像を把握するのに便利です。

実際に試してみた!

(1)

まずはGoogle Cloud コンソールから、BigQuery Studioを開きます。

画像で示しているメニューの中から「データの準備」をクリックしてください。

(2)

続いて、データ準備タブが開きます。ここで利用するデータを検索します。

検索はキーワードまたは自然言語で行うことができます。今回は自然言語検索を試してみます。

利用したいテーブルが見つかりました。なお、BigQuery のパブリックデータも検索対象となっています。

(3)

データ準備の最大の特徴である Gemini による提案機能を試します。
データビューで特定のカラムを選択すると、Gemini が変換案を提示してくれます。

今回の提案内容は、①文字列から整数型への変換による型の統一、②入力されているデータが数値かどうかの判定などです。
非常に便利な機能です。

実際に提案された変換を適用した場合の結果は、「プレビュー」ボタンを押して確認できます。問題がなければ「適用」を選択して反映しましょう。

(4)

続いて、複雑な日付データで試してみます。
複雑な形式であったためか、Gemini の提案時にエラーが発生しました。

提案の精度を改善したい場合や候補を見直したい場合は、表のセルを1~3個程度編集し、列の値の表示形式を指定することが推奨されています。

実際にいくつか編集したところ、再度提案が表示されるようになりました。

プレビューで結果を確認すると、指定した変換は問題なく適用されていますが、条件が十分でないため一部データが消えてしまった行もありました。

そこで、自然言語を用いて提案の修正を試みます。

「編集」ボタンをクリックし、下記画像の赤枠の部分を修正します。

試しに「データが null にならないように全パターン網羅して」という指示を入力しました。

送信ボタンを押すと内容が更新され、null を避けるため該当しない場合は一律「1900-01-01」が入力されるようになりました。

意図とは少し異なる結果でしたが、自然言語でも指示が伝わっていることが分かります。

必要な全パターンに対応するために表中を編集すると、全パターンに対応した変換を提案してくれました。
SQLが苦手な方にとっては非常に助かる機能だと思います。

「適用」ボタンをクリックすると、ステップ内に追加されます。

(5)

最後に、自身で処理を指定してみます。

カラムを選択すると、Gemini の提案を編集・確認することもできますが、手動で指示を入力することも可能です。

今回は画像の「フィルタ」ボタンをクリックし(変換や結合も利用可能です。またプレビューではありますが、集計や重複除去も利用できます)、行いたい処理内容を入力します。

今回は「trueのみ抽出」という処理を自然言語で指示しました。

問題がなければ「適用」を押して処理を追加します。

ステップに追加されました。

追加されたステップを選択すると、各ステップでどのような処理が行われるか画面上で確認できます。

最後に処理の宛先を指定して保存します。

保存したデータ準備をデプロイすれば、スケジュール実行などの自動化も可能です。

まとめ

本記事では、Google CloudのBigQuery Studioに搭載された「データ準備(BigQuery Data Preparation)」機能を活用し、AIモデルGeminiによる提案を用いて直感的にデータ前処理を行う手順をご紹介しました。

従来のSQLを使った複雑な前処理作業が、自然言語やGUI操作だけで簡単に実現できるため、データ分析を始めたばかりの方やSQLに自信がない方でも効率よくデータを整形できます。

また、提案機能をうまく活用することで、複雑なデータの変換やエラー対応も柔軟に行える点が大きなメリットです。手動での編集や自然言語による指示で提案内容をカスタマイズできるため、より精度の高い前処理が可能となります。

さらに、処理結果のプレビュー機能やステップごとの確認、スケジュール実行による自動化もサポートされており、実務での運用も見据えた強力なツールです。

これからのデータ分析業務において、BigQueryデータ準備を活用することで、作業時間の短縮と品質向上が期待できます。ぜひ一度試してみてください。

2025年9月1日 【BigQuery】SQLいらずでデータが整う?BigQuery × Gemini のデータ準備(data preparation)を試してみた

Category Google Cloud

ご意見・ご相談・料金のお見積もりなど、
お気軽にお問い合わせください。

お問い合わせはこちら