2023年5月15日
【Google Cloud】使えると便利!一般公開データセットとは?(使い方あり)【BigQuery】
- Category Google Cloud
みなさんはGoogle Cloudの機能であるBigQueryを使用している時、サンプルデータがなかったり、
データの量が足りなかったりしてテストや動作確認に困った経験はありませんか?
BigQueryではそのような問題を解決するために一般公開データセットというものがあります。
本記事では一般公開データセットとはどのようなものか、使い方を交えて紹介したいと思います!
一般公開データセットとは
一般公開データセットとはBigQueryに保存されGoogle Cloud 一般公開データセットプログラムを通じて
一般提供されているデータセットです。
提供されているデータセットは200以上、データ量は20ペタバイト以上あります!(2023/04/12時点)
このデータセットはBigQuery でホストされ、ユーザーがアクセスして任意のアプリケーションで
使用することができます。
BigQueryを利用する際、ストレージ料金と分析料金がかかりますが、一般公開データセットについては
ストレージ料金はかからず、分析料金のみがかかります。
どんなデータが含まれる?
一般公開データセットにはさまざまな種類のデータが含まれています。
・小売店や販売業者が提供する販売データ
・Googleが提供する検索のトレンドデータやアナリティクスデータ
・世界の気候、天気を記録したデータ
・米国国勢調査局が提供する国勢調査データや地理データなど
経済、科学、気候、医療、教育、アナリティクス、ビッグデータなどなど
多くの種類と膨大な量のデータが公開されています。
そのため、テストで確認したい項目に対して最適なデータを選ぶことも可能です!
※実際のデータセットの例。2023/4/12時点で208個が公開
実際にデータを使ってみよう!
ではここからは実際に一般公開データセットをBigQueryで使ってみてデータを見てみましょう!
一般公開データセットを使用する手順は以下の通りです。
①Google Cloudのアカウント作成およびプロジェクト作成をし、BigQuery APIを有効にする
一般公開データセットのデータを使用したいプロジェクトを作成し、BigQueryを使用できる状態にします。
(今回は省略します)
②一般公開データセットをプロジェクトに追加
Google CloudコンソールからBigQueryのページに移動し、データセットを開きます。
・Google Cloudコンソールから【BigQuery】ページに移動
・【エクスプローラ】 の 【右にある3点】 をクリックし、【+追加】 をクリックします。
・【公開データセット】 をクリックします。
・表示された一般公開データセットの一覧から使用するデータセットを選択します。
ここでは「Austin Crime Data」を選択します。
※「Austin Crime Data」・・・アメリカテキサス州オースティン市のオースティン警察署から提供されたデータ。アメリカ国内でPart1 Offensesに分類される重大犯罪の統計データが含まれる。
・【データセットを表示】をクリック
・【データセットを表示】をクリックすると新しいタブが開き、一般公開データセットの中の
「Austin Crime Data」に相当するデータセットが選択されます。
※テーブルを表示するには、データセットの左にある【三角マーク】 をクリックします。
③一般公開データセットに対してクエリを実行する
②までの手順で使用したいデータを選択することができました。
次は実際にデータに対してクエリを実行してみましょう!
・テーブルの上部にある【クエリ▼】 をクリックし、【新しいタブ】をクリックします。
・クリックすると新しいクエリエディタが開かれるので、実行したいクエリを入力します。
今回は「2016年のオースティン市で発生数が多い犯罪の種類TOP3を表示する」という内容のクエリを
実行したいと思います。
クエリが有効な場合は、クエリによって処理されるデータの量とともにチェックマークが表示されます。
クエリが無効な場合は、感嘆符(!)がエラーメッセージとともに表示されます。
【OKパターン】
【NGパターン】
※ご注意ください!
処理するデータ量が多すぎるとBigQueryの使用料金が増える可能性があります!
(BigQueryにはクエリの分析料金について毎月1TBの無料枠があります。BigQueryの詳しい料金体系についてはこちら)
・【実行】 をクリックします。
・実行結果が【クエリ結果】 セクションに表示されます。
クエリを実行した結果、オースティン市では
THEFT(窃盗)、BURGLARY OF VEHICLE(車両強盗)、THEFT BY SHOPLIFTING(万引き)が犯罪発生数TOP3ということが分かりました。
TOP3の犯罪数だけで2万件もあるのは日本人からすると驚きですね・・・
参考:2016年の名古屋市での犯罪発生件数は12079件
※データセットを再度使用したい場合はデータセット名の右にある星マークにチェックを入れると
次回以降の作業が楽になります!
以上が一般公開データセットをBigQueryで使用する手順です!
まとめ
一般公開データセットをBigQueryで使用する方法をご紹介しましたが、いかがでしたでしょうか?
・分析の動作がちゃんと動いているか確認したいがデータがない
・大量のデータに対してクエリの書き方が正しいか確認したい
・試しにBigQueryを使ってみたい!
そのようなお悩みをもつ方々には、一般公開データセットは大いに役立つと思います!
今回の記事がお悩み解決の一助になれば幸いです。
最後までご覧いただきありがとうございました!
当社、システムサポートは、Google Cloudの導入・移行・運営支援を行っています。
お問い合わせは以下よりお願いいたします。
ご意見・ご相談・料金のお見積もりなど、
お気軽にお問い合わせください。