2024年9月12日 生成AIが変える文字認識の世界 Google Cloud 生成AI(Generative AI) 検索する Popular tags 生成AI(Generative AI) Looker Studio BigQuery AlloyDB Google Workspace 事例紹介 Cloud SQL Category Google Cloud Author ten SHARE 目次 概要 Gemini 1.5 Flashを使って、レシートを読み取ってみる さいごに Content tenです。 皆さん、生成AI使ってますか? 生成AIを利用することでチャットボットや社内の情報検索など非常に便利になりましたよね。 しかし上記以外にもさまざまなユースケースで、生成AIの技術を活用することができます。 今回は生成AIを使った「文字認識」について触れてみたいと思います。 概要 文字認識技術は、デジタル化の進展とともに飛躍的な発展を遂げてきております。 初期の光学文字認識 (OCR) から、機械学習を活用したAI-OCRへと進化し、今日では生成AIの登場により、更なる変化が起きております。 Google Cloudでも従来から「Document AI」や「Cloud Vision」などのAI-OCRサービスが提供されていました。 2024年1月には「Document AI」に生成AI機能が組みこまれ、更に便利にご利用いただけるようになっております。 生成 AI を活用した Document AI カスタム エクストラクタの一般提供を開始 それでは生成AIによって文字認識がどのように変わったのか、詳しく見ていきましょう。 Gemini 1.5 Flashを使って、レシートを読み取ってみる 従来のAI-OCRの特徴として、「事前に学習させたパターンに基づく認識」に強みがありました。 ある一定の書式やレイアウトで記載された書類や、決められた項目に沿って文字を読み取ることができます。 Document AI: 請求書やパスポートを含むさまざまなドキュメントを理解する 一方で、独自の書式や複雑なレイアウト、あるいはコンテキストを考慮したような認識ができませんでした。 これを解決するのが生成AIです。 書式やレイアウトの情報、コンテキストをプロンプトで表現することで、今まで難しかったような細かなカスタマイズが簡単にできるようになりました。 それでは、試してみましょう。 今回はスーパーで食品を購入した際のレシートを読み込んでみます。 レシート画像はこちらです。(地域の名産品が含まれているので、住んでいるところがバレそうです。) Vertex AI Studioから「自由形式」を選択します。 次に「メディアを挿入」からレシートの画像をアップロードします。 メッセージに「レシートの内容を読み取ってください」と入力し、実行してみましょう。 (画像をクリックすると、大きな画像が表示されます) 一部「額」や「計」などの文字がうまく読み取れていない部分はありますが、概ね読み取れていそうです。 このままでは扱いづらいので、JSON形式でデータを構造化し、必要な項目を取り出してみましょう。 (画像をクリックすると、大きな画像が表示されます) これでシステムとしても扱いやすい状態になりました。 しかし、まだ値引額が考慮されていませんね。これを修正してみます。 (画像をクリックすると、大きな画像が表示されます) レシートには明記されていない値引き後の金額も出力できました。 いかがでしょうか。文字認識に生成AIを利用することで、文字を読み取るだけではなく、必要な情報やコンテキストに合わせて非常に柔軟に出力できることが分かりました。 さいごに 生成AIはさまざまなユースケースに利用することができます。 従来からある技術も、生成AIによりどんどん進化しています。 「生成AI元年」と呼ばれた2023年に対して、2024年は生成AIを「活用」する年だと言われています。 ぜひ、生成AIを活用していき、便利な世の中をつくっていきましょう。 システムサポートでは、生成AIを活用したさまざまな業務改善やシステム開発の支援をしております。 ご興味のある方はお気軽にご相談ください! 生成AI活用・導入支援に関するご相談はこちら 関連コンテンツ 生成AIでチャットボットはどう変わる? by tenon 2024年2月5日 Google Cloudで生成AIチャットボットを作ってみよう! by tenon 2024年2月9日 生成AI導入支援サービス by Sight-R運営on 2023年11月13日 業務効率化 生成AIを活用した社内文書検索ソリューション by t-sawaokaon 2024年4月25日 頂きましたご意見につきましては、今後のより良い商品開発・サービス改善に活かしていきたいと考えております。 よく分かった 気になる おもしろい イマイチ Author ten 株式会社システムサポート 大阪支社システムインテグレーション事業部所属。 Google Cloud 認定資格 10資格、AWS 認定 12資格。マルチクラウドの知見を活かし、プリセールスを担当しています。 Google Cloud 生成AI(Generative AI) 2024年9月12日 生成AIが変える文字認識の世界 Category Google Cloud 前の記事を読む 【4コマ漫画】SEひつじは定時退社の夢を見る ~ダウングレード~ 次の記事を読む DatastreamからNLB経由でAurora PostgreSQLに接続してみた Recommendation オススメ記事 2023年9月5日 Google Cloud 【Google Cloud】Looker Studio × Looker Studio Pro × Looker を徹底比較!機能・選び方を解説 2023年8月24日 Google Cloud 【Google Cloud】Migrate for Anthos and GKEでVMを移行してみた(1:概要編) 2022年10月10日 Google Cloud 【Google Cloud】AlloyDB と Cloud SQL を徹底比較してみた!!(第1回:AlloyDB の概要、性能検証編) BigQuery ML ワークショップ開催のお知らせ 生成AI導入支援パッケージ Discovery AI導入支援パッケージ Google Cloud ホワイトペーパー 新着記事 2024年9月30日 Google Cloud 【Google Cloud】サーバレスでマネージドなサービス「Cloud Run」でアプリケーションを走らせよう! 2024年9月27日 技術開発 モブレビューを導入して分かったメリットとデメリットについて 2024年9月26日 Google Cloud 自然言語でデータを可視化できるLookerのExplore Assistantを試してみた HOME Google Cloud 生成AIが変える文字認識の世界 ご意見・ご相談・料金のお見積もりなど、お気軽にお問い合わせください。 お問い合わせはこちら HOME Categories お知らせ イベント・セミナー Google Cloud Google Workspace モバイル インフラ 技術開発 ブログ 4koma Tags 生成AI(Generative AI) Looker Studio BigQuery AlloyDB Google Workspace 事例紹介 Cloud SQL STSエンジニアリングマガジン 「サイタル」