Content
tenです。
皆さん、生成AI使ってますか?
生成AIを利用することでチャットボットや社内の情報検索など非常に便利になりましたよね。

しかし上記以外にもさまざまなユースケースで、生成AIの技術を活用することができます。
今回は生成AIを使った「文字認識」について触れてみたいと思います。

概要

文字認識技術は、デジタル化の進展とともに飛躍的な発展を遂げてきております。
初期の光学文字認識 (OCR) から、機械学習を活用したAI-OCRへと進化し、今日では生成AIの登場により、更なる変化が起きております。
Google Cloudでも従来から「Document AI」や「Cloud Vision」などのAI-OCRサービスが提供されていました。
2024年1月には「Document AI」に生成AI機能が組みこまれ、更に便利にご利用いただけるようになっております。

生成 AI を活用した Document AI カスタム エクストラクタの一般提供を開始

それでは生成AIによって文字認識がどのように変わったのか、詳しく見ていきましょう。

Gemini 1.5 Flashを使って、レシートを読み取ってみる

従来のAI-OCRの特徴として、「事前に学習させたパターンに基づく認識」に強みがありました。
ある一定の書式やレイアウトで記載された書類や、決められた項目に沿って文字を読み取ることができます。

Document AI: 請求書やパスポートを含むさまざまなドキュメントを理解する

一方で、独自の書式や複雑なレイアウト、あるいはコンテキストを考慮したような認識ができませんでした。
これを解決するのが生成AIです。

書式やレイアウトの情報、コンテキストをプロンプトで表現することで、今まで難しかったような細かなカスタマイズが簡単にできるようになりました。
それでは、試してみましょう。

今回はスーパーで食品を購入した際のレシートを読み込んでみます。
レシート画像はこちらです。(地域の名産品が含まれているので、住んでいるところがバレそうです。)

 

Vertex AI Studioから「自由形式」を選択します。

 

次に「メディアを挿入」からレシートの画像をアップロードします。

 

メッセージに「レシートの内容を読み取ってください」と入力し、実行してみましょう。

(画像をクリックすると、大きな画像が表示されます)

 

一部「額」や「計」などの文字がうまく読み取れていない部分はありますが、概ね読み取れていそうです。
このままでは扱いづらいので、JSON形式でデータを構造化し、必要な項目を取り出してみましょう。

(画像をクリックすると、大きな画像が表示されます)

 

これでシステムとしても扱いやすい状態になりました。
しかし、まだ値引額が考慮されていませんね。これを修正してみます。

(画像をクリックすると、大きな画像が表示されます)

 

レシートには明記されていない値引き後の金額も出力できました。
いかがでしょうか。文字認識に生成AIを利用することで、文字を読み取るだけではなく、必要な情報やコンテキストに合わせて非常に柔軟に出力できることが分かりました。

さいごに

生成AIはさまざまなユースケースに利用することができます。
従来からある技術も、生成AIによりどんどん進化しています。

「生成AI元年」と呼ばれた2023年に対して、2024年は生成AIを「活用」する年だと言われています。
ぜひ、生成AIを活用していき、便利な世の中をつくっていきましょう。

 

システムサポートでは、生成AIを活用したさまざまな業務改善やシステム開発の支援をしております。
ご興味のある方はお気軽にご相談ください!

生成AI活用・導入支援に関するご相談はこちら

2024年9月12日 生成AIが変える文字認識の世界

Category Google Cloud

ご意見・ご相談・料金のお見積もりなど、
お気軽にお問い合わせください。

お問い合わせはこちら