2026年5月19日 OCRの限界をUXで補完する:ML Kitで構築する家計簿アプリ Android 検索する Popular tags 事例紹介 GEN-STEP 生成AI(Generative AI) Vertex AI Search Looker Studio BigQuery AlloyDB Google Workspace Cloud SQL Category モバイル Author キリン SHARE 目次 ML Kit(Machine Learning Kit)とは OCRの限界 LLMではなくML Kitにした理由 アプリ流れ 学びと今後の展望 Content こんにちは!キリンです。 今回はML Kitを使って家計簿アプリを作ってみました。 ML Kit(Machine Learning Kit)とは ML Kit (Machine Learning Kit) とは、Google が提供するモバイルアプリ開発者向けの機械学習 SDK です。 テキスト認識、QRコード認識、写真認識など様々な機能を利用することができます。 OCRの限界 OCRとは? OCR(光学的文字認識)は、画像の中の文字を抽出してデジタルデータに変換する技術です。かつてはPCとスキャナが必要な技術でしたが、今ではモバイルアプリを通じて、スマートフォンのカメラだけで瞬時にテキスト化が可能になってます。 OCRの限界として 1. 物理的・環境的要因(入力データの問題) 2. フォントやレイアウトの多様性による認識精度の低下 3. 文脈理解の欠如による意味解析の限界 があります。 この中で1,2を改善できるUXを考えてアプリを作成してみました。 3については最近だとLLM(Gemini Nanoなど)があるのである程度解消できると思います。 LLMではなくML Kitにした理由 2026年現在、Gemini NanoなどのオンデバイスLLMが普及していますが、本プロジェクトの初期フェーズにおいて、私はあえてML Kitを選択しました。その理由は主に3つあります。 1. パフォーマンスとリリースの軽量化 LLMは非常に強力ですが、推論には膨大なメモリ(RAM)と計算リソースを消費します。一方、ML Kitは「文字認識」という特定のタスクに最適化されているため、低スペックの端末でも非常に高速かつ安定して動作します。家計簿アプリにおいて、スキャン待ちによるストレスを最小限に抑えることを優先しました。 2. 出力のランダム性を回避し、精度の安定性を確保 LLMは文脈の理解に優れていますが、時として「ハルシネーション(もっともらしい嘘)」を引き起こし、存在しない金額を生成してしまうリスクがあります。家計簿という正確性が求められるドメインでは、画像から読み取った文字を愚直に返すML Kitの方が、エンジニアとして挙動を制御しやすく、信頼性が高いと判断しました。 3. ユーザー体験(UX)による補完の可能性 「AIにすべてを任せる」のではなく、「AIが認識した結果をユーザーが素早く直感的に補正できるUI/UX」を構築することに注力しました。ML Kitで抽出したデータをダイアログでユーザーに提示し、ワンタップで修正できる仕組みを作ることで、LLMの重厚な推論に頼らずとも、快適なデータ入力を実現できました。 アプリ流れ アプリの流れとしてはカメラが起動され、領収書を撮影すると読み取ったテキストが画面に表示されます。 画像でわかる通りML Kitはテキストをとってくるだけなので違う箇所の数字を取ってくることもあります。 この現象を改善するためにスキャンした全てのテキストを一覧で表示させるレイアウトを追加しました。 チェックアイコンがあるレイアウトをタップすると このようにテキスト一覧が表示されます。 この一覧から利用者が探しているテキスト値を見つけてそのテキストをタップすると タップしたテキストをどうするか選択するレイアウトが表示され利用者の目的に合わせて活用することができるようにしました。 今回金額なので金額へをタップすると このようにタップしたテキスト金額が反映されます。 保存ボタンをタップしてグラフを確認してみると 先ほど保存した内容が反映されてるグラフが表示されます。 学びと今後の展望 今回の開発を通じて、ML Kit(認識型AI)の効率性を実感すると同時に、データの持つ意味を深く理解するOn-Device LLM(推論型AI)の必要性を感じました。 現在は「硬い」ロジックで実装していますが、今後は Gemini Nano のようなモデルを活用したいと考えています。「このレシートの内容を整理して」という自然な命令だけで、あらゆる形式のデータを柔軟に処理できる構造へと改善していくことが目標です。 エンジニアとして感じたこと エンジニアリングの本質とは、単にコードを書くことだけではなく、技術的な不足分をUXや細やかな配慮で補完していく過程にあるのだと学びました。 私の書いたコードが唯一の正解ではありませんが、同じような課題に直面している方々にとって、何らかのヒントになれば幸いです。AIの限界を技術的な制約として受け入れるのではなく、ユーザー体験を良い体験に変えていけるよう、これからも精進してまいります。 関連コンテンツ Jetpack ComposeとCredential ManagerでPasskeyログインを実装してみた by キリンon 2026年5月11日 頂きましたご意見につきましては、今後のより良い商品開発・サービス改善に活かしていきたいと考えております。 非常に良かった とても良かった どちらでもない あまり良くなかった 非常に良くなかった Author キリン 2025年4月中途入社、Androidエンジニアです! Android 2026年5月19日 OCRの限界をUXで補完する:ML Kitで構築する家計簿アプリ Category モバイル 前の記事を読む BigQueryの役割はどう変わるのか-Google Cloud Next’26で感じた「AIエージェント時代のデータ基盤」 Recommendation オススメ記事 2023年9月5日 Google Cloud 【Google Cloud】Looker Studio × Looker Studio Pro × Looker を徹底比較!機能・選び方を解説 2023年8月24日 Google Cloud 【Google Cloud】Migrate for Anthos and GKEでVMを移行してみた(1:概要編) 2022年10月10日 Google Cloud 【Google Cloud】AlloyDB と Cloud SQL を徹底比較してみた!!(第1回:AlloyDB の概要、性能検証編) BigQuery ML ワークショップ開催のお知らせ 生成AI導入支援パッケージ Discovery AI導入支援パッケージ Google Cloud ホワイトペーパー 新着記事 2026年5月19日 モバイル OCRの限界をUXで補完する:ML Kitで構築する家計簿アプリ 2026年5月11日 Google Cloud BigQueryの役割はどう変わるのか-Google Cloud Next’26で感じた「AIエージェント時代のデータ基盤」 2026年5月11日 イベント・セミナー 【2026/5/28開催】EC運営を効率化! 生成AIでコンテンツ制作業務を加速させる改善術 HOME モバイル OCRの限界をUXで補完する:ML Kitで構築する家計簿アプリ