2025年5月12日

Vertex AI Vector Search~ハイブリット検索とは~


Content
こんにちは。えいきちです。
近年、ベクトル検索の活用が急速に広がっていますが、その中でも特に注目を集めているのが、ベクトル検索とキーワード検索を組み合わせた「ハイブリッド検索」です。
この技術は、従来の検索手法では捉えきれなかった複雑な情報をより効果的に検索できるため、多くの業界で導入が進んでいます。
ハイブリッド検索の仕組みについて詳しく知りたいと考えている方や、Vector Searchの導入を検討している方に向けて、本記事では「ハイブリッド検索とは何か?」という基本的な概念と、Vertex AI Vector Searchの概要」について紹介いたします。
また、次の記事では実際の利用方法についても詳しく解説する予定ですので、実践的な情報を知りたい方はぜひそちらもご確認ください。

1. ハイブリット検索とは?

ハイブリッド検索は、キーワード検索とベクトル検索を組み合わせた検索方法です。それぞれの特徴を活かし、より精度の高い検索結果を得ることができます。

ハイブリット検索を理解するために、まずキーワード検索とベクトル検索について説明します。

 

(1)キーワード検索とは?

キーワード検索は、皆さんが日頃使っている一般的な検索方法です。
たとえば、「東京 観光スポット」と検索した場合、そのキーワードに完全または部分一致するWebページを探し出します。

  • メリット:シンプルかつ高速。明確なキーワードに対して精度が高い。

  • デメリット:言い回しが違うだけで対象外になることがある。(例:「東京の観光名所」はヒットしない場合もある)

つまり、表現ゆれや自然な言い換えには弱いのが課題です。

 

(2)ベクトル検索(セマンティック検索)とは?

ベクトル検索は、AIによって文や単語の「意味」を数値化(ベクトル化)し、意味の近さで情報を探す検索手法です。

たとえば、「東京 観光スポット」と検索すると、「東京の観光地」「都内おすすめの名所」といった意味的に関連する情報までカバーできるのが特徴です。

  • メリット:言い回しや表現の違いに強く、柔軟な検索が可能
  • デメリット:厳密なキーワード一致が苦手(意図とズレることがある)、完全一致でなくても上位に表示されてしまうことがある

つまり、柔軟性がある反面、「本当に欲しい情報」が埋もれるリスクもあることが課題です。

 

(3)ハイブリット検索とは?

ハイブリッド検索は、キーワード検索とベクトル検索の強みを補完し合う形で組み合わせた検索手法です。

それぞれの手法が得意な領域を活かすことで、検索精度を高めつつ、表現の多様性にも対応できるようになります。

 

ハイブリッド検索は以下のプロセスで実行されます。

  (1) ユーザーの検索クエリがベクトル検索キーワード検索の両方に渡されます。

        (2) 両検索は個別に結果をランク付けします:

    • ベクトル検索は、クエリとテキストの意味的な類似度に基づいて順位を決定します。
    • キーワード検索は、キーワードやフレーズの一致度を基に順位を決定します。

         (3) RRF(Reciprocal Rank Fusion)という方法を使って、2つのランキングの結果をバランスよく統合して、より良い順位を作ります。※RRFの詳細については記事の最後でより詳しく紹介しています。

         (4) 統合されたランクを基に検索結果が表示されます。

 

(4)ハイブリット検索のメリット

  • 表記ゆれに強い:同じ意味の別表現でも、関連情報をしっかり拾える
  • 精度の向上:厳密なキーワード一致と、柔軟な意味的検索を両立

 

ハイブリッド検索は、ベクトル検索とキーワード検索の両方を組み合わせることで、キーワードの「厳密さ」と意味理解の「柔軟さ」の両立を実現します。

その結果、検索結果の質を大幅に向上させることができるといわれています。

 

2. ハイブリットの活用例

ハイブリッド検索は、実際にどのような場面で役立つのでしょうか?

例えば、ネットショップで「赤いスニーカー」と検索した場合を考えてみましょう。

  • キーワード検索では、「赤い」「スニーカー」という単語が含まれる商品を探します。
  • ベクトル検索では、「スポーツシューズ」「ランニングシューズ」「赤系の靴」など、意味が近い商品も見つけ出します。

このように、「検索ワードに完全一致する商品」+「意味的に関連性の高い商品」の両方を表示できるため、ユーザーにとってより便利な検索結果を提供できます。

 

上記のようにハイブリッド検索は、さまざまな分野で活用されています。

  • ネットショップの検索:キーワードに加えて、関連性の高い商品も提案
  • 図書館や論文検索:キーワードに一致しない関連資料も発見
  • カスタマーサポート:FAQから最適な回答を検索し、問い合わせ対応を効率化

 

ちなみにGoogle検索でもハイブリッド検索が利用されているようです。

“最も一般的なハイブリッド検索システムの一つが Google 検索です。このサービスには、トークンベースのキーワード検索アルゴリズムに加えて、RankBrain モデルによるセマンティック検索が 2015 年に組み込まれています。ハイブリッド検索の導入により、Google 検索は「意味による検索」と「キーワードによる検索」という 2 つの要件に対応し、検索の品質を大幅に向上させることができました。”

https://cloud.google.com/vertex-ai/docs/vector-search/about-hybrid-search?hl=ja#combine-semantic-search

3. Vertex AI vector searchとは?

Vertex AI Vector Searchは、Google CloudのVertex AIが提供する高度なベクトル検索機能で、Google Researchの最先端技術を活用しています。

Vertex AI Vector Searchは、高い精度で、効率的な検索を実現するために設計されています。

Vertex AI Vector Search の概要

Vertex AI Vector Searchではベクトル検索の機能はもちろん、ハイブリット検索の機能も提供されています。

 

Vertex AI vector searchでは下記を基準に料金が発生します。

※2025年3月時点の情報です。

 

デプロイされたインデックスをホストするための費用

検索に使用するデータ(インデックス)を維持するために、Google Cloud 上の仮想マシン(VM)が動作します。これらのVMは、1時間あたりの利用料金が発生します。また利用料はマシンタイプやリージョンによって異なります。
例えば東京(asia_southeast1)だと、下記の計算になります。

・e2-standard-2は$0.116/時なので、1日あたり$2.784(約400円※1ドル約145円の場合)

・n1-standard-16は$1.313/時なので、1日あたり$31.512(約4500円※1ドル約145円の場合)

マシンのタイプでも料金が結構変わってきますね。

 

 

新しいインデックスの作成や更新にかかる費用

新しい検索データを登録したり、すでにあるデータを更新したりする際には、料金が発生します。具体的には、インデックスの作成・更新には 1 GiB あたり $3.00、リアルタイムでデータを取り込むストリーミングアップデートは 1 GiB あたり $0.45 という価格設定です。ストリーミングアップデートは、即座に検索結果へ反映できるにもかかわらず、低コストで運用できる点が魅力ですね。

詳細については公式ドキュメントをご確認ください。

vector_search_料金

まとめ

この記事では、「ハイブリッド検索とは何か?」という基本的な概念と、「Vertex AI Vector Searchの概要」について紹介しました。

次の記事では実際の、利用方法について紹介したいと思います。 

ちょっと深掘り~RRFとは??~

 記事の中で、ハイブリット検索の説明で「RRF」という方法を紹介しました。ここではRRFを少し深堀したいと思います。

RRFとはReciprocal Rank Fusionの略です。日本語だと「逆順位融合」と呼ばれます。

 

【RRFの概要と仕組み】

RRFは、複数のランキング結果をバランスよく統合して、最終的な順位を決定するための手法です。

個々のランキングで上位に登場したアイテムに高いスコアを与える一方で、他のランキングでもある程度評価されているアイテムも無視しないのが特徴です。

RRFでは、「逆順位スコア」と呼ばれる値を使ってスコアを算出します。

【逆順位スコア】

「逆順位スコア」= Σ [1 / (順位 + k(定数))]

逆順位スコアは、上記の計算式で示している通り、1を各ランキングの順位と定数を足したもので割った値の合計です。

【具体例:動物のランキングを統合してみる】

具体例で、実際のRRFの計算を行いながら、仕組みを紹介したいと思います。

 

例えば、次のような3つのランキングがあったとします。

ランキングA:1位「猫」2位「犬」3位「パンダ」

ランキングB:1位「インコ」2位「ウサギ」3位「パンダ」

ランキングC:1位「ウサギ」2位「猫」3位「パンダ」

このように、各ランキングの上位は異なっています。ここからRRFスコアを計算し、最終的なランキングを作成してみます。

 

実際に猫とパンダの逆順位スコアを計算してみましょう。

<猫>

ランキングA→1位:1÷(1+60)=0.01639…≈0.0164

ランキングC→2位:1÷(2+60)=0.01612…≈0.0161

合計0.0325

 

<パンダ>

ランキングA→3位:1÷(3+60)=0.01587…≈0.0159

ランキングB→3位:1÷(3+60)=0.01587…≈0.0159

ランキングC→3位:1÷(3+60)=0.01587…≈0.0159

合計0.0476

 

【結果の解釈】

1位と2位を獲得し、1つでランキング圏外となった猫よりも、すべてのランキングで3位にランクインしているパンダの方がスコアが高くなりました。

これは、RRFが「安定して評価が高い」アイテムを適切に評価できることを意味しています。

 

【まとめ】

上記の例で、RRFの処理の流れはイメージできたでしょうか。

RRF(Reciprocal Rank Fusion)は、シンプルながら実用性の高いランキング統合手法です。

特に、複数の検索モデルの結果を組み合わせたい場面では、非常に効果的に機能します。

 

参考:ハイブリッド検索のリソース

2025年5月12日 Vertex AI Vector Search~ハイブリット検索とは~

Category Google Cloud

ご意見・ご相談・料金のお見積もりなど、
お気軽にお問い合わせください。

お問い合わせはこちら