Semantic Search

意味検索(いみけんさく) は embedding ベクトルを使用(しよう) してテキストや画像(がぞう) などのデータ形式(けいしき)表現(ひょうげん) し、意味(いみ)(もと) づいた類似度検索(るいじどけんさく)実現(じつげん) する。

Vector Search

ベクトル検索(けんさく)意味検索(いみけんさく)核心技術(かくしんぎじゅつ) であり、ベクトル(かん)距離(きょり)計算(けいさん) して類似度(るいじど)測定(そくてい) する。

Distance Metrics

Distance Metrics

3つの一般的な距離計算方法

  • Euclidean distance - ユークリッド距離(きょり)
  • Internal product - 内積(ないせき)
  • Cosine similarity - コサイン類似度(るいじど)

Euclidean distance

d(p,q)2=(q1p1)2+(q2p2)2 d(p, q)^2 = (q_1-p_1)^2 + (q_2-p_2)^2
Euclidean Distance

Internal product

a×b=i=1nai×bi a \times b = \sum_{i=1}^n a_i \times b_i
Internal Product

Cosine similarity

cos(a)=abab=i=1nai×bii=1nai22×i=1nbi22 \cos(a) = \frac{a \cdot b}{||a||\cdot||b||} = \frac{\sum_{i=1}^n a_i \times b_i}{\sqrt[2]{\sum_{i=1}^n a_i^2} \times \sqrt[2]{\sum_{i=1}^n b_i^2}}
Cosine Similarity

関連トピック