Semantic Search

語意搜尋透過 embedding 向量表示文字、圖片等資料格式,實現基於語意的相似度搜尋。

Vector Search

向量搜尋是語意搜尋的核心技術,透過計算向量間的距離來衡量相似度。

Distance Metrics

Distance Metrics

三種常見的距離計算方式

  • Euclidean distance - 歐幾里得距離
  • Internal product - 內積
  • Cosine similarity - 餘弦相似度

Euclidean distance

d(p,q)2=(q1p1)2+(q2p2)2 d(p, q)^2 = (q_1-p_1)^2 + (q_2-p_2)^2
Euclidean Distance

Internal product

a×b=i=1nai×bi a \times b = \sum_{i=1}^n a_i \times b_i
Internal Product

Cosine similarity

cos(a)=abab=i=1nai×bii=1nai22×i=1nbi22 \cos(a) = \frac{a \cdot b}{||a||\cdot||b||} = \frac{\sum_{i=1}^n a_i \times b_i}{\sqrt[2]{\sum_{i=1}^n a_i^2} \times \sqrt[2]{\sum_{i=1}^n b_i^2}}
Cosine Similarity
Cosine Similarity

相關主題