Redis Vector Database

Redis を向量ベクトルデータベースとして使用しようする設定せっていと方法ほうほうについて、向量ベクトルモデリング、インデックス作成さくせい、検索けんさく設定せっていを解説かいせつします。

環境設定

Python で向量ベクトル embedding 計算けいさんを行おこなうには、以下いかのパッケージが必要ひつようです：

python -m venv redisvenv
source ./redisvenv/bin/activate

pip install sentence_transformers
pip install imgbeddings

初回しょかい実行じっこう時に embedding モデル all-MiniLM-L6-v2 がダウンロードされます。

向量モデリング

向量ベクトルは Redis で文字列もじれつとして保存ほぞんされ、向量ベクトルをシリアライズして適切てきせつなデータ構造こうぞうに格納かくのうします。

String での保存

最もっとも簡単かんたんな方法ほうほうは、カンマ区切くぎりの文字列もじれつで保存ほぞんすることです：

SET vec "0.00555776,0.06124274,-0.05503812,-0.08395513,-0.09052192,-0.01091553,-0.06539601,0.01099653,-0.07732834,0.0536432"

Hash での保存

向量ベクトルは Hash 内ないでバイナリ blob として保存ほぞんされます：

{
    "content": "Understanding vector search is easy, but understanding all the mathematics behind a vector is not!",
    "genre": "technical",
    "embedding": "..."
}

JSON での保存

RedisJSON モジュールを使用しようすると、ドキュメントと向量ベクトルを JSON 形式けいしきで直接ちょくせつ保存ほぞんできます。

向量インデックスの作成

FT.CREATE コマンドで向量ベクトルインデックスを作成さくせいします。Hash と JSON の両方りょうほうのデータ構造こうぞうに対応たいおうしています。

Hash インデックス

FT.CREATE doc_idx ON HASH PREFIX 1 doc: SCHEMA content AS content TEXT genre AS genre TAG embedding VECTOR HNSW 6 TYPE FLOAT32 DIM 384 DISTANCE_METRIC COSINE

JSON インデックス

FT.CREATE doc_idx ON JSON PREFIX 2 doc: SCHEMA $.content AS content TEXT $.genre AS genre TAG $.embedding VECTOR HNSW 6 TYPE FLOAT32 DIM 384 DISTANCE_METRIC COSINE

インデックスパラメータ

パラメータ	説明	例
`DIM`	向量ベクトルの次元数じげんすう（embedding モデルにより決定けってい）	384（all-MiniLM-L6-v2）
`TYPE`	向量ベクトルデータ型がた	FLOAT32
`DISTANCE_METRIC`	距離きょり計算けいさん方法ほうほう	COSINE、L2、IP
`HNSW` / `FLAT`	インデックス方法ほうほう	データ量りょうにより選択せんたく

インデックス方法

FLAT

小規模しょうきぼデータセットに適てきしています。

テスト向量ベクトルをインデックス内ないのすべての向量ベクトルと一ひとつずつ比較ひかく
結果けっかは最もっとも正確せいかくだが、速度そくどが遅おそく計算けいさん負荷ふかが高たかい

HNSW (Hierarchical Navigable Small World)

大規模だいきぼデータセットに適てきしています。

HNSW アルゴリズムを使用しようした確率的かくりつてきアプローチ
検索けんさく速度そくどが速はやいが、精度せいどを犠牲ぎせいにしてパフォーマンスを向上こうじょう

距離計算

コサイン距離きょり（cosine distance）はコサイン類似度るいじどの補数ほすうで、1 - cosine_similarity で計算けいさんできます：

\text{cosine distance} = 1 - \text{cosine similarity}

詳細しょうさいな距離きょり計算けいさん方法ほうほうは Semantic Search を参照さんしょうしてください。

応用シナリオ

テキスト推薦すいせんシステム - テキスト内容ないようの類似度るいじどに基もとづく推薦すいせん
画像がぞう検索けんさく - imgbeddings で画像がぞうを向量ベクトルに変換へんかん
RAG システム - LLM と組くみ合あわせた検索けんさく拡張かくちょう生成せいせい