ベクトルデータベースの概要

ベクトルデータベースは、高次元ベクトルを効率的に保存およびクエリする特殊なシステムです。これらのデータベースは、取得拡張生成 (RAG) アプリケーションの基本です。

ベクトルデータベースは、次の方法でデータ変換とストレージを処理します。

オブジェクト (オーディオ、イメージ、テキストファイルなど) は、埋め込みモデルを使用してベクトルに変換されます。
ベクトルは特殊なデータ形式で保存されます。
ベクトルデータベースは、迅速な類似度検索を可能にします。

ベクトルデータベースには、従来のデータベースよりもいくつかの重要な利点があるため、最新のデータ課題に特に適しています。ベクトルオペレーションに特化して最適化されており、高次元データを効率的に処理します。また、従来のデータベースが苦労する類似度検索にも特化しています。これらのコア機能を超えて、ベクトルデータベースは、ML および生成 AI アプリケーションの進化する需要を満たすように構築されています。大規模なベクトルストレージに優れ、分散コンピューティングを使用して複数のノード間でワークロードのバランスを取ります。これにより、データボリュームの増加に応じてスケーラビリティとパフォーマンスが提供されます。

次の図は、RAG の実装を示しています。

ドキュメント、PDFs、テキストファイルなどのコンテンツは、処理用の raw データとして埋め込みモデルにフィードされます。
埋め込みモデルは未加工データを数値ベクトルに変換し、コンテンツの意味的意味を表します。
生成されたベクトル埋め込みは、高次元ベクトルの保存と取得に最適化されたベクトルデータベースに保存されます。
アプリケーションは、セマンティック検索やコンテンツのレコメンデーションなどのユースケースに応じてベクトルデータベースをクエリできるようになりました。

埋め込みモデルは、クエリに応答するために、コンテンツをベクトルデータベースに保存されているベクトル埋め込みに変換します。

RAG ソリューションに不適切なベクトルデータベースを選択すると、次のような大きな問題や制限が発生する可能性があります。

クエリパフォーマンスの低下
スケーラビリティのボトルネック
データインジェストの課題
フィルタリングやランキングなどの高度な機能がない
他のシステムとの統合の問題
永続性と耐久性に関する懸念
複数のユーザーを持つ環境での同時実行と整合性の問題
ライセンスコストの増加またはベンダーのロックイン
コミュニティのサポートとリソースの制限
セキュリティとコンプライアンスに関する潜在的なリスク

ブラウザで JavaScript が無効になっているか、使用できません。

AWS ドキュメントを使用するには、JavaScript を有効にする必要があります。手順については、使用するブラウザのヘルプページを参照してください。

ドキュメントの表記規則

ベクトルの概要

ベクトルデータベースオプション