本文属于机器翻译版本。若本译文内容与英语原文存在差异,则一律以英文原文为准。
矢量数据库比较
AWS 提供了多种实现矢量搜索功能的方法,从单个矢量数据库到 Amazon Bedrock 知识库,后者是一项完全托管的服务。在评估这些选项时,组织必须考虑各个方面,包括架构、可扩展性、集成能力、性能特征和安全功能。
单个矢量数据库
下表概述了几种 AWS 单独的矢量数据库解决方案的主要功能,重点介绍其架构、扩展能力、数据源集成和性能特征。
功能 |
Amazon Kendra |
亚马逊 OpenSearch 服务 |
Postgr SQLwith e 版亚马逊 RDS pgvector |
Amazon DocumentDB |
Amazon MemoryDB |
Amazon Neptune Analytics |
Amazon S3 Vectors |
|---|---|---|---|---|---|---|---|
主要使用案例 |
企业搜索和 RAG |
分布式搜索和分析 |
支持向量的关系数据库 |
使用矢量搜索功能的文档数据库 |
实时内存中矢量搜索 |
使用矢量搜索进行图形分析 |
成本优化的矢量存储 |
架构 |
完全托管 |
分布式集群 |
关系数据库 |
以文档为导向 |
内存数据库 |
图形分析引擎 |
无服务器对象存储 |
数据模型 |
基于文档 |
JSON 文档 |
关系表 |
JSON 文档 |
带有 JSON 的键值 |
房产图 |
对象存储 |
向量尺寸 |
自动管理 |
最多 16,000 |
可配置 |
最多 2,000(已编入索引);16,000(未编入索引) |
最多 32,768 |
可配置 |
最多 4,096 |
索引方法 |
自动 |
哈哈哈,试管婴儿 |
新南威尔士州, IVFFlat |
新南威尔士州, IVFFlat |
HNSW |
原生图形和向量 |
自动 |
距离指标 |
自动 |
余弦、欧几里得、点积 |
余弦、欧几里得、内积 |
余弦、欧几里得、点积 |
余弦、欧几里得、内积 |
余弦、欧几里得 |
余弦、欧几里得 |
查询延迟 |
亚秒级 |
小于 10 毫秒(GPU 加速) |
10-100 ms |
毫秒 |
亚毫秒级 |
亚秒级 |
低于 100 毫秒 |
缩放模型 |
自动 |
水平(添加节点) |
垂直副本和只读副本 |
水平(添加实例) |
垂直和复制品 |
自动 |
自动(无服务器) |
最大向量 |
托管式 |
十亿(取决于集群) |
数百万(取决于实例) |
每个收藏数百万美元 |
每个数据库数百万美元 |
数十亿 |
每个索引 20 亿个;每个存储桶 10,000 个索引 |
吞吐量 |
高 |
非常高(数千个 QPS) |
中 |
高 |
非常高(每天有数百万个请求) |
高 |
中(针对不频繁的查询进行了优化) |
数据持久性 |
99.999999999%(11 个 9) |
可通过副本进行配置 |
99.99%(多可用区) |
99.99%(多可用区) |
99.99%(多可用区) |
99.99% |
99.999999999%(11 个 9) |
一致性模型 |
最终 |
最终(可配置) |
强(酸) |
最终 |
很强 |
很强 |
很强 |
附加功能 |
40 个或更多数据连接器,NLP |
全文搜索、分析、仪表板 |
SQL 查询、ACID 事务 |
MongoDB API 兼容性 |
Redis API 兼容性、缓存 |
图形算法、遍历 |
Amazon S3 集成、生命周期策略 |
定价模式 |
按查询和存储付费 |
实例小时数和存储空间 |
实例小时数和存储空间 |
实例小时数和存储空间 |
实例小时数和存储空间 |
容量单位和存储空间 |
存储、查询和数据传输 |
成本优化 |
基于用量 |
预留实例,自动缩放 |
预留实例,Aurora 无服务器 |
预留实例 |
预留实例 |
自动扩缩 |
与专业相比,最多可节省 90% DBs |
适用于 |
只需最少的设置即可进行企业搜索 |
高吞吐量、低延迟查询 |
混合 SQL 和矢量工作负载 |
兼容 MongoDB 的应用程序需要向量 |
实时、超低延迟的应用程序 |
GraphRag 和知识图表 |
经济实惠的长期存储 |
理想的查询模式 |
频繁的企业搜索 |
高频实时查询 |
混合 SQL 和向量查询 |
使用语义搜索进行文档查询 |
每天有数百万个请求 |
使用矢量搜索进行图形遍历 |
不频繁的查询(几分钟到几小时) |
设置复杂性 |
低(完全托管) |
中(群集配置) |
中等(扩展设置) |
中(群集配置) |
中(群集配置) |
低(完全托管) |
低(无服务器) |
需要团队专业知识 |
Minimal |
OpenSearch 或者弹性搜索 |
PostgreSQL、SQL |
MongoDB |
Redis |
图形数据库 |
亚马逊 S3,基本矢量概念 |
托管服务 — Amazon Bedrock 知识库
Amazon Bedrock 知识库提供了具有多个矢量存储选项的完全托管解决方案。下表比较了这些存储选项。
功能 |
Aurora Postgre pgvect SQLwith |
Neptune 分析 |
OpenSearch 无服务器服务 |
亚马逊 S3 矢量图 |
Pinecone |
RedisEnterprise 云 |
|---|---|---|---|---|---|---|
主要使用案例 |
带有向量 RAG 的关系数据库 |
GraphRag 的基于图形的矢量搜索 |
知识管理 RAG |
成本优化的矢量 RAG |
高性能矢量搜索 |
内存中的矢量搜索 |
架构 |
完全托管的关系 |
完全托管的图形分析 |
完全托管的无服务器 |
无服务器对象存储 |
完全托管的混合云 |
完全托管的内存中 |
数据模型 |
关系表 |
房产图 |
JSON 文档 |
对象存储 |
专门构建的矢量图 |
带向量的键值 |
矢量存储 |
通过 pgvector 扩展 |
原生图形向量 |
通过 OpenSearch 发动机 |
亚马逊 S3 原生矢量存储 |
原生矢量数据库 |
内存中的向量 |
Amazon Bedrock 集成 |
Native |
Native |
Native |
Native |
Native |
Native |
自动摄取 |
是(通过 Amazon Bedrock) |
是(通过 Amazon Bedrock) |
是(通过 Amazon Bedrock) |
是(通过 Amazon Bedrock) |
是(通过 Amazon Bedrock) |
是(通过 Amazon Bedrock) |
自动矢量化 |
是(通过 Amazon Bedrock) |
是(通过 Amazon Bedrock) |
是(通过 Amazon Bedrock) |
是(通过 Amazon Bedrock) |
是(通过 Amazon Bedrock) |
是(通过 Amazon Bedrock) |
扩展 |
自动扩展(Aurora 无服务器) |
自动缩放图表 |
自动无服务器 |
自动(数十亿个向量) |
自动缩放 pod |
自动扩展集群 |
查询性能 |
关系或向量为高 |
图形向量的值很高 |
高 |
中等(延迟 100 毫秒或更长) |
非常高 |
非常高 |
最大向量 |
数百万(取决于实例) |
数十亿 |
数十亿 |
每个指数 20 亿美元 |
数十亿 |
数百万(依赖内存) |
附加功能 |
SQL 查询、ACID 事务 |
图形算法、遍历 |
全文搜索、分析 |
Amazon S3 生命周期,分层 |
元数据筛选、命名空间 |
Redis 数据结构,缓存 |
成本优化 |
中等(Aurora 无服务器) |
中等(容量单位) |
高(无服务器, pay-per-use) |
非常高(最多可节省 90%) |
中等(基于 Pod 的定价) |
低(内存溢价) |
适用于 |
混合 SQL/vector 工作负载 |
互联知识图表 |
带矢量搜索的全文 |
长期、不经常访问的向量 |
大规模实时矢量搜索 |
超低延迟需求 |
理想的查询模式 |
混合 SQL 和向量查询 |
使用向量进行图遍历 |
使用分析进行频繁搜索 |
不频繁检索(几分钟到几小时) |
高频实时查询 |
每秒数百万个请求 |
使用 Amazon Bedrock 进行设置 |
简单(由 Amazon Bedrock 管理) |
简单(由 Amazon Bedrock 管理) |
简单(由 Amazon Bedrock 管理) |
简单(由 Amazon Bedrock 管理) |
简单(由 Amazon Bedrock 管理) |
简单(由 Amazon Bedrock 管理) |
数据驻留 |
AWS 区域 |
AWS 区域 |
AWS 区域 |
AWS 区域 |
多云(AWS 和其他) |
多云(AWS 和其他) |
定价模式 |
实例小时数和存储空间 |
容量单位和存储空间 |
计算和存储(无服务器) |
存储、查询和传输 |
Pod 使用时间和存储空间 |
节点使用时间和存储空间 |
在个人选项和托管选项之间进行选择
考虑 |
选择单个向量 DB |
选择 Amazon Bedrock 知识库(托管) |
|---|---|---|
RAG 的实现 |
你想完全控制 RAG 管道 |
你想要完全托管的 RAG,只需最少的设置 |
自定义 |
您需要自定义检索逻辑和预处理 |
标准 RAG 图案可满足您的需求 |
现有基础架构 |
您已经部署了数据库 |
您正在重新开始,或者想要简化管理 |
团队专业知识 |
您的团队拥有数据库管理专业知识 |
您更愿意关注应用程序逻辑,而不是基础架构 |
集成复杂性 |
您需要与现有系统进行深度集成 |
你想快速与 Amazon Bedrock 模型集成 |
运营开销 |
您可以管理数据库操作 |
你 AWS 想处理操作 |
成本结构 |
您更喜欢直接数据库定价 |
你更喜欢统一的 Amazon Bedrock 定价 |
是时候上市了 |
你有时间进行自定义实现 |
你需要快速部署 |