View a markdown version of this page

Comparação de bancos de dados vetoriais - AWS Orientação prescritiva

As traduções são geradas por tradução automática. Em caso de conflito entre o conteúdo da tradução e da versão original em inglês, a versão em inglês prevalecerá.

Comparação de bancos de dados vetoriais

AWS fornece várias abordagens para implementar recursos de pesquisa vetorial, desde bancos de dados vetoriais individuais até o Amazon Bedrock Knowledge Bases, que é um serviço totalmente gerenciado. Ao avaliar essas opções, as organizações devem considerar vários aspectos, incluindo arquitetura, escalabilidade, recursos de integração, características de desempenho e recursos de segurança.

Bancos de dados vetoriais individuais

A tabela a seguir fornece uma visão geral dos principais recursos de várias soluções AWS individuais de banco de dados vetoriais, com foco em suas arquiteturas, recursos de escalabilidade, integrações de fontes de dados e características de desempenho.

Recurso

Amazon Kendra

OpenSearch Serviço Amazon

Amazon RDS para SQLwith Postgre pgvector

Amazon DocumentDB

Amazon MemoryDB

Amazon Neptune Analytics

Amazon S3 Vectors

Caso de uso principal

Pesquisa corporativa e RAG

Pesquisa e análise distribuídas

Banco de dados relacional com suporte vetorial

Banco de dados de documentos com pesquisa vetorial

Pesquisa vetorial na memória em tempo real

Análise gráfica com pesquisa vetorial

Armazenamento vetorial com custo otimizado

Arquitetura

Totalmente gerenciado

Cluster distribuído

Banco de dados relacional

Orientado a documentos

Banco de dados na memória

Mecanismo de análise gráfica

Armazenamento de objetos sem servidor

Modelo de dados

Baseado em documentos

Documentos JSON

Tabelas relacionais

Documentos JSON

Valor-chave com JSON

Gráfico de propriedades

Armazenamento de objetos

Dimensões vetoriais

Gerenciado automaticamente

Até 16.000

Configurável

Até 2.000 (indexado); 16.000 (não indexado)

Até 32.768

Configurável

Até 4.096

Métodos de indexação

Automatico

NSW, FERTILIZAÇÃO IN VITRO

HNSW, IVFFlat

HNSW, IVFFlat

HNSW

Gráfico e vetor nativos

Automatico

Métricas de distância

Automatico

Cosseno, euclidiano, produto pontilhado

Cosseno, euclidiano, produto interno

Cosseno, euclidiano, produto pontilhado

Cosseno, euclidiano, produto interno

Cosseno, Euclidiano

Cosseno, Euclidiano

Latência da consulta

Inferior a um segundo

Menos de 10 ms (acelerado por GPU)

10-100 ms

Milissegundo

Submilissegundo

Inferior a um segundo

Menos de 100 ms

Modelo de escalabilidade

Automatico

Horizontal (adicionar nós)

Réplicas verticais e de leitura

Horizontal (adicionar instâncias)

Vertical e réplicas

Automatico

Automático (sem servidor)

Vetores máximos

Gerenciados

Bilhões (dependente do cluster)

Milhões (dependendo da instância)

Milhões por coleção

Milhões por banco de dados

Bilhões

2 bilhões por índice; 10.000 índices por bucket

Throughput

Alto

Muito alto (milhares de QPS)

Médio

Alto

Muito alto (milhões de solicitações por dia)

Alto

Médio (otimizado para consultas pouco frequentes)

Durabilidade de dados

99.999999999% (11 9s)

Configurável com réplicas

99,99% (Multi-AZ)

99,99% (Multi-AZ)

99,99% (Multi-AZ)

99,99%

99.999999999% (11 9s)

Modelo de consistência

Eventual

Eventual (configurável)

Forte (ÁCIDO)

Eventual

Forte

Forte

Forte

Recursos adicionais

40 ou mais conectores de dados, NLP

Pesquisa de texto completo, análises e painéis

Consultas SQL, transações ACID

Compatibilidade com a API MongoDB

Compatibilidade com a API Redis, armazenamento em cache

Algoritmos gráficos, travessias

Integração com o Amazon S3, políticas de ciclo de vida

Modelo de definição de preços

Pague por consulta e armazenamento

Horas de instância e armazenamento

Horas de instância e armazenamento

Horas de instância e armazenamento

Horas de instância e armazenamento

Unidades de capacidade e armazenamento

Armazenamento, consultas e transferência de dados

Otimização de custos

Baseado no uso

Instâncias reservadas, auto-scaling

Instâncias reservadas, Aurora sem servidor

Instâncias reservadas

Instâncias reservadas

Ajuste de escala automático

Economia de até 90% em comparação com produtos especializados DBs

Melhor para

Pesquisa corporativa com configuração mínima

Consultas de alto rendimento e baixa latência

SQL híbrido e cargas de trabalho vetoriais

Aplicativos compatíveis com MongoDB que precisam de vetores

Aplicativos em tempo real com latência ultrabaixa

GraphRag e gráficos de conhecimento

Armazenamento econômico e de longo prazo

Padrão de consulta ideal

Pesquisas corporativas frequentes

Consultas em tempo real de alta frequência

Consultas SQL e vetoriais mistas

Consultas de documentos com pesquisa semântica

Milhões de solicitações por dia

Travessias gráficas com pesquisa vetorial

Consultas pouco frequentes (minutos a horas)

Complexidade da configuração

Baixo (totalmente gerenciado)

Médio (configuração de cluster)

Médio (configuração de extensão)

Médio (configuração de cluster)

Médio (configuração de cluster)

Baixo (totalmente gerenciado)

Baixo (sem servidor)

É necessária a experiência da equipe

Mínimo

OpenSearch ou Elasticsearch

PostgreSQL, SQL

MongoDB

Redis

Bancos de dados gráficos

Amazon S3, conceitos vetoriais básicos

Serviço gerenciado — Bases de conhecimento Amazon Bedrock

O Amazon Bedrock Knowledge Bases fornece uma solução totalmente gerenciada com várias opções de armazenamento vetorial. A tabela a seguir compara essas opções de armazenamento.

Recurso

Vetor de imagem Aurora Postgre SQLwith

Análise do Neptune

OpenSearch Serviço sem servidor

Vetores do Amazon S3

Pinha

RedisEnterprise Nuvem

Caso de uso principal

Banco de dados relacional com RAG vetorial

Pesquisa vetorial baseada em gráficos para GraphRag

Gestão do conhecimento RAG

RAG vetorial com custo otimizado

Pesquisa vetorial de alto desempenho

Pesquisa vetorial na memória

Arquitetura

Relacional totalmente gerenciado

Análise gráfica totalmente gerenciada

Totalmente gerenciado sem servidor

Armazenamento de objetos sem servidor

Nuvem híbrida totalmente gerenciada

Totalmente gerenciado na memória

Modelo de dados

Tabelas relacionais

Gráfico de propriedades

Documentos JSON

Armazenamento de objetos

Vetores criados especificamente

Valor-chave com vetores

Armazenamento vetorial

Por meio da extensão pgvector

Vetores gráficos nativos

Através do OpenSearch motor

Armazenamento vetorial nativo do Amazon S3

Banco de dados de vetores nativos

Vetores na memória

Integração do Amazon Bedrock

Nativo

Nativo

Nativo

Nativo

Nativo

Nativo

Ingestão automática

Sim (via Amazon Bedrock)

Sim (via Amazon Bedrock)

Sim (via Amazon Bedrock)

Sim (via Amazon Bedrock)

Sim (via Amazon Bedrock)

Sim (via Amazon Bedrock)

Vetorização automática

Sim (via Amazon Bedrock)

Sim (via Amazon Bedrock)

Sim (via Amazon Bedrock)

Sim (via Amazon Bedrock)

Sim (via Amazon Bedrock)

Sim (via Amazon Bedrock)

Escalabilidade

Escalonamento automático (Aurora sem servidor)

Escalonamento automático de gráficos

Automático sem servidor

Automático (bilhões de vetores)

Pods de escalonamento automático

Clusters de escalabilidade automática

Performance da consulta

Alto para relacional ou vetorial

Alto para vetores gráficos

Alto

Médio (100 ms ou mais de latência)

Muito alto

Muito alto

Vetores máximos

Milhões (dependendo da instância)

Bilhões

Bilhões

2 bilhões por índice

Bilhões

Milhões (dependendo da memória)

Recursos adicionais

Consultas SQL, transações ACID

Algoritmos gráficos, travessias

Pesquisa de texto completo, análise

Ciclo de vida, hierarquização do Amazon S3

Filtragem de metadados, namespaces

Estruturas de dados Redis, armazenamento em cache

Otimização de custos

Moderado (Aurora Serverless)

Moderado (unidades de capacidade)

Alto (sem servidor,) pay-per-use

Muito alto (economia de até 90%)

Moderado (preços baseados em cápsulas)

Baixo (premium em memória)

Melhor para

Cargas de SQL/vector trabalho híbridas

Gráficos de conhecimento conectados

Texto completo com pesquisa vetorial

Vetores de acesso pouco frequente e de longo prazo

Pesquisa vetorial em tempo real em grande escala

Necessidades de latência ultrabaixa

Padrão de consulta ideal

Consultas SQL e vetoriais mistas

Travessias gráficas com vetores

Pesquisas frequentes com análises

Recuperação pouco frequente (minutos a horas)

Consultas em tempo real de alta frequência

Milhões de solicitações por segundo

Configuração com o Amazon Bedrock

Simple (gerenciado pela Amazon Bedrock)

Simple (gerenciado pela Amazon Bedrock)

Simple (gerenciado pela Amazon Bedrock)

Simple (gerenciado pela Amazon Bedrock)

Simple (gerenciado pela Amazon Bedrock)

Simple (gerenciado pela Amazon Bedrock)

Residência de dados

Regiões da AWS

Regiões da AWS

Regiões da AWS

Regiões da AWS

Multinuvem (AWS e outras)

Multinuvem (AWS e outras)

Modelo de definição de preços

Horas de instância e armazenamento

Unidades de capacidade e armazenamento

Computação e armazenamento (sem servidor)

Armazenamento, consultas e transferência

Horário de funcionamento e armazenamento da cápsula

Horas e armazenamento dos nós

Escolha entre opções individuais e gerenciadas

Consideração

Escolha um banco de dados vetorial individual

Escolha as bases de conhecimento Amazon Bedrock (gerenciadas)

Implementação do RAG

Você quer controle total sobre o pipeline RAG

Você quer um RAG totalmente gerenciado com configuração mínima

Personalização

Você precisa de lógica de recuperação e pré-processamento personalizados

Os padrões RAG padrão atendem às suas necessidades

Infraestrutura existente

Você já tem o banco de dados implantado

Você está começando do zero ou quer um gerenciamento simplificado

Experiência da equipe

Sua equipe tem experiência em administração de banco de dados

Você prefere se concentrar na lógica do aplicativo, não na infraestrutura

Complexidade de integração

Você precisa de uma integração profunda com os sistemas existentes

Você quer uma integração rápida com os modelos Amazon Bedrock

Sobrecarga operacional

Você pode gerenciar as operações do banco de dados

Você quer AWS lidar com as operações

Estrutura de custos

Você prefere preços diretos do banco de dados

Você prefere preços unificados do Amazon Bedrock

Hora de comercializar

Você tem tempo para uma implementação personalizada

Você precisa de uma implantação rápida