As traduções são geradas por tradução automática. Em caso de conflito entre o conteúdo da tradução e da versão original em inglês, a versão em inglês prevalecerá.
Consultando diretamente os dados do Amazon S3 no Serviço OpenSearch
Esta seção o guiará pelo processo de criação e configuração de uma integração de fonte de dados no Amazon OpenSearch Service, permitindo que você consulte e analise com eficiência seus dados armazenados no Amazon S3.
Nas páginas a seguir, você aprenderá a configurar uma fonte de dados de consulta direta do Amazon S3, navegar pelos pré-requisitos necessários e seguir os step-by-step procedimentos usando a API e a Service API. Console de gerenciamento da AWS OpenSearch Também aborda as próximas etapas importantes, incluindo mapeamento de AWS Glue Data Catalog funções e configuração de controles de acesso em OpenSearch painéis.
Tópicos
Preços
O Amazon OpenSearch Service oferece preços de Unidade OpenSearch de Computação (OCU) para consultas diretas do Amazon S3. Ao executar consultas diretas, você incorre em cobranças OCUs por hora, listadas como tipo de uso de DirectQuery OCU em sua fatura. Você também incorrerá em cobranças separadas do Amazon S3 pelo armazenamento de dados.
Existem dois tipos de consultas diretas: consultas interativas e consultas de visão indexada.
-
As consultas interativas são usadas para preencher o seletor de dados e realizar análises em seus dados no Amazon S3. Quando você executa uma nova consulta a partir do Discover, o OpenSearch Service inicia uma nova sessão que dura no mínimo três minutos. OpenSearch O serviço mantém essa sessão ativa para garantir que as consultas subsequentes sejam executadas rapidamente.
-
As consultas de visualização indexada usam computação para manter visualizações indexadas no Serviço. OpenSearch Essas consultas geralmente demoram mais porque ingerem uma quantidade variável de dados em um índice nomeado. Para fontes de dados do Amazon S3, os dados indexados são armazenados em um domínio com base no tipo de instância adquirido.
Para obter mais informações, consulte as seções Direct Query e Serverless no Amazon OpenSearch Service
Limitações
As seguintes limitações se aplicam às consultas diretas no Amazon S3:
-
A consulta direta para S3 está disponível somente em domínios OpenSearch de serviço que executam a OpenSearch versão 2.13 ou posterior e requer acesso a. AWS Glue Data Catalog AWS Glue Data Catalog As tabelas existentes devem ser recriadas usando SQL no OpenSearch Query Workbench.
-
A consulta direta para S3 exige que você especifique um bucket de ponto de verificação no Amazon S3. Esse bucket mantém o estado das visões indexadas, incluindo o horário da última atualização e os últimos dados ingeridos.
-
Seu OpenSearch domínio e AWS Glue Data Catalog deve estar no mesmo Conta da AWS. Seu bucket do S3 pode estar em uma conta diferente (requer que a condição seja adicionada à sua política do IAM), mas deve estar no Região da AWS mesmo que seu domínio.
-
OpenSearch As consultas diretas de serviço com o S3 oferecem suporte somente às tabelas do Spark geradas a partir do Query Workbench. As tabelas geradas no Athena AWS Glue Data Catalog ou no Athena não são compatíveis com o streaming do Spark, que é necessário para manter as visualizações indexadas.
-
OpenSearch os tipos de instância têm limitações de carga útil de rede de 10 MiB ou 100 MiB, dependendo do tipo de instância específico que você escolher.
-
Alguns tipos de dados não são compatíveis. Os tipos de dados compatíveis estão limitados a Parquet, CSV e JSON.
-
Se a estrutura de seus dados mudar com o tempo, você precisará atualizar suas visualizações ou out-of-the-box integrações indexadas para considerar as mudanças na estrutura de dados.
-
AWS CloudFormation os modelos ainda não são compatíveis.
-
OpenSearch As instruções SQL e OpenSearch PPL têm limitações diferentes ao trabalhar com OpenSearch índices em comparação com o uso de consulta direta. A consulta direta oferece suporte a comandos avançados JOINs, como subconsultas e pesquisas, enquanto o suporte a esses comandos em OpenSearch índices é limitado ou inexistente. Para obter mais informações, consulte Comandos SQL e PPL compatíveis.
Recomendações
Recomendamos o seguinte ao usar consultas diretas no Amazon S3:
-
Ingira dados no Amazon S3 usando formatos de partição de ano, mês, dia e hora para acelerar as consultas.
-
Ao criar índices ignorados, use filtros Bloom para campos com alta cardinalidade e min/max índices para campos com grandes intervalos de valores. Para campos de alta cardinalidade, considere usar uma abordagem baseada em valores para melhorar a eficiência das consultas.
-
Use o Index State Management para manter o armazenamento de visões materializadas e índices abrangentes.
-
Use a função
COALESCE SQLpara lidar com colunas ausentes e garantir o retorno dos resultados. -
Use limites em suas consultas para garantir que você não esteja recuperando muitos dados.
Cotas
Cada vez que você inicia uma consulta em uma fonte de dados do Amazon S3 OpenSearch , o Service abre uma sessão e a mantém ativa por pelo menos três minutos. Isso reduz a latência da consulta, eliminando o tempo gasto para iniciar a sessão nas consultas subsequentes.
| Description | Máximo | Pode substituir |
|---|---|---|
| Conexões por domínio | 10 | Sim |
| Fontes de dados por domínio | 20 | Sim |
| Índices por domínio | 5 | Sim |
| Sessões simultâneas por fonte de dados | 10 | Sim |
| Máximo de OCU por consulta | 60 | Sim |
| Tempo máximo de execução da consulta (minutos) | 30 | Sim |
| Máximo OCUs por aceleração | 20 | Sim |
| Armazenamento temporário máximo | 20 | Sim |
Suportado Regiões da AWS
O seguinte Regiões da AWS é compatível com consultas diretas no Amazon S3:
-
Ásia-Pacífico (Hong Kong)
-
Ásia-Pacífico (Mumbai)
-
Ásia-Pacífico (Seul)
-
Ásia-Pacífico (Singapura)
-
Ásia-Pacífico (Sydney)
-
Ásia-Pacífico (Tóquio)
-
Canadá (Central)
-
Europa (Frankfurt)
-
Europa (Irlanda)
-
Europa (Estocolmo)
-
Leste dos EUA (Norte da Virgínia)
-
Leste dos EUA (Ohio)
-
Oeste dos EUA (Oregon)