Economize armazenamento usando a fonte derivada - OpenSearch Serviço Amazon

As traduções são geradas por tradução automática. Em caso de conflito entre o conteúdo da tradução e da versão original em inglês, a versão em inglês prevalecerá.

Economize armazenamento usando a fonte derivada

Por padrão, o OpenSearch Serverless armazena cada documento ingerido no _source campo, que contém o corpo do documento JSON original e indexa campos individuais para pesquisa. Embora o _source campo não seja pesquisável, ele é mantido para que o documento completo possa ser retornado ao executar solicitações de busca, como get e search. Quando a fonte derivada é ativada, o OpenSearch Serverless ignora o armazenamento do _source campo e, em vez disso, o reconstrói dinamicamente sob demanda — por exemplo, durante operações de pesquisa, obtenção, mget, reindexação ou atualização. Usar a configuração de origem derivada pode reduzir o uso do armazenamento em até 50%.

Configuração

Para configurar a fonte derivada para seu índice, crie o índice usando a index.derived_source.enabled configuração:

PUT my-index1 { "settings": { "index": { "derived_source": { "enabled": true } } } }

Considerações importantes

  • Somente determinados tipos de campo são suportados. Para obter uma lista dos campos e limitações compatíveis, consulte a OpenSearch documentação. Se você criar um índice com fonte derivada e um campo sem suporte, a criação do índice falhará. Se você tentar ingerir um documento com um campo não suportado em um índice derivado ativado pela fonte, a ingestão falhará. Use esse recurso somente quando estiver ciente dos tipos de campo que serão adicionados ao seu índice.

  • A configuração index.derived_source.enabled é estática. Isso não pode ser alterado após a criação do índice.

Limitações nas respostas de consulta

Quando a fonte derivada está ativada, ela impõe certas limitações sobre como as respostas da consulta são geradas e retornadas.

  • Os campos de data com vários formatos especificados sempre usam o primeiro formato na lista para todos os documentos solicitados, independentemente do formato original ingerido.

  • Os valores dos pontos geográficos são retornados em um {"lat": lat_val, "lon": lon_val} formato fixo e podem perder alguma precisão.

  • As matrizes de vários valores podem ser classificadas e os campos de palavras-chave podem ser desduplicados.

Para obter mais detalhes, consulte o OpenSearch blog.

Avaliação comparativa de desempenho

Com base em testes de benchmark com o conjunto de dados nyc_taxi, a fonte derivada alcançou uma redução de 58% no tamanho do índice em comparação com a linha de base.

Métrica Fonte derivada
Redução do tamanho do índice 58,3%
Alteração da taxa de transferência de indexação 3,7%
Indexando a alteração da latência p90 6,9%
Melhoria da latência do Match-all Query p90 19%
Melhoria da latência do Range Query p90 -18,8%
Quantidade de distância p90 Agg (melhoria da latência) -7,3%

Para obter mais detalhes, consulte o OpenSearch blog.