Salva spazio di archiviazione utilizzando una fonte derivata - OpenSearch Servizio Amazon

Le traduzioni sono generate tramite traduzione automatica. In caso di conflitto tra il contenuto di una traduzione e la versione originale in Inglese, quest'ultima prevarrà.

Salva spazio di archiviazione utilizzando una fonte derivata

Per impostazione predefinita, OpenSearch Serverless archivia ogni documento importato nel _source campo, che contiene il corpo del documento JSON originale, e indicizza i singoli campi per la ricerca. Sebbene il _source campo non sia ricercabile, viene mantenuto in modo da poter restituire il documento completo durante l'esecuzione di richieste di recupero, come get e search. Quando la fonte derivata è abilitata, OpenSearch Serverless salta la memorizzazione del _source campo e lo ricostruisce invece dinamicamente su richiesta, ad esempio durante le operazioni di ricerca, get, mget, reindex o aggiornamento. L'utilizzo dell'impostazione della fonte derivata può ridurre l'utilizzo dello storage fino al 50%.

Configurazione

Per configurare la fonte derivata per il tuo indice, crea l'indice utilizzando l'index.derived_source.enabledimpostazione:

PUT my-index1 { "settings": { "index": { "derived_source": { "enabled": true } } } }

Considerazioni importanti

  • Sono supportati solo alcuni tipi di campo. Per un elenco dei campi e delle limitazioni supportati, consulta la OpenSearch documentazione. Se crei un indice con origine derivata e un campo non supportato, la creazione dell'indice avrà esito negativo. Se si tenta di importare un documento con un campo non supportato in un indice derivato abilitato ai sorgenti, l'importazione avrà esito negativo. Utilizzate questa funzionalità solo quando conoscete i tipi di campo che verranno aggiunti all'indice.

  • L'impostazione index.derived_source.enabled è statica. Questa impostazione non può essere modificata dopo la creazione dell'indice.

Limitazioni relative alle risposte alle interrogazioni

Quando l'origine derivata è abilitata, impone alcune limitazioni al modo in cui le risposte alle query vengono generate e restituite.

  • I campi data con più formati specificati utilizzano sempre il primo formato dell'elenco per tutti i documenti richiesti, indipendentemente dal formato originale importato.

  • I valori Geopoint vengono restituiti in un {"lat": lat_val, "lon": lon_val} formato fisso e possono perdere una certa precisione.

  • Gli array multivalore possono essere ordinati e i campi di parole chiave possono essere deduplicati.

Per maggiori dettagli, consulta il blog. OpenSearch

Analisi comparativa delle prestazioni

Sulla base di test di benchmark con il set di dati nyc_taxi, la fonte derivata ha ottenuto una riduzione del 58% della dimensione dell'indice rispetto al valore di base.

Metrica Fonte derivata
Riduzione delle dimensioni dell'indice 58,3%
Modifica del throughput di indicizzazione 3,7%
Indicizzazione della modifica della latenza p90 6,9%
Miglioramento della latenza di Match-all Query p90 19%
Miglioramento della latenza di Range Query p90 -18,8%
Quantità di distanza (p90 Agg): miglioramento della latenza -7,3%

Per maggiori dettagli, consulta il OpenSearch blog.