Ahorre almacenamiento mediante el uso de una fuente derivada - OpenSearch Servicio Amazon

Las traducciones son generadas a través de traducción automática. En caso de conflicto entre la traducción y la version original de inglés, prevalecerá la version en inglés.

Ahorre almacenamiento mediante el uso de una fuente derivada

De forma predeterminada, OpenSearch Serverless almacena cada documento ingerido en el _source campo, que contiene el cuerpo del documento JSON original, e indexa los campos individuales para su búsqueda. Si bien el _source campo no se puede buscar, se conserva para poder devolver el documento completo al ejecutar solicitudes de recuperación, como get y search. Cuando la fuente derivada está habilitada, OpenSearch Serverless omite el almacenamiento del _source campo y, en su lugar, lo reconstruye dinámicamente bajo demanda, por ejemplo, durante las operaciones de búsqueda, obtención, mget, reindexación o actualización. El uso de la configuración de fuente derivada puede reducir el uso del almacenamiento hasta en un 50%.

Configuración

Para configurar la fuente derivada para su índice, cree el índice con la siguiente index.derived_source.enabled configuración:

PUT my-index1 { "settings": { "index": { "derived_source": { "enabled": true } } } }

Consideraciones importantes

  • Solo se admiten ciertos tipos de campos. Para obtener una lista de los campos y limitaciones admitidos, consulta la OpenSearch documentación. Si crea un índice con una fuente derivada y un campo no compatible, no se podrá crear el índice. Si intenta ingerir un documento con un campo no compatible en un índice con código fuente derivado activado, la ingestión fallará. Utilice esta función solo cuando conozca los tipos de campos que se agregarán al índice.

  • La configuración index.derived_source.enabled es estática. Esto no se puede cambiar una vez creado el índice.

Limitaciones en las respuestas a las consultas

Cuando la fuente derivada está habilitada, se imponen ciertas limitaciones a la forma en que se generan y devuelven las respuestas a las consultas.

  • Los campos de fecha con varios formatos especificados utilizan siempre el primer formato de la lista para todos los documentos solicitados, independientemente del formato original introducido.

  • Los valores de los puntos geográficos se devuelven en un {"lat": lat_val, "lon": lon_val} formato fijo y pueden perder algo de precisión.

  • Las matrices con varios valores se pueden ordenar y los campos de palabras clave se pueden deduplicar.

Para obtener más información, consulte el blog. OpenSearch

Evaluación comparativa del rendimiento

Según las pruebas comparativas realizadas con el conjunto de datos nyc_taxi, la fuente derivada logró una reducción del 58% en el tamaño del índice en comparación con el valor inicial.

Métrica Fuente derivada
Reducción del tamaño del índice 58,3%
Cambio en el rendimiento de indexación 3,7%
Indexando el cambio de latencia del p90 6,9%
Mejora de la latencia de Match-all Query p90 19%
Mejora de la latencia de Range Query p90 -18,8%
Mejora de la latencia Agg de la cantidad de distancia p90 -7,3%

Para obtener más información, consulte el OpenSearch blog.