Flujo de datos - AWS Guía prescriptiva

Las traducciones son generadas a través de traducción automática. En caso de conflicto entre la traducción y la version original de inglés, prevalecerá la version en inglés.

Flujo de datos

El área prioritaria del flujo de datos incluye las tres áreas siguientes:

  • Ingesta de datos

  • Conservación de los datos

  • Estrategia de migración de datos

Ingesta de datos

La ingesta de datos se centra en cómo ingresar datos en su dominio de Amazon OpenSearch Service. Es fundamental conocer a fondo los formatos y los orígenes de los datos a la hora de elegir el marco de ingesta adecuado para OpenSearch.

Hay muchas formas diferentes de crear o modernizar el diseño de ingesta. Existen muchas herramientas de código abierto para crear un canal de ingesta autoadministrado. OpenSearch Service admite la integración con Fluentd, Logstash u OpenSearch Data Prepper. Estas herramientas son populares entre la mayoría de los desarrolladores de soluciones de análisis de registros. Puede implementar estas herramientas en una instancia de Amazon EC2, Amazon Elastic Kubernetes Service (Amazon EKS) o en las instalaciones. Tanto Logstash como Fluentd admiten dominios de Amazon OpenSearch Service como destino de salida. Sin embargo, esto requerirá que mantenga, parchee, pruebe y mantenga actualizadas las versiones del software Fluentd o Logstash.

Para reducir la sobrecarga operativa, puede utilizar uno de los servicios de AWS administrados que admiten la integración con Amazon OpenSearch Service. Por ejemplo, Amazon OpenSearch Ingestion es un recopilador de datos sin servidor completamente administrado que proporciona datos de registro, métricas y rastreo en tiempo real a los dominios de Amazon OpenSearch Service. Con OpenSearch Ingestion, ya no tendrá que usar soluciones de terceros, como Logstash o Jaeger, para incorporar datos en sus dominios de OpenSearch Service. Usted configura sus productores de datos para enviar datos a OpenSearch Ingestion. A continuación, entrega automáticamente los datos al dominio o la colección que especifique. También puede configurar OpenSearch Ingestion para transformar los datos antes de entregarlos.

Otra opción es Amazon Data Firehose, que es un servicio completamente administrado que permite una canalización de ingesta sin servidor. Firehose proporciona una forma segura de ingerir, transformar y entregar datos de streaming a los dominios de Amazon OpenSearch Service. Se escala automáticamente para adaptarse al rendimiento de los datos y no precisa de ninguna administración continua. Firehose también puede transformar los registros entrantes utilizando AWS Lambda, comprimiendo y agrupando los datos antes de cargarlos en su dominio de OpenSearch Service.

Con un servicio administrado, puede retirar su canalización de ingesta de datos existente o puede aumentar su configuración actual para reducir la sobrecarga operativa.

La planificación de la migración es un buen momento para evaluar si su proceso de ingesta actual cumple con las necesidades de los casos de uso actuales y futuros. Si va a migrar desde un clúster autoadministrado de Elasticsearch u OpenSearch, su proceso de ingesta debería permitir el intercambio de los puntos de conexión del clúster actual al dominio de Amazon OpenSearch Service con un mínimo de actualizaciones de la biblioteca de clientes.

Conservación de los datos

Cuando planifique la ingesta y el almacenamiento de datos, asegúrese de planificar y acordar la retención de datos. Para los casos de uso de análisis de registros, es fundamental que haya creado las políticas adecuadas en su dominio para retirar los datos históricos. Al cambiar de una arquitectura existente basada en máquinas virtuales tanto en las instalaciones y como en la nube, podría utilizar un tipo de instancia concreto para todos los nodos de datos. Los nodos de datos tienen la misma CPU, memoria y perfil de almacenamiento. La mayoría de los clientes configurarían un almacenamiento de alto rendimiento para satisfacer sus requisitos de indexación de alta velocidad. Esta arquitectura de perfil de almacenamiento singular se denomina arquitectura de solo nodo caliente o solo en caliente. La arquitectura solo en caliente combina el almacenamiento con la computación, lo que implica que es necesario agregar nodos de computación si sus necesidades de almacenamiento aumentan.

Para separar el almacenamiento de la computación, Amazon OpenSearch Service ofrece el nivel de almacenamiento UltraWarm. UltraWarm proporciona una forma rentable de almacenar datos de solo lectura en Amazon OpenSearch Service, pues proporciona nodos que pueden almacenar un mayor volumen de datos que los nodos de datos tradicionales.

Durante la planificación, decida los requisitos de retención y procesamiento de datos. Para reducir el costo de su solución actual, use el nivel UltraWarm. Identifique el requisito de retención de sus datos. A continuación, cree políticas de administración del estado de los índices para pasar los datos de calientes a templados, o bien para eliminarlos automáticamente del dominio cuando no los necesite. Esto también ayuda a garantizar que su dominio no se quede sin espacio de almacenamiento.

Enfoques de migración de datos

Durante la fase de planificación, es fundamental que se decida por una estrategia de migración de datos concreta. Su estrategia de migración de datos determina cómo mover los datos que se encuentran en su almacén de datos actual al almacén de destino sin ningún tipo de interrupción. Los detalles del procedimiento de estas estrategias se describen en la sección Fase 4: migración de datos, que es cuando se implementa la estrategia.

En esta sección, se describen diferentes formas y patrones que puede utilizar para migrar un clúster de Elasticsearch u OpenSearch a Amazon OpenSearch Service. Al elegir un patrón, tenga en cuenta la siguiente lista de factores (la lista no es exhaustiva):

  • Tanto si desea copiar los datos de un clúster autoadministrado existente como si va a reconstruirlos a partir del origen de datos original (archivos de registro, base de datos del catálogo de productos).

  • Compatibilidad de versiones del clúster de Elasticsearch u OpenSearch de origen y el dominio de Amazon OpenSearch Service de destino.

  • Las aplicaciones y los servicios dependen del clúster de Elasticsearch u OpenSearch.

  • El plazo disponible para la migración.

  • El volumen de datos indexados en su entorno actual.

Creación a partir de una instantánea

Las instantáneas son una forma popular de migrar desde un clúster de Elasticsearch autoadministrado a Amazon OpenSearch Service. Las instantáneas proporcionan una forma de hacer copias de seguridad de sus datos de OpenSearch o Elasticsearch mediante un servicio de almacenamiento duradero como Amazon S3. Con esta estrategia, crea una instantánea de su entorno actual de Elasticsearch u OpenSearch y la restaura en el entorno de Amazon OpenSearch Service de destino. Tras restaurar la instantánea, puede configurar la aplicación para que apunte al nuevo entorno. Esta solución es más rápida en las siguientes situaciones:

  • El origen y el destino son compatibles.

  • El clúster existente contiene un gran volumen de datos indexados, cuya reindexación puede llevar mucho tiempo.

  • Los datos de origen no están disponibles para volver a indexarlos.

Para obtener información adicional, consulte Consideraciones sobre las instantáneas en la sección Fase 4: migración de datos.

Creación a partir del origen

Con esta estrategia, no moverá los datos de su clúster actual de Elasticsearch o OpenSearch. En su lugar, debe volver a cargar los datos directamente del registro u origen del catálogo de productos al dominio de Amazon OpenSearch Service de destino. Por lo general, esto se hace con pequeños cambios en las canalizaciones de ingesta de datos existentes. En el caso de uso de análisis de registros, la creación a partir del origen también puede requerir volver a cargar los registros históricos de los orígenes al nuevo entorno de OpenSearch Service. En los casos de uso de búsqueda, es posible que tenga que volver a cargar todo el catálogo de productos y el contenido en el nuevo dominio de Amazon OpenSearch Service. Esta estrategia se puede utilizar en las siguientes situaciones:

  • Las versiones de los entornos de origen y destino no son compatibles con la restauración de instantáneas.

  • Desea cambiar el modelo de datos en el entorno de destino como parte de la migración.

  • Quiere pasar a la versión más reciente de Amazon OpenSearch Service para evitar actualizaciones sucesivas y abordar los cambios importantes de una sola vez. Esta puede ser una buena idea si administra por cuenta propia una versión relativamente antigua (5.x o anterior) de Elasticsearch.

  • Puede cambiar su estrategia de indexación. Por ejemplo, en lugar de rotar índices todos los días, puede rotarlos todos los meses en el nuevo entorno.

Para obtener información sobre las opciones de creación a partir del origen, consulte 2. Creación a partir del origen en la sección Fase 4: migración de datos.

Reindexación de forma remota desde un entorno existente de Elasticsearch u OpenSearch

Esta estrategia utiliza la API de reindexación remota de Amazon OpenSearch Service. Con la reindexación remota, puede copiar los datos directamente de su clúster de Elasticsearch u OpenSearch existente en las instalaciones o en la nube a su dominio de Amazon OpenSearch Service. Puede crear una automatización que mantenga los datos sincronizados entre las dos ubicaciones del entorno hasta realizar la transferencia al entorno de destino.

Uso de herramientas de migración de datos de código abierto

Hay varias herramientas de código abierto disponibles para migrar datos de su entorno de Elasticsearch existente a su entorno de Amazon OpenSearch de destino. Un ejemplo de ello es la herramienta Logstash. Puede usar la herramienta Logstash para extraer datos de un clúster de Elasticsearch u OpenSearch y copiarlos en el dominio de Amazon OpenSearch Service.

Le recomendamos que evalúe todas sus opciones y opte por la que le resulte más cómoda. Para asegurarse de que la estrategia seleccionada sea infalible, pruebe todas las herramientas y la automatización durante la fase de PoC. Para obtener detalles y una guía paso a paso sobre cómo implementar estas estrategias, consulte la sección Fase 4: migración de datos.