Ingesta de datos Retención de datos Enfoques de migración de datos

Flujo de datos

El área prioritaria del flujo de datos incluye las tres áreas siguientes:

Ingesta de datos
Retención de datos
Estrategia de migración de datos

Ingesta de datos

La ingesta de datos se centra en cómo introducir datos en tu dominio de Amazon OpenSearch Service. Un conocimiento profundo de las fuentes y los formatos de los datos es fundamental a la hora de elegir el marco de ingestión adecuado para ello. OpenSearch

Hay muchas formas diferentes de crear o modernizar el diseño de ingesta. Existen muchas herramientas de código abierto para crear un canal de ingestión autogestionado. OpenSearch El servicio admite la integración con Fluentd, Logstash o Data Prepper. OpenSearch Estas herramientas son populares entre la mayoría de los desarrolladores de soluciones de análisis de registros. Puede implementar estas herramientas en una instancia de Amazon EC2, Amazon Elastic Kubernetes Service (Amazon EKS) o en las instalaciones. Tanto Logstash como Fluentd admiten dominios de OpenSearch Amazon Service como destino de salida. Sin embargo, esto requerirá que mantenga, parchee, pruebe y mantenga actualizadas las versiones del software Fluentd o Logstash.

Para reducir los gastos operativos, puede utilizar uno de los servicios AWS gestionados que admiten la integración con Amazon OpenSearch Service. Por ejemplo, Amazon OpenSearch Ingestion es un recopilador de datos sin servidor y totalmente gestionado que proporciona datos de registro, métricas y rastreo en tiempo real a los dominios de Amazon OpenSearch Service. Con OpenSearch Ingestion, ya no necesitará utilizar soluciones de terceros, como Logstash o Jaeger, para introducir datos en sus dominios de servicio. OpenSearch Usted configura sus generadores de datos para que envíen datos a Ingestion. OpenSearch A continuación, entrega automáticamente los datos al dominio o la colección que especifique. También puede configurar OpenSearch Ingestion para transformar los datos antes de entregarlos.

Otra opción es Amazon Data Firehose, que es un servicio completamente administrado que permite una canalización de ingesta sin servidor. Firehose proporciona una forma segura de ingerir, transformar y entregar datos de streaming a los dominios de Amazon OpenSearch Service. Se escala automáticamente para adaptarse al rendimiento de los datos y no precisa de ninguna administración continua. Firehose también puede transformar los registros entrantes utilizando AWS Lambda, comprimiendo y agrupando los datos antes de cargarlos en su dominio de OpenSearch servicio.

Con un servicio administrado, puede retirar su canalización de ingesta de datos existente o puede aumentar su configuración actual para reducir la sobrecarga operativa.

La planificación de la migración es un buen momento para evaluar si su proceso de ingesta actual cumple con las necesidades de los casos de uso actuales y futuros. Si vas a migrar desde un OpenSearch clúster o un Elasticsearch autogestionados, tu proceso de ingestión debería permitir el intercambio de los puntos de enlace del clúster actual al dominio de Amazon OpenSearch Service con un mínimo de actualizaciones de la biblioteca de clientes.

Retención de datos

Cuando planifique la ingesta y el almacenamiento de datos, asegúrese de planificar y acordar la retención de datos. Para los casos de uso de análisis de registros, es fundamental que haya creado las políticas adecuadas en su dominio para retirar los datos históricos. Al cambiar de una arquitectura existente basada en máquinas virtuales tanto en las instalaciones y como en la nube, podría utilizar un tipo de instancia concreto para todos los nodos de datos. Los nodos de datos tienen la misma CPU, memoria y perfil de almacenamiento. La mayoría de los clientes configurarían un almacenamiento de alto rendimiento para satisfacer sus requisitos de indexación de alta velocidad. Esta arquitectura de perfil de almacenamiento singular se denomina arquitectura de solo nodo caliente o solo en caliente. La arquitectura solo en caliente combina el almacenamiento con la computación, lo que implica que es necesario agregar nodos de computación si sus necesidades de almacenamiento aumentan.

Para desvincular el almacenamiento de la computación, Amazon OpenSearch Service ofrece el nivel UltraWarm de almacenamiento. UltraWarm proporciona una forma rentable de almacenar datos de solo lectura en Amazon OpenSearch Service, ya que proporciona nodos que pueden alojar un volumen de datos mayor que los nodos de datos tradicionales.

Durante la planificación, decida los requisitos de retención y procesamiento de datos. Para reducir el costo de su solución actual, aproveche el UltraWarm nivel. Identifique el requisito de retención de sus datos. A continuación, cree políticas de administración del estado de los índices para pasar los datos de calientes a templados, o bien para eliminarlos automáticamente del dominio cuando no los necesite. Esto también ayuda a garantizar que su dominio no se quede sin espacio de almacenamiento.

Enfoques de migración de datos

Durante la fase de planificación, es fundamental que se decida por una estrategia de migración de datos concreta. Su estrategia de migración de datos determina cómo mover los datos que se encuentran en su almacén de datos actual al almacén de destino sin ningún tipo de interrupción. Los detalles del procedimiento de estas estrategias se describen en la sección Fase 4: migración de datos, que es cuando se implementa la estrategia.

En esta sección, se describen diferentes formas y patrones que puedes usar para migrar un OpenSearch clúster o un Elasticsearch a Amazon OpenSearch Service. Al elegir un patrón, tenga en cuenta la siguiente lista de factores (la lista no es exhaustiva):

Tanto si desea copiar los datos de un clúster autoadministrado existente como si va a reconstruirlos a partir del origen de datos original (archivos de registro, base de datos del catálogo de productos).
Compatibilidad de versiones del OpenSearch clúster o Elasticsearch de origen y el dominio de Amazon OpenSearch Service de destino
Las aplicaciones y los servicios dependen del clúster o del Elasticsearch OpenSearch
El plazo disponible para la migración.
El volumen de datos indexados en su entorno actual.

Creación a partir de una instantánea

Las instantáneas son la forma más popular de migrar de un clúster de Elasticsearch autogestionado a Amazon Service. OpenSearch Las instantáneas proporcionan una forma de hacer copias de seguridad de sus datos OpenSearch o de Elasticsearch mediante un servicio de almacenamiento duradero como Amazon S3. Con este enfoque, usted toma una instantánea de su OpenSearch entorno o Elasticsearch actual y la restaura en el entorno de Amazon OpenSearch Service de destino. Tras restaurar la instantánea, puede configurar la aplicación para que apunte al nuevo entorno. Esta solución es más rápida en las siguientes situaciones:

El origen y el destino son compatibles.
El clúster existente contiene un gran volumen de datos indexados, cuya reindexación puede llevar mucho tiempo.
Los datos de origen no están disponibles para volver a indexarlos.

Para obtener información adicional, consulte Consideraciones sobre las instantáneas en la sección Fase 4: migración de datos.

Creación a partir del origen

Este enfoque implica que no vas a mover datos de tu clúster o Elasticsearch actual. OpenSearch En su lugar, recarga los datos directamente desde el registro o la fuente del catálogo de productos al dominio de Amazon OpenSearch Service de destino. Por lo general, esto se hace con pequeños cambios en las canalizaciones de ingesta de datos existentes. En el caso de uso del análisis de registros, la creación a partir de la fuente también puede requerir volver a cargar los registros históricos de sus fuentes al nuevo entorno de OpenSearch servicio. Para los casos de uso de búsquedas, es posible que tengas que volver a cargar todo el catálogo de productos y el contenido en el nuevo dominio de Amazon OpenSearch Service. Esta estrategia se puede utilizar en las siguientes situaciones:

Las versiones de los entornos de origen y destino no son compatibles con la restauración de instantáneas.
Desea cambiar el modelo de datos en el entorno de destino como parte de la migración.
Desea pasar a la versión más reciente de Amazon OpenSearch Service para evitar actualizaciones sucesivas y abordar los cambios importantes de una sola vez. Esta puede ser una buena idea si administra por cuenta propia una versión relativamente antigua (5.x o anterior) de Elasticsearch.
Puede cambiar su estrategia de indexación. Por ejemplo, en lugar de rotar índices todos los días, puede rotarlos todos los meses en el nuevo entorno.

Para obtener información sobre las opciones de creación a partir del origen, consulte 2. Creación a partir del origen en la sección Fase 4: migración de datos.

Reindexe de forma remota desde un entorno o Elasticsearch existente OpenSearch

Este enfoque utiliza la API de reindexación remota de Amazon OpenSearch Service. Con la reindexación remota, puedes copiar los datos directamente desde tu clúster o Elasticsearch local o basado en la nube OpenSearch a tu dominio de Amazon Service. OpenSearch Puede crear una automatización que mantenga los datos sincronizados entre las dos ubicaciones del entorno hasta realizar la transferencia al entorno de destino.

Uso de herramientas de migración de datos de código abierto

Hay varias herramientas de código abierto disponibles para migrar datos de tu entorno de Elasticsearch existente a tu entorno de Amazon OpenSearch de destino. Un ejemplo de ello es la herramienta Logstash. Puedes usar la utilidad Logstash para extraer datos de un OpenSearch clúster o de un Elasticsearch y copiarlos en el dominio de Amazon Service. OpenSearch

Le recomendamos que evalúe todas sus opciones y opte por la que le resulte más cómoda. Para asegurarse de que la estrategia seleccionada sea infalible, pruebe todas las herramientas y la automatización durante la fase de PoC. Para obtener detalles y step-by-step orientación sobre cómo implementar estos enfoques, consulte la sección Etapa 4: migración de datos.

Aviso JavaScript está desactivado o no está disponible en su navegador.

Para utilizar la documentación de AWS, debe estar habilitado JavaScript. Para obtener más información, consulte las páginas de ayuda de su navegador.

Convenciones del documento

Formación

Marcos de implementación