Uso de Managed Service para Apache Flink Uso de Kafka Connect

Amazon MSK

Uso de Managed Service para Apache Flink para enviar datos de Amazon MSK a Timestream para LiveAnalytics

Puede enviar datos de Amazon MSK a Timestream mediante la creación de un conector de datos similar al conector de datos de ejemplo Timestream de Managed Service para Apache Flink. Para obtener más información, consulte Amazon Managed Service para Apache Flink.

Uso de Kafka Connect para enviar datos de Amazon MSK a Timestream para LiveAnalytics

Puede usar Kafka Connect para incorporar sus datos de serie temporal de Amazon MSK directamente a Timestream para LiveAnalytics.

Hemos creado un ejemplo de conector Kafka Sink para Timestream. También creamos un ejemplo de plan de pruebas de Apache jMeter para publicar datos sobre un tema de Kafka, de modo que los datos puedan fluir desde el tema a través del conector Timestream de Kafka Sink hasta una tabla de Timestream para LiveAnalytics. Todos estos artefactos están disponibles en GitHub.

nota

Java 11 es la versión recomendada para usar el conector de Kafka Sink de Timestream. Si tiene varias versiones de Java, asegúrese de exportar Java 11 a la variable de entorno JAVA_HOME.

Creación de una aplicación de muestra

Para comenzar, siga el procedimiento que se encuentra a continuación.

En Timestream para LiveAnalytics, cree una base de datos con el nombre kafkastream.

Consulte el procedimiento Creación de una base de datos de para obtener las instrucciones detalladas.
En Timestream para LiveAnalytics, cree una tabla con el nombre purchase_history.

Consulte el procedimiento Creación de una tabla para obtener las instrucciones detalladas.
Siga las instrucciones incluidas en para crear lo siguiente: , y .
- Un clúster Amazon MSK
- Una instancia de Amazon EC2 que está configurada como una máquina cliente de producción de Kafka
- Un tema de Kafka
Consulte los requisitos previos del proyecto kafka_ingestor para obtener instrucciones detalladas.
Clone el repositorio del conector de Timestream Kafka Sink.

Consulte Cómo clonar un repositorio en GitHub para obtener instrucciones detalladas.
Compile el código del complemento.

Consulte Conector: crear desde el origen en GitHub para obtener instrucciones detalladas.
Cargue los siguientes archivos en un bucket de S3: siga las instrucciones que se describen en .
- El archivo jar (kafka-connector-timestream->VERSION<-jar-with-dependencies.jar) del directorio /target.
- El archivo de esquema json de ejemplo, purchase_history.json.
Consulte Carga de objetos en la Guía del usuario de Amazon S3 para obtener instrucciones detalladas.
Cree dos puntos de conexión de VPC. El conector de MSK utilizaría estos puntos de conexión para acceder a los recursos mediante AWS PrivateLink.
- Uno para acceder al bucket de Amazon S3.
- Uno para acceder a la tabla de Timestream para LiveAnalytics.
Consulte Puntos de conexión de VPC para obtener instrucciones detalladas.
Cree un complemento personalizado con el archivo jar cargado.

Consulte Complementos en la Guía para desarrolladores de Amazon MSK a fin de obtener instrucciones detalladas.
Cree una configuración de proceso de trabajo personalizada con el contenido de JSON descrito en los Parámetros de configuración de trabajadores, según las instrucciones que se describen en

Consulte Crear una configuración de proceso de trabajo personalizada en la Guía para desarrolladores de Amazon MSK a fin de obtener instrucciones detalladas.
Cree un rol de IAM de ejecución de servicios.

Consulte Rol de servicio de IAM para obtener instrucciones detalladas.
Cree un conector de Amazon MSK con el complemento personalizado, la configuración de proceso de trabajo personalizada y el rol de IAM de ejecución de servicios que se crearon en los pasos anteriores y con la Configuración del conector de muestra.

Consulte Crear un conector en la Guía para desarrolladores de Amazon MSK a fin de obtener instrucciones detalladas.

Asegúrese de actualizar los valores de los siguientes parámetros de configuración con los valores que correspondan. Consulte los parámetros de configuración del conector para obtener más información.
- aws.region
- timestream.schema.s3.bucket.name
- timestream.ingestion.endpoint
La creación del conector tarda entre 5 y 10 minutos en completarse. La canalización está lista cuando el estado cambia a Running.
Publique una transmisión continua de mensajes para escribir datos sobre el tema de Kafka creado.

Consulte Cómo utilizarlo para obtener instrucciones detalladas.
Ejecute una o más consultas para asegurarse de que los datos se envían de Amazon MSK a MSK Connect a la tabla Timestream para LiveAnalytics.

Consulte el procedimiento Ejecutar una consulta para obtener las instrucciones detalladas.

Recursos adicionales

En el blog, Ingesta de datos sin servidor en tiempo real desde sus clústeres de Kafka a Timestream para LiveAnalytics mediante Kafka Connect, se explica la configuración de una canalización integral mediante el conector de Kafka Sink de Timestream para LiveAnalytics, empezando por una máquina cliente de producción de Kafka que utiliza el plan de pruebas de Apache jMeter para publicar miles de mensajes de muestra en un tema de Kafka y verificar los registros ingeridos en una tabla de Timestream para LiveAnalytics.

Aviso JavaScript está desactivado o no está disponible en su navegador.

Para utilizar la documentación de AWS, debe estar habilitado JavaScript. Para obtener más información, consulte las páginas de ayuda de su navegador.

Convenciones del documento

Amazon MQ

Amazon Quick Suite