Exportación de datos de Timestream a Amazon S3 - Amazon Timestream

Para obtener capacidades similares a las de Amazon Timestream, considere Amazon Timestream LiveAnalytics para InfluxDB. Ofrece una ingesta de datos simplificada y tiempos de respuesta a las consultas en milisegundos de un solo dígito para realizar análisis en tiempo real. Obtenga más información aquí.

Las traducciones son generadas a través de traducción automática. En caso de conflicto entre la traducción y la version original de inglés, prevalecerá la version en inglés.

Exportación de datos de Timestream a Amazon S3

Independientemente del servicio de destino de la migración, le recomendamos seguir las siguientes prácticas recomendadas para exportar su flujo temporal de LiveAnalytics datos a Amazon S3, creando una capa de almacenamiento intermedia duradera que sirva de base para la posterior ingesta específica de bases de datos.

Para exportar datos de forma fiable desde Timestream para LiveAnalytics tablas a Amazon S3, recomendamos utilizar la herramienta Timestream for LiveAnalytics Export, que utiliza la función Timestream UNLOAD, diseñada para exportaciones de datos a gran escala.

Timestream para la herramienta de exportación LiveAnalytics

Estrategia de fragmentación basada en el tiempo

La fragmentación basada en el tiempo es esencial a la hora de migrar grandes volúmenes de datos de serie temporal. Este enfoque divide el proceso de exportación en unidades administrables que se pueden procesar de forma independiente y volver a probarse en caso de fallo, lo que reduce considerablemente los riesgos de migración. Crea puntos de control para facilitar el seguimiento del progreso y añade la posibilidad de reanudarlo después de las interrupciones. En el caso de las organizaciones con una ingesta de datos continua, esto permite exportar los datos más recientes en intervalos de tiempo separados, lo que permite una mejor coordinación entre las operaciones en curso y la migración. La herramienta usa la fragmentación por día y almacena los datos de cada día con el prefijo de bucket de S3 para una administración eficiente. Además, la fragmentación puede basarse en horas, días, meses o años.

Supervisión de la migración

La herramienta ofrece una opción para capturar las estadísticas de migración en una tabla de DynamoDB mediante el rastreo de métricas como las configuraciones usadas, los registros exportados y otros puntos de datos para validar la integridad de la migración. Le recomendamos que supervise detenidamente estas métricas durante la migración y la validación. También puede usar el registro que se incluye en el script de orquestación para capturar las marcas de tiempo de ejecución, los límites de los fragmentos y cualquier condición de error que se encuentre. La herramienta también proporciona notificaciones de SNS si desea integrar el sistema descendente para tomar medidas en caso de fallo.

Recomendaciones y prácticas recomendadas

La herramienta Timestream para LiveAnalytics exportar proporciona una solución flexible y sólida para exportar datos a S3 con varias opciones de configuración adaptadas a los requisitos del sistema de destino. Si el destino es Timestream para InfluxDB, use el formato Parquet sin compresión para garantizar la compatibilidad con los scripts de ingesta. Para lograr un seguimiento y una supervisión óptimos, habilite el registro de DynamoDB y configure las notificaciones de SNS para recibir alertas sobre la finalización o los errores de exportación.

La herramienta aprovecha la función Timestream for LiveAnalytics UNLOAD y, al mismo tiempo, supera sus limitaciones de consulta al exportar automáticamente los datos en lotes en función del intervalo de tiempo especificado. Puede personalizar la partición de datos por hora, día, mes o año. El día es el valor predeterminado. Cada partición debe tener un tamaño inferior a aproximadamente 350 GB para evitar errores relacionados con la memoria, como que el cálculo de consultas supere la memoria máxima disponible. Por ejemplo, si los datos anuales superan los 350 GB, considere la posibilidad de usar particiones mensuales o incluso opciones más detalladas, como la partición diaria o por hora. Si elige la partición por hora y persiste el error “El cálculo de la consulta supera el máximo de memoria disponible”, puede reducir el Número de particiones y asegurarse de que las exportaciones se realizan correctamente.

La herramienta ofrece flexibilidad en el ámbito de la exportación, ya que le permite exportar una tabla individual, una base de datos completa o todas las bases de datos de la cuenta. Para obtener requisitos más especializados, como la exportación de varias bases de datos específicas, puede crear un contenedor personalizado en torno a esta automatización. Además, puede activar la opción de orden cronológico inverso si desea exportar primero los datos más recientes. Al reiniciar después de un error, puede continuar con la misma etiqueta de migración para mantener todos los archivos con el mismo prefijo de S3 u omitirla para crear archivos con un prefijo nuevo. Como la herramienta exporta los datos por lotes, si encuentra errores, le recomendamos que comience desde el lote fallido en lugar de reiniciar desde la hora de inicio original. Si no especifica una marca de tiempo de finalización, la herramienta usará automáticamente la marca de tiempo actual (UTC) para garantizar una exportación y una validación coherentes.

Comandos básicos

ejemplo : exportar una tabla con el registro de DynamoDB habilitado
python3.9 unload.py \ --export-table \ --database Demo \ --table Demo \ --start-time '2020-03-26 17:24:38' \ --enable-dynamodb_logger true
ejemplo : exportar toda la base de datos
python3.9 unload.py \ --export-database \ --database Demo \ --start-time '2020-03-26 17:24:38'
ejemplo : exportar todas las bases de datos
python3.9 unload.py \ --export-all_databases \ --start-time '2020-03-26 17:24:38'
ejemplo : exportación avanzada con más opciones
python unload.py \ --export-table \ --database MyDB \ --table MyTable \ --start-time '2024-05-14 00:00:00' \ --end-time '2025-05-14 00:00:00' \ --partition month \ --export-format PARQUET \ --compression GZIP \ --region us-east-1 \ --s3-uri s3://my-bucket \ --enable-dynamodb_logger \ --sns-topic_arn arn:aws:sns:region:account-id:topic-name

Para obtener más información, consulte el README del script de descarga.