Amazon S3로 Timestream 데이터 내보내기 - Amazon Timestream

LiveAnalytics용 Amazon Timestream은 2025년 6월 20일부터 신규 고객에게 더 이상 공개되지 않습니다. Amazon Timestream for LiveAnalytics를 사용하려면 해당 날짜 이전에 가입하세요. 기존 고객은 평소처럼 서비스를 계속 사용할 수 있습니다. 자세한 내용은 Amazon Timestream for LiveAnalytics 가용성 변경을 참조하세요.

기계 번역으로 제공되는 번역입니다. 제공된 번역과 원본 영어의 내용이 상충하는 경우에는 영어 버전이 우선합니다.

Amazon S3로 Timestream 데이터 내보내기

마이그레이션을 위한 대상 서비스와 관계없이 Timestream for LiveAnalytics 데이터를 Amazon S3로 내보내는 다음 모범 사례에 따라 후속 데이터베이스별 수집의 기반 역할을 하는 내구성 있는 중간 스토리지 계층을 생성하는 것이 좋습니다.

Timestream for LiveAnalytics 테이블에서 Amazon S3로 데이터를 안정적으로 내보내려면 대규모 데이터 내보내기용으로 설계된 Timestream UNLOAD 기능을 사용하는 Timestream for LiveAnalytics 내보내기 도구를 사용하는 것이 좋습니다. https://docs.aws.amazon.com/timestream/latest/developerguide/supported-sql-constructs.UNLOAD.html

Timestream for LiveAnalytics 내보내기 도구

시간 기반 청킹 전략

대량의 시계열 데이터를 마이그레이션할 때는 시간 기반 청킹이 필수적입니다. 이 접근 방식은 내보내기 프로세스를 독립적으로 처리하고 장애 시 다시 시도할 수 있는 관리 가능한 단위로 분류하여 마이그레이션 위험을 크게 줄입니다. 더 쉬운 진행 상황 추적을 위한 체크포인트를 생성하고 중단 후 재개할 수 있는 기능을 추가합니다. 지속적인 데이터 수집이 있는 조직의 경우, 이를 통해 최신 데이터를 별도의 시간 청크로 내보낼 수 있으므로 지속적인 운영과 마이그레이션 간의 조정을 개선할 수 있습니다. 이 도구는 일 기반 청킹을 사용하여 효율적인 관리를 위해 매일의 데이터를 S3 버킷 접두사와 함께 저장합니다. 또한 청킹은 시간, 일, 월 또는 연도를 기준으로 할 수 있습니다.

마이그레이션 모니터링

이 도구는 DynamoDB 테이블에서 마이그레이션 통계를 캡처하여 사용된 구성, 내보낸 레코드 및 마이그레이션의 완전성을 검증하기 위한 기타 데이터 포인트와 같은 지표를 추적하는 옵션을 제공합니다. 마이그레이션 및 검증 중에 이러한 지표를 면밀히 모니터링하는 것이 좋습니다. 오케스트레이션 스크립트 내에 제공된 로깅을 사용하여 실행 타임스탬프, 청크 경계 및 발생한 오류 조건을 캡처할 수도 있습니다. 또한 다운스트림 시스템을 통합하여 장애에 대한 조치를 취하려는 경우이 도구는 SNS 알림을 제공합니다.

권장 사항 및 모범 사례

Timestream for LiveAnalytics 내보내기 도구는 대상 시스템 요구 사항에 맞는 다양한 구성 옵션을 사용하여 S3로 데이터를 내보낼 수 있는 유연하고 강력한 솔루션을 제공합니다. 대상이 Timestream for InfluxDB인 경우 압축 없이 Parquet 형식을 사용하여 수집 스크립트와의 호환성을 보장합니다. 최적의 추적 및 모니터링을 위해 DynamoDB 로깅을 활성화하고 내보내기 실패 또는 완료에 대한 알림을 수신하도록 SNS 알림을 구성합니다.

도구는 Timestream for LiveAnalytics UNLOAD 기능을 활용하는 동시에 지정된 시간 범위에 따라 데이터를 배치로 자동으로 내보내 쿼리 제한에 대한 파티션을 극복합니다. 데이터 파티셔닝을 기본값인 시간, 일, 월 또는 연도별로 사용자 지정할 수 있습니다. 사용 가능한 최대 메모리를 초과하는 쿼리 계산과 같은 메모리 관련 오류를 방지하려면 각 파티션을 약 350GB 미만으로 유지해야 합니다. 예를 들어 연간 데이터가 350GB를 초과하는 경우 월별 파티션 또는 일별 또는 시간별 파티셔닝과 같은 더 세분화된 옵션을 사용하는 것이 좋습니다. 시간당을 선택하고 여전히 "쿼리 계산이 사용 가능한 최대 메모리를 초과함" 오류가 발생하는 경우 파티션 수를 줄여 내보내기가 성공했는지 확인할 수 있습니다.

이 도구는 내보내기 범위에 유연성을 제공하므로 단일 테이블, 전체 데이터베이스 또는 계정의 모든 데이터베이스를 내보낼 수 있습니다. 여러 특정 데이터베이스 내보내기와 같은 보다 특수한 요구 사항을 위해이 자동화를 중심으로 사용자 지정 래퍼를 구축할 수 있습니다. 또한 역순으로 정렬 옵션을 활성화하여 가장 최근 데이터를 먼저 내보내도록 선택할 수 있습니다. 실패 후 다시 시작할 때 동일한 마이그레이션 태그를 사용하여 모든 파일을 동일한 S3 접두사로 유지하거나 태그를 생략하여 새 접두사로 파일을 생성할 수 있습니다. 도구가 데이터를 배치로 내보낼 때 오류가 발생하면 원래 시작 시간부터 다시 시작하는 대신 실패한 배치부터 시작하는 것이 좋습니다. 종료 타임스탬프를 지정하지 않으면 도구는 현재 타임스탬프(UTC)를 자동으로 사용하여 일관된 내보내기 및 검증을 보장합니다.

기본 명령

예 : DynamoDB 로깅이 활성화된 테이블 내보내기
python3.9 unload.py \ --export-table \ --database Demo \ --table Demo \ --start-time '2020-03-26 17:24:38' \ --enable-dynamodb_logger true
예 : 전체 데이터베이스 내보내기
python3.9 unload.py \ --export-database \ --database Demo \ --start-time '2020-03-26 17:24:38'
예 : 모든 데이터베이스 내보내기
python3.9 unload.py \ --export-all_databases \ --start-time '2020-03-26 17:24:38'
예 : 더 많은 옵션이 있는 고급 내보내기
python unload.py \ --export-table \ --database MyDB \ --table MyTable \ --start-time '2024-05-14 00:00:00' \ --end-time '2025-05-14 00:00:00' \ --partition month \ --export-format PARQUET \ --compression GZIP \ --region us-east-1 \ --s3-uri s3://my-bucket \ --enable-dynamodb_logger \ --sns-topic_arn arn:aws:sns:region:account-id:topic-name

자세한 내용은 언로드 스크립트의 README를 참조하세요.