기계 번역으로 제공되는 번역입니다. 제공된 번역과 원본 영어의 내용이 상충하는 경우에는 영어 버전이 우선합니다.
레코드 형식 변환 활성화
레코드 형식 변환을 활성화하면 Amazon Data Firehose 대상을 Amazon OpenSearch Service, Amazon Redshift 또는 Splunk로 설정할 수 없습니다. 형식 변환이 활성화되면 Firehose 스트림의 대상으로 Amazon S3만 사용할 수 있습니다. 다음 섹션에서는 콘솔 및 Firehose API 작업에서 레코드 형식 변환을 활성화하는 방법을 보여줍니다. 를 사용하여 레코드 형식 변환을 설정하는 방법의 예는 AWS::DataFirehose::DeliveryStream을 CloudFormation참조하세요.
콘솔에서 레코드 형식 변환 활성화
Firehose 전송 스트림을 생성하거나 업데이트할 때 콘솔에서 데이터 형식 변환을 활성화할 수 있습니다. 데이터 형식 변환이 활성화되면 Firehose 스트림의 대상으로 Amazon S3만 구성할 수 있습니다. 또한 형식 변환을 활성화하면 Amazon S3 압축은 비활성화됩니다. 그러나 Snappy 압축은 변환 프로세스의 일부로 자동으로 이루어집니다. Amazon Data Firehose가 이 경우에 사용하는 Snappy의 프레이밍 형식은 Hadoop과 호환됩니다. 즉, Snappy 압축 결과를 사용하고 Athena에서 이 데이터에 대한 쿼리를 실행할 수 있습니다. Hadoop이 사용하는 Snappy 프레이밍 포맷은 BlockCompressorStream.java
데이터 Firehose 스트림의 데이터 형식 변환 활성화
-
에 로그인 AWS Management 콘솔하고 https://console.aws.amazon.com/firehose/
Amazon Data Firehose 콘솔을 엽니다. -
업데이트할 Firehose 스트림을 선택하거나 자습서: 콘솔에서 Firehose 스트림 생성의 절차에 따라 Firehose 스트림을 새로 만듭니다.
-
Convert record format(레코드 형식 변환) 아래에서 Record format conversion(레코드 형식 변환)을 Enabled(사용)로 설정합니다.
-
원하는 출력 형식을 선택합니다. 두 옵션에 대한 자세한 내용은 Apache Parquet
및 Apache ORC 를 참조하세요. -
AWS Glue 테이블을 선택하여 소스 레코드에 대한 스키마를 지정합니다. 리전, 데이터베이스, 테이블 및 테이블 버전을 설정합니다.
Firehose API에서 레코드 형식 변환 관리
Amazon Data Firehose가 입력 데이터의 형식을 JSON에서 Parquet 또는 ORC로 변환하도록 하려면 ExtendedS3DestinationConfiguration 또는 ExtendedS3DestinationUpdate의 DataFormatConversionConfiguration을 지정하세요. DataFormatConversionConfiguration를 지정하는 경우 다음 제한이 적용됩니다.
-
레코드 형식 변환을 사용하는 경우, BufferingHints에서
SizeInMBs를 64보다 낮은 값으로 설정할 수 없습니다. 형식 변환을 활성화하지 않는 경우 기본값은 5입니다. 형식 변환을 활성화하면 값이 128이 됩니다. -
ExtendedS3DestinationConfiguration 또는 ExtendedS3DestinationUpdate의
CompressionFormat을UNCOMPRESSED로 설정해야 합니다.CompressionFormat의 기본값은UNCOMPRESSED입니다. 따라서 ExtendedS3DestinationConfiguration에서 지정하지 않은 상태로 두어도 됩니다. 지정하지 않아도 데이터는 기본적으로 Snappy 압축을 사용하여 serialization 프로세스 중에 압축됩니다. Amazon Data Firehose가 이 경우에 사용하는 Snappy의 프레이밍 형식은 Hadoop과 호환됩니다. 즉, Snappy 압축 결과를 사용하고 Athena에서 이 데이터에 대한 쿼리를 실행할 수 있습니다. Hadoop이 사용하는 Snappy 프레이밍 포맷은 BlockCompressorStream.java를 참조하세요. serializer를 구성할 때 다른 압축 유형을 선택할 수 있습니다.