翻訳は機械翻訳により提供されています。提供された翻訳内容と英語版の間で齟齬、不一致または矛盾がある場合、英語版が優先します。
レコード形式の変換を有効にする
レコード形式の変換を有効にすると、Amazon Data Firehose の宛先を Amazon OpenSearch Service、Amazon Redshift、または Splunk に設定することはできません。形式の変換を有効にすると、Amazon S3 が唯一 Firehose ストリームに使用できる宛先になります。次のセクションは、コンソールおよび Firehose API オペレーションからレコード形式変換を有効にする方法を示しています。を使用してレコード形式の変換を設定する方法の例については CloudFormation、AWS「::DataFirehose::DeliveryStream」を参照してください。
コンソールからのレコード形式変換を有効にする
Firehose ストリームを作成または更新するときに、コンソールでデータ形式の変換を有効にできます。データ形式の変換を有効にすると、Amazon S3 が Firehose ストリームに設定できる唯一の宛先になります。また、形式変換を有効にすると Amazon S3 圧縮が無効化されます。ただし、変換プロセスの一部として Snappy 圧縮が自動的に実行されます。この場合に Amazon Data Firehose が使用する Snappy のフレーミング形式は Hadoop と互換性があります。つまり、Snappy 圧縮の結果を使用して、Athena でこのデータに対するクエリを実行できます。Hadoop が依存する Snappy のフレーミング形式については、「BlockCompressorStream.java
データ Firehose ストリームのデータ形式の変換を有効にするには
-
にサインインし AWS マネジメントコンソール、https://console.aws.amazon.com/firehose/
で Amazon Data Firehose コンソールを開きます。 -
更新する Firehose ストリームを選択するか、「チュートリアル: コンソールから Firehose ストリームを作成する」のステップに従って新しい Firehose ストリームを作成します。
-
[Convert record format (レコード形式を変換)] で、[Record format conversion (レコード形式の変換)] を [Enabled (有効)] に設定します。
-
目的の出力形式を選択します。2 つのオプションの詳細については、Apache Parquet
および Apache ORC を参照してください。 -
AWS Glue テーブルを選択して、ソースレコードのスキーマを指定します。リージョン、データベース、テーブル、テーブルバージョンを設定します。
Firehose API からのレコード形式変換を管理する
Amazon Data Firehose で入力データの形式を JSON から Parquet または ORC に変換する場合、ExtendedS3DestinationConfiguration または ExtendedS3DestinationUpdate で、オプションの DataFormatConversionConfiguration 要素を指定します。DataFormatConversionConfiguration を指定する場合は、次の制限が適用されます。
-
BufferingHints では、レコード形式の変換を有効にすると、
SizeInMBsを 64 未満の値に設定できません。また、形式の変換が有効でない場合、デフォルト値は 5 です。有効にすると、この値は 128 になります。 -
ExtendedS3DestinationConfiguration または ExtendedS3DestinationUpdate の
CompressionFormatをUNCOMPRESSEDに設定する必要があります。CompressionFormatのデフォルト値はUNCOMPRESSEDです。したがって、ExtendedS3DestinationConfiguration で指定しないままにすることもできます。その場合もデータは、デフォルトで Snappy 圧縮を使用して、シリアル化プロセスの一環として圧縮されます。この場合に Amazon Data Firehose が使用する Snappy のフレーミング形式は Hadoop と互換性があります。つまり、Snappy 圧縮の結果を使用して、Athena でこのデータに対するクエリを実行できます。Hadoop が依存する Snappy のフレーミング形式については、「BlockCompressorStream.java」を参照してください。シリアライザーを構成する場合は、他のタイプの圧縮を選択できます。