レコード形式の変換を有効にする - Amazon Data Firehose

翻訳は機械翻訳により提供されています。提供された翻訳内容と英語版の間で齟齬、不一致または矛盾がある場合、英語版が優先します。

レコード形式の変換を有効にする

レコード形式の変換を有効にすると、Amazon Data Firehose の宛先を Amazon OpenSearch Service、Amazon Redshift、または Splunk に設定することはできません。形式の変換を有効にすると、Amazon S3 が唯一 Firehose ストリームに使用できる宛先になります。次のセクションは、コンソールおよび Firehose API オペレーションからレコード形式変換を有効にする方法を示しています。を使用してレコード形式の変換を設定する方法の例については CloudFormation、AWS「::DataFirehose::DeliveryStream」を参照してください。

コンソールからのレコード形式変換を有効にする

Firehose ストリームを作成または更新するときに、コンソールでデータ形式の変換を有効にできます。データ形式の変換を有効にすると、Amazon S3 が Firehose ストリームに設定できる唯一の宛先になります。また、形式変換を有効にすると Amazon S3 圧縮が無効化されます。ただし、変換プロセスの一部として Snappy 圧縮が自動的に実行されます。この場合に Amazon Data Firehose が使用する Snappy のフレーミング形式は Hadoop と互換性があります。つまり、Snappy 圧縮の結果を使用して、Athena でこのデータに対するクエリを実行できます。Hadoop が依存する Snappy のフレーミング形式については、「BlockCompressorStream.java」を参照してください。

データ Firehose ストリームのデータ形式の変換を有効にするには
  1. にサインインし AWS マネジメントコンソール、https://console.aws.amazon.com/firehose/ で Amazon Data Firehose コンソールを開きます。

  2. 更新する Firehose ストリームを選択するか、「チュートリアル: コンソールから Firehose ストリームを作成する」のステップに従って新しい Firehose ストリームを作成します。

  3. [Convert record format (レコード形式を変換)] で、[Record format conversion (レコード形式の変換)] を [Enabled (有効)] に設定します。

  4. 目的の出力形式を選択します。2 つのオプションの詳細については、Apache Parquet および Apache ORC を参照してください。

  5. AWS Glue テーブルを選択して、ソースレコードのスキーマを指定します。リージョン、データベース、テーブル、テーブルバージョンを設定します。

Firehose API からのレコード形式変換を管理する

Amazon Data Firehose で入力データの形式を JSON から Parquet または ORC に変換する場合、ExtendedS3DestinationConfiguration または ExtendedS3DestinationUpdate で、オプションの DataFormatConversionConfiguration 要素を指定します。DataFormatConversionConfiguration を指定する場合は、次の制限が適用されます。

  • BufferingHints では、レコード形式の変換を有効にすると、SizeInMBs を 64 未満の値に設定できません。また、形式の変換が有効でない場合、デフォルト値は 5 です。有効にすると、この値は 128 になります。

  • ExtendedS3DestinationConfiguration または ExtendedS3DestinationUpdateCompressionFormatUNCOMPRESSED に設定する必要があります。CompressionFormat のデフォルト値は UNCOMPRESSED です。したがって、ExtendedS3DestinationConfiguration で指定しないままにすることもできます。その場合もデータは、デフォルトで Snappy 圧縮を使用して、シリアル化プロセスの一環として圧縮されます。この場合に Amazon Data Firehose が使用する Snappy のフレーミング形式は Hadoop と互換性があります。つまり、Snappy 圧縮の結果を使用して、Athena でこのデータに対するクエリを実行できます。Hadoop が依存する Snappy のフレーミング形式については、「BlockCompressorStream.java」を参照してください。シリアライザーを構成する場合は、他のタイプの圧縮を選択できます。