翻訳は機械翻訳により提供されています。提供された翻訳内容と英語版の間で齟齬、不一致または矛盾がある場合、英語版が優先します。
ベストプラクティス
アーカイブデータにアクセスするには、次のベストプラクティスを実装すると良いでしょう。
-
アーカイブデータセットが膨大な場合は、AWS Glue テーブルを作成し、それらのデータを参照できるようにします。これにより、Athena や Amazon Redshift などのクエリエンジンを使用して、データを読み取れるようになります。Athena と Amazon Redshift のどちらでも、クエリパフォーマンスを水平スケーリングできます。クエリ単位の料金体系も利用可能なため、クエリを一度だけ実行するシナリオでは、費用対効果が高まります。さらに、Amazon Redshift では、高度なクエリアクセラレーター (AQUA) エンジンが利用されるため、読み取りパフォーマンスを高速化でき、追加料金なしでこれを実現可能です。
-
Amazon S3 で定期的にオフロードしているアーカイブデータは、大量データのまとまりとして保存しないでください。そのような状態ではなく、新しいパーティションとして保存する必要があります。日付パーティションを使用すると、データを日付ディメンションで分割できます (例:
year=<value>/month=<value>/day=<value>)。これが非常に効果的なのは、次の 2 つの状況です。-
AWS Glue テーブルを AWS Glue クローラーによって作成した場合、これらのパーティションは擬似列として機能します。これにより、クエリで指定された範囲内でのみデータがスキャンされるため、読み取りパフォーマンスが向上します。
-
オブジェクトのサブセットのみを S3 Standard として復元する場合に、この分割方法を取ると、S3 Glacier 復元オペレーションが容易になります。
-
-
AWS Glue クローラーの利点を大いに享受できるのは、Amazon S3 に保存済みのアーカイブデータを物理的にパーティション化している場合です。データが新しいプレフィックスパーティションとしてオフロードされるたびに、クローラーは、新しいパーティションのみをスキャンし、そのパーティションのメタデータを更新します。また、テーブルのスキーマが変更されると、それらの変更を、パーティションレベルのメタデータ内にキャプチャします。