ベストプラクティス

アーカイブデータにアクセスするには、次のベストプラクティスを実装すると良いでしょう。

アーカイブデータセットが膨大な場合は、AWS Glue テーブルを作成し、それらのデータを参照できるようにします。これにより、Athena や Amazon Redshift などのクエリエンジンを使用して、データを読み取れるようになります。Athena と Amazon Redshift のどちらでも、クエリパフォーマンスを水平スケーリングできます。クエリ単位の料金体系も利用可能なため、クエリを一度だけ実行するシナリオでは、費用対効果が高まります。さらに、Amazon Redshift では、高度なクエリアクセラレーター (AQUA) エンジンが利用されるため、読み取りパフォーマンスを高速化でき、追加料金なしでこれを実現可能です。
Amazon S3 で定期的にオフロードしているアーカイブデータは、大量データのまとまりとして保存しないでください。そのような状態ではなく、新しいパーティションとして保存する必要があります。日付パーティションを使用すると、データを日付ディメンションで分割できます (例: year=<value>/month=<value>/day=<value>)。これが非常に効果的なのは、次の 2 つの状況です。
- AWS Glue テーブルを AWS Glue クローラーによって作成した場合、これらのパーティションは擬似列として機能します。これにより、クエリで指定された範囲内でのみデータがスキャンされるため、読み取りパフォーマンスが向上します。
- オブジェクトのサブセットのみを S3 Standard として復元する場合に、この分割方法を取ると、S3 Glacier 復元オペレーションが容易になります。
AWS Glue クローラーの利点を大いに享受できるのは、Amazon S3 に保存済みのアーカイブデータを物理的にパーティション化している場合です。データが新しいプレフィックスパーティションとしてオフロードされるたびに、クローラーは、新しいパーティションのみをスキャンし、そのパーティションのメタデータを更新します。また、テーブルのスキーマが変更されると、それらの変更を、パーティションレベルのメタデータ内にキャプチャします。

ブラウザで JavaScript が無効になっているか、使用できません。

AWS ドキュメントを使用するには、JavaScript を有効にする必要があります。手順については、使用するブラウザのヘルプページを参照してください。

ドキュメントの表記規則

S3 Glacier ストレージクラス

クリーンアップ