Amazon FSx でデータ重複排除を有効にする

概要

データ重複排除は、データをより効率的に、より少ないキャパシティ要件で保存できる機能です。これには、データの忠実度や完全性を損なうことなく、データ内の重複を検出して削除することが含まれます。データ重複排除は、サブファイル可変サイズのチャンキングと圧縮を使用します。これにより、一般的なファイルサーバーでは 2:1、仮想化データでは最大 20:1 の最適化比が実現します。データ重複排除は、NTFS 圧縮よりもはるかに効果的です。重複排除アーキテクチャに内在するのは、ハードウェア障害時の耐障害性です。メタデータや最もアクセス頻度の高いデータチャンクの冗長性など、データとメタデータの完全なチェックサム検証が行われます。

FSx for Windows File Server は、データ重複排除を完全にサポートしています。これを使用すると、汎用ファイル共有の平均削減率が 50～60% になります。共有内では、ユーザードキュメントの場合は 30～50%、ソフトウェア開発データセットの場合は最大 70～80% が節約範囲です。データ重複排除によって達成できるストレージの節約は、ファイル間で重複する量など、データセットの性質によって異なることを理解する必要があります。保存されるデータが本質的に動的である場合、重複排除は適切なオプションではありません。

コストへの影響

企業におけるデータストレージの増加に対応するために、管理者はサーバーを統合し、キャパシティスケーリングとデータ最適化を主要な目標とします。データ重複排除のデフォルト設定により、すぐに削減を実現できます。また、管理者が設定をファインチューニングしてさらなるメリットを得ることもできます。例えば、特定のファイルタイプでのみ実行するように重複除外を設定したり、カスタムジョブスケジュールを作成したりできます。

大まかに言うと、重複排除には最適化、ガベージコレクション、スクラブの 3 種類のジョブがあります。最適化後にガベージコレクションジョブを実行するまで、スペースは解放されないことに注意してください。ジョブをスケジュールすることも、手動で実行することもできます。データ重複排除ジョブをスケジュールするときに使用できるすべての設定は、ジョブを手動で開始するときにも使用できます (スケジュール固有の設定を除く)。

重複排除による実質的な削減は 25% に過ぎないとしても、FSx for Windows File Server では大幅なコスト削減が実現します。これらの予測される削減額は、 AWS 料金見積りツールの見積もりに基づいています。

コスト最適化の推奨事項

FSx for Windows File Server ファイルシステムの重複排除は、デフォルトでは有効になっていません。PowerShell のリモート管理を使用して重複排除を有効にするには、Enable-FSxDedup コマンドを実行してから Set-FSxDedupConfiguration コマンドを使用して設定を行う必要があります。詳細については、FSx for Windows File Server ドキュメントの「Administering file systems」を参照してください。

重複排除を有効にするには、次のコマンドを実行します。


PS C:\Users\Admin> Invoke-Command -ComputerName amznfsxzzzzzzzz.corp.example.com -ConfigurationName FSxRemoteAdmin -ScriptBlock {Enable-FsxDedup }

重複排除の設定を確認するには、次のコマンドを実行します。


Invoke-Command -ComputerName amznfsxzzzzzzzz.corp.example.com -ConfigurationName FSxRemoteAdmin -ScriptBlock {
Set-FSxDedupSchedule -Name "CustomOptimization" -Type Optimization -Days Mon,Tues,Wed,Sat -Start 09:00 -DurationHours 7
}

PowerShell Measure-DedupFileMetadata コマンドレットを実行することで、フォルダのグループ、1 つのフォルダ、または 1 つのファイルを削除し、ガベージコレクションジョブを実行した場合に、ボリューム上でどれだけのディスクスペースを再利用できるかを特定できます。具体的に言うと、DedupDistinctSize 値が、これらのファイルを削除した場合にどれだけのスペースが戻るかを示します。多くの場合、ファイルには他のフォルダ間で共有されるチャンクがあるため、重複排除エンジンは、ガベージコレクションジョブ後に削除される一意のチャンクを計算します。

デフォルトのデータ重複排除ジョブスケジュールは、推奨ワークロードに対して適切に動作し、可能な限り非侵入的であるように設計されています (バックアップ使用タイプで有効になっている優先最適化ジョブを除く)。ワークロードのリソース要件が大きい場合は、アイドル時間中にのみジョブの実行をスケジュールするか、データ重複排除ジョブが消費できるシステムリソースの量を減らすか増やすことをお勧めします。

デフォルトでは、データ重複排除は使用可能なメモリの 25% を使用します。ただし、これは -memory switch を使用して増やすことができます。最適化ジョブの場合は、15～50 の範囲を設定することをお勧めします。スケジュールされたジョブでは、より高いメモリ消費量を使用できます。例えば、ガベージコレクションジョブとスクラブジョブ (通常、オフ時間で実行するようにスケジュール) では、より高いメモリ消費量 (50 など) を設定できます。

データ重複排除設定の詳細については、FSx for Windows File Server ドキュメントの「データ重複排除によるストレージコストの削減」を参照してください。

その他のリソース

「Understanding Data Deduplication」(Microsoft ドキュメント)
「Reducing storage costs with Data Deduplication」(FSx for Windows File Server ドキュメント)

ブラウザで JavaScript が無効になっているか、使用できません。

AWS ドキュメントを使用するには、JavaScript を有効にする必要があります。手順については、使用するブラウザのヘルプページを参照してください。

ドキュメントの表記規則

適切な SMB ファイルストレージを選択する

FSx for Windows File Server のデータシャーディングを理解する