

本文属于机器翻译版本。若本译文内容与英语原文存在差异，则一律以英文原文为准。

# 在 Amazon 中启用重复数据删除 FSx
<a name="storage-fsx-deduplication"></a>

## 概述
<a name="storage-fsx-deduplication-overview"></a>

重复数据删除是一项功能，它能让您更高效地存储数据，并且降低存储容量的需求。它涉及在不损害数据准确性或完整性的情况下，找出并消除数据中的重复内容。重复数据删除采用子文件的可变大小分块以及压缩技术，这使得一般文件服务器的优化比率为 2:1，而虚拟化数据的优化比率最高达 20:1。重复数据删除的效果要比 NTFS 压缩好得多。重复数据删除架构的固有特点是能够在硬件出现故障时保持系统的韧性：对数据和元数据进行完整的校验和验证，包括为元数据和最常访问的数据块提供冗余。

FSx 适用于 Windows 文件服务器完全支持重复数据删除。使用它能够使通用型文件共享平均节省 50% 至 60%的费用。在这些共享中，用户文档的节省范围介于 30% 至 50% 之间，而软件开发数据集的节省范围最高达 70% 至 80%。需要明白的是，通过重复数据删除所能实现的存储空间节省效果取决于您的数据集的性质，包括文件之间存在的重复数据量的多少。如果所存储的数据具有动态性，那么重复数据删除功能就不是一个好的选择。

## 成本影响
<a name="storage-fsx-deduplication-cost"></a>

为了应对企业中数据存储量的增长，管理员们会对服务器进行整合，并将容量扩展和数据优化列为关键目标。重复数据删除的默认设置能够立即节省成本，或者管理员也可以对设置进行微调以获取更多收益。例如，您可以将其配置为仅在特定文件类型上运行重复数据删除，也可以创建自定义作业计划。

总体上看，重复数据删除有三种类型的作业：优化、垃圾回收和清理。请注意，只有在完成优化操作后运行垃圾回收作业，空间才会被释放。您可以安排作业，也可以手动运行它。计划重复数据删除作业时可用的所有设置，在您手动启动作业时也同样适用（除了那些与特定于调度的设置之外）。

即使重复数据删除仅有效节省了25％，但Windows文件服务器还是可以节省大量成本。 FSx 这些预计的节省金额基于 AWS 定价计算器中的[估算值](https://calculator.aws/#/estimate?id=b25b166595553e055c594e89e3c13610df570bc9)。

## 成本优化建议
<a name="storage-fsx-deduplication-rec"></a>

默认情况下，Window FSx s 文件服务器文件系统未启用重复数据删除。要使用[远程管理](https://docs.aws.amazon.com/fsx/latest/WindowsGuide/administering-file-systems.html#remote-pwrshell)启用重复数据删除 PowerShell，必须运行`Enable-FSxDedup`命令，然后使用该`Set-FSxDedupConfiguration`命令来设置配置。有关更多信息，请参阅 Windows [文件服务器文档中的 FSx 管理文件系统](https://docs.aws.amazon.com/fsx/latest/WindowsGuide/administering-file-systems.html)。

要启用重复数据删除，请运行以下命令：

```
PS C:\Users\Admin> Invoke-Command -ComputerName amznfsxzzzzzzzz.corp.example.com -ConfigurationName FSxRemoteAdmin -ScriptBlock {Enable-FsxDedup }
```

要验证重复数据删除配置，请运行以下命令。

```
Invoke-Command -ComputerName amznfsxzzzzzzzz.corp.example.com -ConfigurationName FSxRemoteAdmin -ScriptBlock {
Set-FSxDedupSchedule -Name "CustomOptimization" -Type Optimization -Days Mon,Tues,Wed,Sat -Start 09:00 -DurationHours 7
}
```

通过运行 PowerShell `Measure-DedupFileMetadata` cmdlet，您可以确定如果删除一组文件夹、一个文件夹或单个文件，然后运行垃圾收集作业，则可以回收卷上多少潜在的磁盘空间。具体而言，`DedupDistinctSize` 值告诉您在删除这些文件后可以回收多少空间。文件中通常包含与其他文件夹共享的数据块，因此，重复数据删除引擎会计算出哪些是在垃圾回收作业后将被删除的唯一数据块。

默认的[重复数据删除作业计划](https://docs.aws.amazon.com/fsx/latest/WindowsGuide/managing-storage-configuration.html#using-data-dedup)旨在很好地适用于推荐的工作负载，并尽可能减少对系统的影响（不包括针对备份使用类型启用的优先级优化作业）。如果工作负载对资源的需求量较大，我们建议您仅将作业安排在空闲时段运行，或者减少或增加重复数据删除作业所能使用的系统资源量。

默认情况下，重复数据删除会占用可用内存的 25%。但是，可以通过使用 `-memory switch` 来增加此值。对于优化作业，我们建议您将范围设置为 15 到 50。对于计划作业，您可以使用更高的内存消耗量。例如，对于垃圾回收和清理作业（通常安排在非工作时间进行），您可以设置更高的内存消耗量（例如 50）。

有关重复数据删除设置的更多信息，请参阅适用于 Windows File Server 的文档中的[使用重复数据删除降低存储成本](https://docs.aws.amazon.com/fsx/latest/WindowsGuide/managing-storage-configuration.html#using-data-dedup)。 FSx 

## 其他资源
<a name="storage-fsx-deduplication-resources"></a>
+ [了解重复数据删除](https://learn.microsoft.com/en-gb/windows-server/storage/data-deduplication/understand)（Microsoft 文档）
+ 通过@@ [重复数据删除降低存储成本](https://docs.aws.amazon.com/fsx/latest/WindowsGuide/managing-storage-configuration.html#using-data-dedup)（FSx 适用于 Windows 文件服务器文档）