Visão geral do Impacto do custo Recomendações de otimização de custos Recursos adicionais do

Habilite a desduplicação de dados na Amazon FSx

Visão geral do

A desduplicação de dados é um recurso que permite armazenar seus dados com mais eficiência e com menos requisitos de capacidade. Ela envolve encontrar e remover a duplicação nos dados sem comprometer sua fidelidade ou integridade. A desduplicação de dados usa fragmentação e compactação de tamanho variável de subarquivos, que oferecem taxas de otimização de 2:1 para servidores de arquivos gerais e de até 20:1 para dados de virtualização. A desduplicação de dados é muito mais eficaz do que a compactação NTFS. A resiliência durante falhas de hardware é inerente à arquitetura de desduplicação, com validação completa da soma de verificação dos dados e metadados, incluindo redundância de metadados e os fragmentos de dados mais acessados.

FSx para Windows File Server oferece suporte total à desduplicação de dados. Seu uso pode resultar em uma economia média de 50 a 60% para compartilhamentos de arquivos de uso geral. Em compartilhamentos, as economias variam de 30 a 50% para documentos do usuário até 70 a 80% para conjuntos de dados de desenvolvimento de software. É importante entender que a economia de armazenamento que você pode obter com a desduplicação de dados depende da natureza do seu conjunto de dados, incluindo a quantidade de duplicação existente nos arquivos. A desduplicação não será uma boa opção se os dados armazenados forem de natureza dinâmica.

Impacto do custo

Para lidar com o crescimento do armazenamento de dados na empresa, os administradores consolidam os servidores e fazem da escalabilidade da capacidade e da otimização de dados os principais objetivos. As configurações padrão da desduplicação de dados podem proporcionar economia imediata, ou os administradores podem ajustar as configurações para obter ganhos adicionais. Por exemplo, você pode configurar a eliminação de duplicação para ser executada somente em determinados tipos de arquivo ou criar uma programação de trabalho personalizada.

Em um alto nível, a desduplicação tem três tipos de trabalhos: otimização, coleta de resíduos e depuração. Esteja ciente de que o espaço não será liberado até que você execute um trabalho de coleta de resíduos após a otimização. Você pode programar o trabalho ou executá-lo manualmente. Todas as configurações disponíveis quando você agenda um trabalho de desduplicação de dados também estão disponíveis quando você inicia um trabalho manualmente (exceto aquelas que são específicasda programação).

Mesmo com uma economia efetiva de apenas 25% com a desduplicação, há uma economia significativa FSx para o Windows File Server. Essas economias projetadas são baseadas em uma estimativa na AWS Calculadora de Preços.

Recomendações de otimização de custos

A desduplicação ativada FSx para sistemas de arquivos do Windows File Server não está habilitada por padrão. Para habilitar a desduplicação usando o gerenciamento remoto ativado PowerShell, você deve executar o Enable-FSxDedup comando e, em seguida, usar o Set-FSxDedupConfiguration comando para definir a configuração. Para obter mais informações, consulte Administração de sistemas de arquivos na documentação do FSx Windows File Server.

Para habilitar a desduplicação, execute o seguinte comando:


PS C:\Users\Admin> Invoke-Command -ComputerName amznfsxzzzzzzzz.corp.example.com -ConfigurationName FSxRemoteAdmin -ScriptBlock {Enable-FsxDedup }

Para verificar se a configuração de desduplicação, execute o seguinte comando:


Invoke-Command -ComputerName amznfsxzzzzzzzz.corp.example.com -ConfigurationName FSxRemoteAdmin -ScriptBlock {
Set-FSxDedupSchedule -Name "CustomOptimization" -Type Optimization -Days Mon,Tues,Wed,Sat -Start 09:00 -DurationHours 7
}

Ao executar o PowerShell Measure-DedupFileMetadata cmdlet, você pode determinar quanto espaço em disco potencial pode ser recuperado em um volume se você excluir um grupo de pastas, uma única pasta ou um único arquivo e, em seguida, executar um trabalho de coleta de lixo. Especificamente, o valor DedupDistinctSize informa a quantidade de espaço que você vai recuperar se excluir esses arquivos. Os arquivos geralmente têm partes que são compartilhadas em outras pastas, então o mecanismo de desduplicação calcula quais partes são exclusivas e que seriam excluídas após o trabalho de coleta de resíduos.

As programações de trabalho padrão de desduplicação de dados foram projetadas para funcionar bem para as workloads recomendadas e serem o menos intrusivas possível (excluindo a tarefa de otimização prioritária habilitada para o tipo de uso de backup). Se as workloads tiverem grandes requisitos de recursos, recomendamos que você programe trabalhos executados somente durante as horas de ociosidade, ou que reduza ou aumente a quantidade de recursos do sistema que um trabalho de desduplicação de dados pode consumir.

Por padrão, a desduplicação de dados usa 25% da memória disponível. No entanto, isso pode ser aumentado usando -memory switch. Para trabalhos de otimização, recomendamos que você defina um intervalo de 15 a 50. Para trabalhos programados, você pode usar um maior consumo de memória. Por exemplo, com trabalhos de depuração e coleta de resíduos (que normalmente são programados para serem executados fora do horário de pico), você pode definir um maior consumo de memória (como 50).

Para obter informações adicionais sobre as configurações de desduplicação de dados, consulte Reduzindo os custos de armazenamento com a desduplicação de dados na documentação do Windows FSx File Server.

Recursos adicionais do

Understanding Data Deduplication (documentação da Microsoft)
Reduzindo os custos de armazenamento com a desduplicação de dados (FSx para documentação do Windows File Server)

Atenção O Javascript está desativado ou não está disponível no seu navegador.

Para usar a documentação da AWS, o Javascript deve estar ativado. Consulte as páginas de Ajuda do navegador para obter instruções.

Convenções do documento

Escolher o armazenamento adequado de arquivos SMB

Entenda a fragmentação de dados no FSx Windows File Server