Conceitos básicos do Amazon FSx para Lustre
A seguir, você aprenderá como começar a usar o Amazon FSx para Lustre. Estas etapas orientam a criação de um sistema de arquivos do Amazon FSx para Lustre e o acesso a ele usando suas instâncias de computação. Opcionalmente, as etapas mostram como usar o sistema de arquivos do Amazon FSx para Lustre para processar os dados no bucket do Amazon S3 com aplicações baseadas em arquivos.
Este exercício sobre os conceitos básicos inclui as etapas apresentadas a seguir.
Tópicos
Pré-requisitos
Para realizar este exercício sobre os conceitos básicos, você precisará do seguinte:
-
Uma conta da AWS com as permissões necessárias para criar um sistema de arquivos do Amazon FSx para Lustre e uma instância do Amazon EC2. Para obter mais informações, consulte Configurar o Amazon FSx for Lustre.
-
Crie um grupo de segurança da Amazon VPC para ser associado ao seu sistema de arquivos do FSx para Lustre e não o altere após a criação do sistema de arquivos. Para obter mais informações, consulte Criar um grupo de segurança para o sistema de arquivos do Amazon FSx.
-
Uma instância do Amazon EC2 que executa uma versão com suporte do Linux em sua nuvem privada virtual (VPC) com base no serviço da Amazon VPC. Para este exercício sobre os conceitos básicos, recomendamos usar o Amazon Linux 2023. Você instalará o cliente do Lustre nesta instância do EC2 e, em seguida, montará o sistema de arquivos do FSx para Lustre na instância do EC2. Para obter mais informações sobre como criar uma instância do EC2, consulte Conceitos básicos: executar uma instância ou Executar sua instância no Guia do usuário do Amazon EC2.
Além do Amazon Linux 2023, o cliente do Lustre oferece suporte aos sistemas operacionais Amazon Linux 2, Red Hat Enterprise Linux (RHEL), CentOS, Rocky Linux, SUSE Linux Enterprise Server e Ubuntu. Para obter mais informações, consulte Compatibilidade com sistema de arquivos e kernel do cliente do Lustre.
-
Ao criar a instância do Amazon EC2 para este exercício sobre os conceitos básicos, lembre-se do seguinte:
-
Recomendamos criar a instância em sua VPC padrão.
-
Recomendamos usar o grupo de segurança padrão ao criar sua instância do EC2.
-
Determinar qual tipo de sistema de arquivos do Amazon FSx para Lustre você deseja criar: transitório ou Persistent. Para obter mais informações, consulte Opções de implantação e classe de armazenamento para sistemas de arquivos do FSx para Lustre.
Cada sistema de arquivos do FSx para Lustre requer um endereço IP para cada servidor de metadados (MDS) e um endereço IP para cada servidor de armazenamento (OSS). Para obter mais informações, consulte Endereços IP para sistemas de arquivos.
Um bucket do Amazon S3 que armazena os dados a serem processados pela workload. O bucket do S3 corresponderá ao repositório de dados durável vinculado ao seu sistema de arquivos do FSx para Lustre.
Etapa 1: criar o sistema de arquivos do FSx para Lustre
Você cria o sistema de arquivos no console do Amazon FSx. Observe que os sistemas de arquivos do FSx para Lustre criados usando o console do Amazon FSx são criados com base na versão 2.15 do Lustre.
Para criar seu sistema de arquivos do
-
Abra o console do Amazon FSx em https://console.aws.amazon.com/fsx/
. -
No painel, escolha Criar sistema de arquivos para iniciar o assistente de criação de sistemas de arquivos.
-
Escolha FSx for Lustre e, em seguida, escolha Próximo para exibir a página Criar sistema de arquivos.
Comece sua configuração com a seção Detalhes do sistema de arquivos.
-
Em Nome do sistema de arquivos (opcional), forneça um nome para seu sistema de arquivos. É possível usar até 256 letras do Unicode, espaços em branco e números, além dos caracteres especiais + - = . _ : /.
-
Em Implantação e classe de armazenamento, escolha uma das opções:
Escolha Persistent, SSD para o armazenamento de longo prazo e para as workloads sensíveis à latência. Com o armazenamento SSD, você recebe cobranças pelo volume de armazenamento que provisiona.
Opcionalmente, escolha com o EFA habilitado para habilitar o suporte ao Elastic Fabric Adapter (EFA) para o sistema de arquivos. Para obter mais informações sobre o EFA, consulte Como trabalhar com sistemas de arquivos habilitados para EFA.
Escolha Persistent, Intelligent-Tiering para obter um armazenamento de longo prazo. A classe de armazenamento de Intelligent-Tiering fornece armazenamento totalmente elástico e econômico, adequado para a maioria das workloads, bem como um cache de leitura de SSD opcional que fornece latências de SSD para leituras de dados acessados com frequência. Com o Intelligent-Tiering, você só recebe cobranças pelos dados que armazena, dependendo do tamanho do seu conjunto de dados, e não precisa especificar o tamanho do sistema de arquivos.
Opcionalmente, escolha com o EFA habilitado para habilitar o suporte ao Elastic Fabric Adapter (EFA) para o sistema de arquivos.
Escolha a implantação Scratch, SSD para o armazenamento temporário e o processamento de dados de curto prazo. Com o armazenamento SSD, você recebe cobranças pelo volume de armazenamento que provisiona.
-
Escolha a quantidade de throughput para o seu sistema de arquivos. Você paga pela quantidade de throughput que provisiona.
Para armazenamento SSD Persistent, escolha um valor de Throughput por unidade de armazenamento. O Throughput por unidade de armazenamento corresponde à quantidade de throughput de leitura e de gravação para cada 1 tebibyte (TiB) de armazenamento provisionado.
Para armazenamento Scratch SSD, escolha um valor de Throughput por unidade de armazenamento.
Para armazenamento de Intelligent-Tiering, escolha um valor de Capacidade de throughput.
-
Em Capacidade de armazenamento (somente para classe de armazenamento SSD), defina a quantidade de capacidade de armazenamento para o sistema de arquivos, em TB:
Para um tipo de implantação Persistent, SSD, defina-a como um valor de 1,2 TiB, 2,4 TiB ou incrementos de 2,4 TiB.
Para um tipo de implantação habilitada para EFA, persistente e de SSD, defina esse valor em incrementos de 4,8 TiB, 9,6 TiB, 19,2 TiB e 38,4 TiB para níveis de throughput de 1.000, 500, 250 e 125 Mbps/TiB, respectivamente.
Você pode aumentar a quantidade de capacidade de armazenamento, conforme necessário, após criar o sistema de arquivos. Para obter mais informações, consulte Como gerenciar a capacidade de armazenamento.
-
Para a configuração de metadados, escolha uma das seguintes opções para provisionar o número de IOPS de metadados para seu sistema de arquivos:
-
Escolha Automático (somente para classe de armazenamento SSD) se quiser que o Amazon FSx para Lustre provisione e escale automaticamente as IOPS de metadados em seu sistema de arquivos com base na capacidade de armazenamento do sistema de arquivos.
-
Escolha Provisionado pelo usuário se quiser especificar o número de IOPS de metadados a ser provisionadas ao seu sistema de arquivos com classe de armazenamento SSD ou Intelligent-Tiering. Os valores válidos são os seguintes:
Para sistemas de arquivos SSD, os valores válidos são
1500,3000,6000,12000e múltiplos de12000, até um máximo de192000.Para sistemas de arquivos de Intelligent-Tiering, os valores válidos são
6000e12000.
Para obter mais informações sobre IOPS de metadados, consulte Configuração de desempenho de metadados do Lustre.
-
-
Em Cache de leitura SSD (somente Intelligent-Tiering), selecione Automático (proporcional à capacidade de throughput) ou Personalizado (provisionado pelo usuário). Com a opção Automática, o Amazon FSx para Lustre escolhe automaticamente um tamanho de cache de leitura com base no seu throughput provisionado. Se você souber o tamanho aproximado do seu conjunto de dados de trabalho ativo, poderá selecionar Personalizado para personalizar o tamanho do cache de leitura do SSD. Para obter mais informações, consulte Gerenciamento do cache de leitura baseado em SSD provisionado.
-
Em Tipo de compactação de dados, escolha NENHUM para desativar a compactação de dados ou escolha LZ4 para ativar a compactação de dados com o algoritmo LZ4. Para obter mais informações, consulte Compressão de dados do Lustre.
-
Na seção Rede e segurança, forneça as seguintes informações relacionadas à rede e ao grupo de segurança:
Em Nuvem privada virtual (VPC), escolha a VPC que você deseja associar ao sistema de arquivos. Para este exercício sobre os conceitos básicos, escolha a mesma VPC escolhida para a instância do Amazon EC2.
Em Grupos de segurança de VPC, o ID do grupo de segurança padrão para sua VPC já deve estar adicionado.
Se você não estiver usando o grupo de segurança padrão, certifique-se de que a regra de entrada a seguir seja adicionada ao grupo de segurança que você está usando neste exercício sobre os conceitos básicos.
Tipo Protocolo Intervalo de portas Origem Descrição Todos os TCP TCP 0-65535 Personalizado the_ID_of_this_security_groupRegra do tráfego de entrada do Lustre Importante
Certifique-se de que o grupo de segurança que você está usando siga as instruções de configuração apresentadas em Controle de acesso ao sistema de arquivos com a Amazon VPC. Você deve configurar o grupo de segurança para permitir o tráfego de entrada nas portas 988 e 1018 a 1023 do próprio grupo de segurança ou do CIDR completo da sub-rede, que é necessário para permitir que os hosts do sistema de arquivos se comuniquem entre si.
Se você estiver criando um sistema de arquivos habilitado para EFA, certifique-se de especificar um grupo de segurança habilitado para EFA.
Em Sub-rede, escolha qualquer valor na lista de sub-redes disponíveis.
-
Na seção Criptografia, as opções disponíveis variam com base no tipo de sistema de arquivos que você está criando:
-
Para um sistema de arquivos Persistent, é possível escolher uma chave de criptografia do AWS Key Management Service (AWS KMS) para criptografar os dados em seu sistema de arquivos em repouso.
-
Para um sistema de arquivos transitório, os dados em repouso são criptografados usando chaves gerenciadas pela AWS.
-
Para sistemas de arquivos transitório 2 e Persistent, os dados em trânsito são criptografados automaticamente quando o sistema de arquivos é acessado usando um tipo de instância do Amazon EC2 com suporte. Para obter mais informações, consulte Criptografia de dados em trânsito.
-
-
Na seção Importação e exportação de repositórios de dados opcional, a vinculação do sistema de arquivos aos repositórios de dados do Amazon S3 está desabilitado por padrão. Para obter informações sobre como habilitar essa opção e criar uma associação de repositório de dados a um bucket do S3 existente, consulte Para vincular um bucket do S3 ao criar um sistema de arquivos (console).
Importante
Selecionar esta opção também desabilita os backups e você não poderá habilitá-los durante a criação do sistema de arquivos.
Se você vincular um ou mais sistemas de arquivos do Amazon FSx para Lustre a um bucket do Amazon S3, não exclua o bucket do Amazon S3 até que todos os sistemas de arquivos vinculados tenham sido excluídos.
Os sistemas de arquivos de Intelligent-Tiering não são compatíveis com a vinculação de repositórios de dados do Amazon S3.
-
Em Registro em log opcional, o registro em log está habilitado por padrão. Quando habilitado, as falhas e os avisos de atividades relacionadas ao repositório de dados no sistema de arquivos são registrados em log no Amazon CloudWatch Logs. Para obter informações sobre como configurar o registro em log, consulte Como gerenciar registros em log.
-
Em Backup e manutenção opcional, é possível realizar os procedimentos a seguir.
-
Desabilite o Backup automático diário. Esta opção está habilitada por padrão, a menos que você tenha habilitado Importação e exportação de repositórios de dados.
-
Defina o horário de início para a Janela de backup automático diário.
-
Defina o Período de retenção de backup automático, que pode ter de 1 a 35 dias.
-
Defina o horário de início para a Janela de manutenção semanal ou mantenha-o definido como o padrão Sem preferência.
Para obter mais informações, consulte Proteger seus dados com backups e Janelas de manutenção do Amazon FSx para Lustre.
-
-
Em Root Squash optional, o root squash é desabilitado por padrão. Para obter informações sobre como habilitar e configurar o root squash, consulte Para habilitar o root squash ao criar um sistema de arquivos (console).
-
Crie todas as tags que deseja aplicar ao sistema de arquivos.
-
Escolha Próximo para exibir a página Resumo da criação de sistemas de arquivos.
-
Analise as configurações do sistema de arquivos do Amazon FSx para Lustre e, em seguida, escolha Criar sistema de arquivos.
Agora que você criou o sistema de arquivos, anote o nome de domínio totalmente qualificado e o nome da montagem a serem usados em uma etapa posterior. Você pode encontrar o nome de domínio totalmente qualificado e o nome da montagem de um sistema de arquivos ao escolher o nome do sistema de arquivos no painel Sistemas de arquivos e, em seguida, ao selecionar Anexar.
Etapa 2: instalar e configurar o cliente do Lustre
Antes que possa acessar o sistema de arquivos do Amazon FSx para Lustre usando a instância do Amazon EC2, é necessário fazer o seguinte:
Verifique se sua instância do EC2 atende aos requisitos mínimos do kernel.
Atualize o kernel, se necessário.
Faça o download e instale o cliente do Lustre.
Para verificar a versão do kernel e baixar o cliente do Lustre
-
Abra uma janela de terminal na sua instância do EC2.
-
Determine qual kernel está em execução, no momento, na sua instância de computação ao executar o comando apresentado a seguir.
uname -r -
Execute um destes procedimentos:
-
Se o comando retornar
6.1.79-99.167.amzn2023.x86_64para as instâncias do EC2 baseadas em x86 ou6.1.79-99.167.amzn2023.aarch64ou valores superiores para as instâncias do EC2 baseadas no Graviton2, faça download e instale o cliente do Lustre com o comando apresentado a seguir.sudo dnf install -y lustre-client -
Se o comando retornar um resultado inferior a
6.1.79-99.167.amzn2023.x86_64para as instâncias do EC2 baseadas em x86 ou inferior a6.1.79-99.167.amzn2023.aarch64para as instâncias do EC2 baseadas no Graviton2, atualize o kernel e reinicialize a instância do Amazon EC2 ao executar o comando apresentado a seguir.sudo dnf -y update kernel && sudo rebootConfirme se o kernel foi atualizado usando o comando uname -r. Em seguida, faça download e instale o cliente do Lustre conforme descrito acima.
Para obter informações sobre como instalar o cliente do Lustre em outras distribuições do Linux, consulte Instalar o cliente do Lustre.
-
Etapa 3: montar o sistema de arquivos
Para montar o sistema de arquivos, você criará um diretório de montagem ou ponto de montagem e, em seguida, montará o sistema de arquivos no seu cliente e verificará se ele pode acessar o sistema de arquivos.
Como montar o sistema de arquivos
-
Faça um diretório para o ponto de montagem com o comando a seguir.
sudo mkdir -p /mnt/fsx -
Monte o sistema de arquivos do Amazon FSx para Lustre no diretório que você criou. Use o seguinte comando e substitua os seguintes itens:
Substitua
pelo nome do Sistema de Nomes de Domínio (DNS) real do sistema de arquivos.file_system_dns_nameSubstitua
pelo nome da montagem do sistema de arquivos, que você pode obter ao executar o comando describe-file-systems da AWS CLI ou a operação de API DescribeFileSystems.mountname
sudo mount -t lustre -o relatime,flockfile_system_dns_name@tcp:/mountname/mnt/fsxEste comando monta o sistema de arquivos com duas opções,
-o relatimeeflock:-
relatime: embora a opçãoatimemantenha dados deatime(horários de acesso de inodes) para cada vez que um arquivo é acessado, a opçãorelatimetambém mantém dados deatime, mas não para cada vez que um arquivo é acessado. Com a opçãorelatimehabilitada, os dados deatimeserão gravados para o disco somente se o arquivo tiver sido modificado desde a última atualização dos dados deatime(mtime) ou se o arquivo tiver sido acessado pela última vez há mais tempo do que um determinado período (seis horas por padrão). Usar a opçãorelatimeouatimeotimizará os processos de liberação de arquivos.nota
Se a workload requerer uma precisão rigorosa quanto ao horário de acesso, você poderá montar com a opção de montagem
atime. No entanto, isso pode afetar a performance da workload ao aumentar o tráfego de rede necessário para manter valores rigorosos quanto ao horário de acesso.Se a workload não requerer o horário de acesso aos metadados, usar a opção de montagem
noatimepara desabilitar atualizações relacionadas ao horário de acesso poderá proporcionar um ganho de performance. Esteja ciente de que os processos focados na opçãoatime, como a liberação de arquivos ou a liberação da validade de dados, serão imprecisos em suas liberações. -
flock: ativa o bloqueio de arquivos para o sistema de arquivos. Se você não desejar que o bloqueio de arquivos seja habilitado, use o comandomountsemflock.
-
Verifique se o comando mount ocorreu com êxito ao listar o conteúdo do diretório no qual você montou o sistema de arquivos
/mnt/fsx, usando o comando apresentado a seguir.ls /mnt/fsximport-path lustre $Você também pode usar o comando
dfapresentado a seguir.df Filesystem 1K-blocks Used Available Use% Mounted on devtmpf 1001808 0 1001808 0% /dev tmpfs 1019760 0 1019760 0% /dev/shm tmpfs 1019760 392 1019368 1% /run tmpfs 1019760 0 1019760 0% /sys/fs/cgroup /dev/xvda1 8376300 1263180 7113120 16% / 123.456.789.0@tcp:/mountname3547698816 13824 3547678848 1% /mnt/fsx tmpfs 203956 0 203956 0% /run/user/1000Os resultados mostram o sistema de arquivos do Amazon FSx montado em /mnt/fsx.
Etapa 4: executar seu fluxo de trabalho
Agora que o sistema de arquivos foi criado e montado em uma instância de computação, é possível usá-lo para executar a workload de computação de alta desempenho.
Você pode criar uma associação de repositório de dados para vincular o sistema de arquivos a um repositório de dados do Amazon S3. Para obter mais informações, consulte Vincular o sistema de arquivos a um bucket do Amazon S3.
Após vincular o sistema de arquivos a um repositório de dados do Amazon S3, você poderá exportar os dados gravados no sistema de arquivos de volta para o bucket do Amazon S3 a qualquer momento. Em um terminal em uma de suas instâncias de computação, execute o comando apresentado a seguir para exportar um arquivo para o bucket do Amazon S3.
sudo lfs hsm_archivefile_name
Para obter mais informações sobre como executar esse comando em uma pasta ou em uma grande coleção de arquivos com rapidez, consulte Exportação de arquivos usando comandos do HSM.
Etapa 5: limpar os recursos
Após concluir este exercício, você deverá seguir estas etapas para limpar os recursos e proteger sua conta da AWS.
Como limpar recursos
-
Se desejar realizar uma exportação final, execute o comando apresentado a seguir.
nohup find /mnt/fsx -type f -print0 | xargs -0 -n 1 sudo lfs hsm_archive & -
No console do Amazon EC2, encerre sua instância. Para obter mais informações, consulte Encerramento de instâncias no Guia do usuário do Amazon EC2.
-
No console do Amazon FSx para Lustre, exclua o sistema de arquivos com o seguinte procedimento:
-
No painel de navegação, escolha Sistemas de arquivos.
-
Escolha o sistema de arquivos que você deseja excluir da lista de sistemas de arquivos no painel.
-
Para Ações, escolha Excluir sistema de arquivos.
-
Na caixa de diálogo exibida, escolha se deseja fazer um backup final do sistema de arquivos. Em seguida, forneça o ID do sistema de arquivos para confirmar a exclusão. Escolha Excluir sistema de arquivos.
-
-
Se você criou um bucket do Amazon S3 para este exercício e não deseja preservar os dados exportados, você pode excluí-lo agora. Para obter mais informações, consulte Excluir um bucket no Guia do usuário do Amazon Simple Storage Service.