AWS ParallelCluster
Alteração |
Descrição |
Data |
AWS ParallelCluster versão 3.13.2 lançada
|
Para atualizar, insira o seguinte:sudo pip install --upgrade aws-parallelcluster .
Correções de erros:
-
Corrija um bug que pode causar update-cluster e update-compute-fleet falhar quando recursos computacionais fazem referência a uma reserva de capacidade expirada que não está mais acessível via. EC2 APIs
-
Corrige a build-image falha no Rocky 9 que ocorre quando a imagem principal não é fornecida com a versão mais recente do kernel. Consulte https://github.com/aws/aws-parallelcluster/issues/6874.
|
24 de junho de 2025
|
AWS ParallelCluster versão 3.13.1 lançada
|
Para atualizar, insira o seguinte:sudo pip install --upgrade aws-parallelcluster .
Alterações:
-
Atualize o Slurm para a versão 24.05.8.
-
Atualize o instalador EFA para 1.41.0 (de 1.38.1).
-
Controlador EFA: efa-2.15.0-1
-
Configuração EFA: efa-config-1.18-1
-
Perfil EFA: efa-profile-1.7-1
-
libfabric-aws: libfabric-aws-2.1.0-1
-
Núcleo RDMA: rdma-core-57.0-1
-
Abra MPI: openmpi40-aws-4.1.7-2 e openmpi50-aws-5.0.6
-
Atualize amazon-efs-utils para a versão 2.3.1 (da v2.1.0) para AMIs Linux que não sejam da Amazon.
-
Support DCV em us-isob-east -1 e us-iso-east -1.
-
Support FSX para Lustre e Ontap em us-isob-east -1 e -1. us-iso-east
-
Garanta a consistência do kernel em toda a criação da ParallelCluster imagem fixando no início e desfixando na conclusão.
Correções de erros:
-
Corrija um bug na instalação da ARM Performance Library que estava causando a falha da imagem de compilação em ambientes isolados.
-
Corrija um bug que estava impedindo o script 'update_directory_service_password.sh' de atualizar a senha do AD.
|
04 de junho de 2025
|
AWS ParallelCluster versão 3.13.0 lançada
|
Para atualizar, insira o seguinte:sudo pip install --upgrade aws-parallelcluster .
Depreciações:
Melhorias:
-
Adicione suporte para o Ubuntu 24.04.
-
Adicione suporte para a região ap-southeast-7.
-
Desative os serviços não utilizados cups e wpa_supplicant do Official para melhorar a segurança. ParallelCluster AMIs
Alterações:
-
Atualize o Slurm para a versão 24.05.7.
-
Atualize o driver NVIDIA para a versão 570.86.15 (de 550.127.08) para todos, exceto. OSs AL2
-
Atualize o CUDA Toolkit para a versão 12.8.0 (de 12.4.1) para todos, exceto. OSs AL2
-
Atualize o Python para 3.12.8 para todos, OSs exceto AL2 (a partir de 3.9.20).
-
No Ubuntu 22.04, instale o driver da Nvidia com a mesma versão do compilador usada para compilar o kernel.
-
Atualize aws-cfn-bootstrap para a versão 2.0-33.
-
Atualize o instalador EFA para 1.38.0 (de 1.36.0).
-
Controlador EFA: efa-2.13.0-1
-
Configuração EFA: efa-config-1.17-1
-
Perfil EFA: efa-profile-1.7-1
-
Libfabric-aws : libfabric-aws-1.22.0-1
-
Núcleo RDMA: núcleo rdma-54.0-1
-
Open MPI: openmpi40-aws-4.1.7-1 e openmpi50-aws-5.0.5
-
Atualize amazon-efs-utils para a versão 2.1.0.
-
Remova o livro de receitas de terceiros: apt-7.5.22 e pyenv-4.2.3.
-
Atualização de dependências de manuais de instruções (cookbook) de terceiros:
-
linha-4.5.21 (da linha-4.5.13)
-
nfs-5.1.5 (de nfs-5.1.2)
-
openssh-2.11.14 (de openssh-2.11.12)
-
yum-7.4.20 (do yum-7.4.13)
-
yum-epel-5.0.8 (de yum-epel-5.0.2)
-
Atualize o Pmix para 5.0.6 (de 5.0.3).
-
Atualize o ARM PL para a versão 24.10 (a partir de 23.10).
-
Atualize o Python para a versão 3.12.8 (a partir da 3.9.17) na camada Lambda e no instalador.
-
Atualize o NodeJS para a versão 20.18.3 (de 18.20.3) na camada Lambda e no instalador.
-
Remova a geração de chaves DSA para nós de login como DSA, que se tornou incompatível com o OpenSSH 9.7+.
-
Defina o ID da instância e as informações do tipo de instância no Slurm na inicialização dos nós de computação.
-
Instale os drivers da NVIDIA sem a opção 'no-cc-version-check', que agora está obsoleta no instalador da NVIDIA.
-
Adicione um validador para aplicar até 10 pools de nós de login.
-
Atualize o tamanho padrão do volume raiz para 45 GB.
Correções de erros:
-
Remova o uso do cfn-init para inicialização do nó de computação para reduzir o tempo de expansão do nó.
-
Corrija um problema que causa falha no bootstrap do nó de computação quando um proxy é usado.
-
No Ubuntu 22.04, instale o driver da Nvidia com a mesma versão do compilador usada para compilar o kernel para evitar falhas na instalação.- Corrija a execução do aws-parallelcluster-node pacote de substituição somente no nó principal durante a atualização.
-
Corrija um problema em que trabalhos em contêineres executados Pyxis/Enroot em um ambiente multiusuário (integrado ao Active Directory) falhariam.
-
Corrige o uso do authselect que causa falhas no node bootstrap no Rocky 9.5+ quando o serviço de diretório é usado.
|
01 de abril de 2025
|
AWS ParallelCluster versão 3.12.0 lançada
|
Para atualizar, insira o seguinte:sudo pip install --upgrade aws-parallelcluster .
Melhorias:
-
Adicione uma nova seção de configuração de imagem de compilação Build/Installation para ativar/desativar o software NVIDIA e as instalações do cliente Lustre. Por padrão, o software NVIDIA, embora incluído na versão oficial ParallelCluster AMIs, não é instalado pelobuild-image . Por padrão, o cliente Lustre está instalado.
-
A CLI comanda export-cluster-logs e agora export-image-logs pode, por padrão, exportar os registros para o ParallelCluster bucket padrão ou para o Customs3Bucket, se especificado na configuração.
-
Estenda o suporte do Amazon DCV para o Ubuntu2204 em instâncias ARM.
Alterações:
-
Atualize o driver NVIDIA para a versão 550.127.08 (de 550.90.07). Isso soluciona um problema conhecido da NVIDIA. Para obter mais informações, consulte Problemas conhecidos na documentação do NVIDIA Data Center.
-
Atualize o Amazon DCV para a versão2024.0-18131 .
-
Atualização do instalador EFA para 1.36.0 .
-
Driver EFA: efa-2.13.0-1
-
Efa-config: efa-config-1.17-1
-
Efa-profile: efa-profile-1.7-1
-
Libfabric-aws: libfabric-aws-1.22.0-1
-
Rdma-core: rdma-core-54.0-1
-
Open MPI: openmpi40-aws-4.1.7-1 e openmpi50-aws-5.0.5
-
Reinicie automaticamente o slurmctld em caso de falha.
-
Atualize mysql-community-client para a versão 8.0.39.
-
Remova o suporte para Python 3.7 e 3.8, que estão no fim da vida útil.
Correções de erros:
-
Corrija um problema em que alterações na sequência de scripts de ações personalizadas não foram detectadas durante as atualizações do cluster.
-
Adicione as permissões ausentes para a AWS ParallelCluster API para criar as funções vinculadas ao serviço para o Elastic Load Balancing e o Auto Scaling, que são necessárias para implantar nós de login.
-
Corrija um problema na forma como obtemos a região ao gerenciar volumes para que ela possa lidar corretamente com a zona local.
-
Corrige um problema em que a adição de sistemas de arquivos EFS AccessPointIds durante uma atualização falharia.
-
Corrija um problema em que, ao usar o PCAPI, a atualização do cluster poderia falhar ao atualizar um parâmetro que não é do tipo String (por exemplo,MaxCount ).
-
Ao montar um OpenZFS externo, não é mais necessário definir as regras de saída para as portas 11, 2049, 20001, 20002, 20003.
|
19 de dezembro de 2024
|
AWS ParallelCluster versão 3.11.1 lançada
|
Recursos:
-
O Pyxis agora está desabilitado por padrão, portanto, deve ser habilitado manualmente, conforme registrado na documentação do produto.
-
Atualize o tempo de execução do Python para a versão 3.12 no ParallelCluster Lambda Layer.
-
Remove a fixação da versão das ferramentas de configuração para versões anteriores a 70.0.0.
-
Atualiza o libjwt para a versão 1.17.0.
Log de alterações completo
Correções de bugs
-
Corrija um problema na forma como configuramos o plug-in Pyxis Slurm ParallelCluster que pode levar a falhas no envio de trabalhos.
-
Corrija um problema que estava causando falhas na implantação em configurações com nós de login adicionando as permissões ausentes exigidas pelos nós de login no modelo público de políticas. https://github.com/aws/aws-parallelcluster/issues/6483
|
21 de outubro de 2024
|
AWS ParallelCluster versão 3.11.0 lançada
|
Melhorias
Adicione suporte para ações personalizadas nos nós de login. Permita a conexão DCV aos nós de login. Adicione suporte para a região ap-southeast-3. Adicione grupos de segurança ao balanceador de carga de rede do nó de login. Adicione AllowedIps configuração para nós de login. Adicionar nova configuração SharedStorage/EfsSettings/AccessPointId para especificar um ponto de acesso EFS opcional para uma montagem Permita até 10 pools de nós de login. Instale o enroot e o pyxis no pcluster oficial AMIs
Alterações
[BREAKING] O loginNodes campo retornado pela API DescribeCluster e pelo comando da CLI describe-cluster foi alterado de um dicionário para uma matriz para oferecer suporte a vários grupos de nós de login. Essa alteração quebra a compatibilidade com versões anteriores, tornando essas operações incompatíveis com clusters implantados com versões mais antigas.
Atualize o Slurm para 23.11.10 (de 23.11.7). Atualize o Pmix para 5.0.3 (de 5.0.2). Atualização do instalador EFA para 1.34.0 .
Driver EFA: efa-2.10.0-1 Efa-config: efa-config-1.17-1 Efa-profile: efa-profile-1.7-1 Libfabric-aws: libfabric-aws-1.22.0-1 Rdma-core: rdma-core-52.0-1 Open MPI: openmpi40-aws-4.1.6-3 e openmpi50-aws-5.0.3-11
Atualize o driver NVIDIA para a versão 550.90.07 (de 535.183.01). Atualize o CUDA Toolkit para a versão 12.4.1 (de 12.2.2). Atualize o Python para 3.9.20 (de 3.9.19). Atualize a Biblioteca Intel MPI para 2021.13.1.769 (a partir de 2021.12.1.8).
Correções de bugs
Corrija o validador EfaPlacementGroupValidator para que ele não sugira a configuração de um grupo de posicionamento quando blocos de capacidade forem usados. Corrija falhas ocasionais na criação de clusters garantindo que FSx os sistemas de arquivos do Lustre sejam criados de acordo com as regras do grupo de segurança. Corrija a falha de exclusão do cluster quando o grupo de posicionamento está ativado. Corrija o problema com os nós de login marcados como não íntegros ao restringir o acesso SSH. Corrija retrieve_supported_regions para que ele possa obter o URL correto do S3. Correção describe_images para usar paginação. Corrige o No route tables found erro ao especificar a LoginNodes sub-rede VPC padrão para /Networking/. SubnetIds
|
26 de setembro de 2024
|
AWS ParallelCluster versão 3.10.1 lançada
|
Correções de bugs
|
8 de julho de 2024
|
AWS ParallelCluster versão 3.10.0 lançada
|
Melhorias:
-
Adicione uma nova seção de configuração Scheduling/SlurmSettings/ExternalSlurmdbd para conectar o cluster a um Slurmdbd externo.
-
Permita que a imagem de construção seja executada em uma rede isolada.
-
Adicione suporte para Amazon Linux 2023.
-
Adicione suporte para price-capacity-optimized comoAllocationStrategy .
-
Adicione um validador para evitar o uso de grupos de posicionamento com blocos de capacidade.
Alterações:
-
O CentOS 7 não é mais suportado.
-
Atualize o Cinc Client para a versão 18.4.12 a partir de 18.2.7.
-
Atualize o munge para a versão 0.5.16 (de 0.5.15).
-
Atualize o Pmix para 5.0.2 (de 4.2.9).
-
Atualização de dependências de manuais de instruções (cookbook) de terceiros:
-
Remova o livro de receitas de terceiros: selinux-6.1.12.
-
Atualização do instalador EFA para 1.32.0 .
-
Driver EFA: efa-2.8.0-1
-
Efa-config: efa-config-1.16-1
-
Efa-profile: efa-profile-1.7-1
-
Libfabric-aws: libfabric-aws-1.21.0-1
-
Rdma-core: rdma-core-50.0-1
-
Open MPI: openmpi40-aws-4.1.6-3 e openmpi50-aws-5.0.2-12
-
Atualize o driver NVIDIA para a versão 535.183.01 (de 535.154.05).
-
Atualize o Python para 3.9.19 (de 3.9.17).
-
Atualize a Biblioteca Intel MPI para 2021.12.1.8 (de 2021.9.0.43482).
Correções de erros:
-
Corrija a configuração de associações de repositório de dados para torná-la AutoExportPolicy AutoImportPolicy opcional.
-
Foi corrigido um problema durante a exclusão do cluster que agora conclui a limpeza da frota de computação quando as instâncias estavam encerradas ou encerradas. Isso é para evitar falhas na exclusão de clusters para tipos de instância com ciclos de encerramento mais longos.
-
Permita que o painel do cloudwatch seja ativado e os alarmes sejam desativados na Monitoring seção de configuração do cluster.
-
Permita que o recurso ParallelCluster personalizado suprima o uso de validadores. PclusterCluster/SuppressValidators
-
Removendo /etc/profile.d/pcluster.sh para que não seja executado em cada login do usuário e não cfn_bootstrap_virtualenv seja adicionado na variável de ambiente PATH.
-
Corrija a especificação ParallelCluster da API substituindo o campo failureReason por failures em DescribeCluster resposta.
-
Corrija a especificação da ParallelCluster API adicionando o status da CloudFormation pilha que estava faltando: IMPORT_* e. REVIEW_IN_PROGRESS UPDATE_FAILED
-
Corrija um problema que impedia que as atualizações de cluster incluíssem sistemas de arquivos EFS com criptografia em trânsito.
-
Corrija um problema que impedia que os serviços slurmctld e slurmdbd fossem reiniciados na reinicialização do nó principal quando o EFS era usado para dados internos compartilhados.
-
Nos sistemas Ubuntu, remova a configuração padrão do logrotate para arquivos de log cloud-init que entravam em conflito com a configuração proveniente. ParallelCluster
-
Corrija a falha na construção da imagem com o RHEL 8.10 ou mais recente.
|
27 de junho de 2024
|
AWS ParallelCluster versão 3.9.3 lançada
|
Para atualizar, digite sudo pip install --upgrade aws-parallelcluster .
Recursos:
Correções de erros:
-
Remove cloud_dns de SlurmctldParameters na configuração do Slurm para evitar problemas de fanout do Slurm.
Isso não é obrigatório, pois definimos o endereço IP na inicialização da instância.
|
19 de junho de 2024
|
AWS ParallelCluster versão 3.9.2 lançada
|
Recursos:
-
Atualize o Slurm para 23.11.7 (de 23.11.4).
-
Para obter mais detalhes, consulte o CHANGELOG 3.9.2 on GitHub.
|
28 de maio de 2024
|
AWS ParallelCluster versão 3.9.1 lançada
|
Para atualizar, insira o seguinte: sudo pip install --upgrade
aws-parallelcluster
Correções de bugs
|
11 de abril de 2024
|
AWS ParallelCluster versão 3.9.0 lançada
|
Para atualizar, insira o seguinte: sudo pip install --upgrade
aws-parallelcluster
Melhorias:
-
Adiciona o parâmetro de configuração DeploymentSettings/DefaultUserHome para permitir que os usuários movam o diretório inicial do usuário padrão para /local/home em vez de /home (padrão).
-
Permite a atualização dos parâmetros de configuração MinCount , MaxCount , Queue e ComputeResource sem precisar interromper a frota de computação. Agora é possível atualizá-los configurando Scheduling/SlurmSettings/QueueUpdateStrategy como TERMINATE. O AWS ParallelCluster encerrará somente os nós removidos durante um redimensionamento da capacidade do cluster realizado por meio de uma atualização do cluster.
-
Permita atualizar o armazenamento externo compartilhado do tipo Efs, FsxLustre, FsxOntap, FsxOpenZfs e FileCache sem substituir a frota de computação e login.
-
Adicione suporte para RHEL9.
-
Adiciona suporte para Rocky Linux 9 como CustomAmi criado por meio do processo build-image . Nenhuma AMI pública oficial do AWS ParallelCluster Rocky9 Linux está disponível no momento.
-
Remover CommunicationParameters da lista de negação das configurações personalizadas do Slurm.
-
Adicione um DeploymentSettings/DisableSudoAccessForDefaultUser parâmetro para desativar o acesso sudo do usuário padrão no suporte OSes.
-
Alterações nos sistemas FSx de arquivos Lustre criados por ParallelCluster: Altere a versão do servidor Lustre para 2.15.
-
Adiciona a possibilidade de escolher entre drivers da Nvidia de código aberto e fechado ao criar uma AMI, por meio do atributo de nó do cookbook ['cluster']['nvidia']['kernel_open'] .
-
* Adicione uma opção de configuração clustermgtd ec2_instance_missing_max_count para permitir uma quantidade configurável de novas tentativas para eventuais instâncias descritas da Amazon EC2 com instâncias executadas.
Alterações
-
Atualize o Slurm para 23.11.4 (de 23.02.7).
-
Atualiza o driver da NVIDIA para a versão 535.154.05.
-
Adicione suporte para Python 3.11, 3.12 na CLI do pcluster e. aws-parallelcluster-batch-cli
-
Crie interfaces de rede usando o índice da placa de rede da NetworkCardIndex lista de EC2 DescribeInstances respostas da Amazon, em vez de repetir MaximumNetworkCards o alcance.
-
Falha na criação do cluster ao usar os tipos de instância P3, G3, P2 e G2 porque a arquitetura de GPU desses tipos não é compatível com os drivers da Nvidia de código aberto (OpenRM) lançados como parte da versão 3.8.0.
-
Atualiza as dependências de cookbooks de terceiros: nfs-5.1.2 (era a versão nfs-5.0.0).
-
Atualiza o instalador do EFA para 1.30.0.
-
Driver EFA: efa-2.6.0-1
-
Efa-config: efa-config-1.15-1
-
Efa-profile: efa-profile-1.6-1
-
Libfabric-aws: libfabric-aws-1.19.0
-
Rdma-core: rdma-core-46.0-1
-
Open MPI: openmpi40-aws-4.1.6-2 e openmpi50-aws-5.0.0-11
-
Atualiza o NICE DCV para a versão 2023.1-16388.
Correções de bugs
-
Corrige o problema que fazia o trabalho falhar quando enviado como usuário do Active Directory usando nós de login. O problema era causado por uma configuração incompleta da integração com o Active Directory externo no nó principal.
-
Refatore as políticas do IAM definidas no CloudFormation modelo parallelclutser-policies.yaml para evitar ParallelCluster falhas na implantação da API causadas por políticas que excedem os limites do IAM.
-
Corrige o problema em que os nós de login falham ao inicializar devido à demora do nó principal em gravar as chaves.
Para obter detalhes sobre as alterações, consulte os CHANGELOG arquivos do aws-parallelcluster-uipacote em GitHub.
|
5 de março de 2024
|
AWS ParallelCluster versão 3.8.0 lançada
|
AWS ParallelCluster versão 3.8.0 lançada.
Melhorias:
-
Adicione suporte para Amazon EC2 Capacity Blocks for ML.
-
Adiciona suporte para Rocky Linux 8 como CustomAmi criado por meio do processo build-image . Nenhuma AMI pública oficial do AWS ParallelCluster Rocky8 Linux está disponível no momento.
-
Adicione um Scheduling/ScalingStrategy parâmetro para controlar a estratégia de escalabilidade de cluster a ser usada ao iniciar EC2 instâncias da Amazon para nós de computação do Slurm. Os valores possíveis são all-or-nothing , greedy-all-or-nothing e best-effort , sendo all-or-nothing o padrão.
-
Adicione um HeadNode/SharedStorageType parâmetro para usar o armazenamento EFS em vez das exportações NFS do volume raiz do nó principal para recursos do sistema de arquivos compartilhado dentro do cluster: Intel ParallelCluster, Slurm e dados. /home Esse aprimoramento reduz a carga na rede do nó principal.
-
Permita a montagem /home como um EFS ou armazenamento FSx externo compartilhado por meio da SharedStorage seção do arquivo de configuração.
-
Adicione um novo parâmetro SlurmSettings/MungeKeySecretArn para permitir o uso de uma chave MUNGE externa definida pelo usuário do AWS Secrets Manager.
-
Adicione um Monitoring/Alarms/Enabled parâmetro para ativar os Amazon CloudWatch Alarms para o cluster.
-
Adicione alarmes do nó principal para monitorar as verificações de EC2 saúde da Amazon, a utilização da CPU e o status geral do nó principal, e adicione-os ao CloudWatch painel criado com o cluster.
-
Adicione suporte para associações de repositório de dados ao usar PERSISTENT_2 como gerenciado DeploymentType FSx para o Lustre.
-
Adicione um Scheduling/SlurmSettings/Database/DatabaseName parâmetro para permitir que os usuários especifiquem um nome personalizado para o banco de dados no servidor de banco de dados a ser usado na contabilidade do Slurm.
-
Torna o InstanceType um parâmetro de configuração opcional ao configurar CapacityReservationTarget/CapacityReservationId no recurso de computação.
-
Adiciona a possibilidade de especificar um prefixo para perfis e políticas do IAM criados pela API do AWS ParallelCluster .
-
Adicione a possibilidade de especificar um limite de permissões a ser aplicado às funções e políticas do IAM criadas pela AWS ParallelCluster API.
Alterações
-
Atualize o Slurm para 23.02.7 (de 23.02.6).
-
Atualiza o driver da NVIDIA para a versão 535.129.03.
-
Atualiza o CUDA Toolkit para a versão 12.2.2.
-
Usa drivers de GPU da NVIDIA de código aberto (OpenRM) como módulo de kernel da NVIDIA para Linux em vez do módulo de código fechado da NVIDIA.
-
Remova o suporte ao parâmetro de all_or_nothing_batch configuração no programa de retomada do Slurm, em favor da nova configuração do Scheduling/ScalingStrategy cluster.
-
Alteração da convenção de nomenclatura de alarmes de cluster para “[nome do cluster]-[nome do componente]-[métrica]”.
-
Altera os tipos de volume padrão do EBS nas regiões ADC de gp2 para gp3, tanto para volumes raiz quanto para volumes adicionais.
-
O limite de permissões opcionais para a AWS ParallelCluster API agora é aplicado a todas as funções do IAM criadas pela infraestrutura da API.
-
Atualização do instalador EFA para 1.29.1 .
-
Driver EFA: efa-2.6.0-1
-
Efa-config: efa-config-1.15-1
-
Efa-profile: efa-profile-1.5-1
-
Libfabric-aws: libfabric-aws-1.19.0-1
-
Rdma-core: rdma-core-46.0-1
-
Open MPI: openmpi40-aws-4.1.6-1
-
Atualize GDRCopy para a versão 2.4 em todas as versões suportadas OSes, exceto para o Centos 7, onde a versão 2.3.1 é usada.
-
Atualiza aws-cfn-bootstrap para a versão 2.0-28.
-
Adicione suporte para Python 3.10 em. aws-parallelcluster-batch-cli
Correções de bugs
-
Corrige a configuração de escalabilidade inconsistente após reversão de atualização de cluster ao modificar a lista de tipos de instância declarados nos recursos de computação.
-
Corrige a geração de chaves SSH de usuários ao alternar usuários sem privilégios para raiz em clusters integrados a um servidor LDAP externo por meio de arquivos de configuração de cluster.
-
Corrija a desativação do modo de economia de energia do Slurm durante a configuração. ScaledownIdletime =
-1
-
Corrija o caminho codificado para o diretório de instalação do Slurm no update_slurm_database_password.sh script do Slurm Accounting.
|
19 de dezembro de 2023
|
AWS ParallelCluster versão 3.7.2 lançada
|
AWS ParallelCluster versão 3.7.2 lançada.
Alterações:
|
25 de outubro de 2023
|
AWS ParallelCluster versão 3.7.1 lançada
|
AWS ParallelCluster versão 3.7.1 lançada.
Alterações:
-
Atualize o Slurm para 23.02.5 (de 23.02.4).
-
Atualiza o instalador do EFA para a versão 1.26.1 , corrigindo o problema de gravação de dados RDMA no P5.
-
Efa-driver: efa-2.5.0-1
-
Efa-config: efa-config-1.15-1
-
Efa-profile: efa-profile-1.5-1
-
Libfabric-aws: libfabric-aws-1.18.2-1
-
ERdma-núcleo:rdma-core-46.0-1 .
-
Open MPI: openmpi40-aws-4.1.5-4
|
22 de setembro de 2023
|
AWS ParallelCluster versão 3.7.0 lançada
|
AWS ParallelCluster versão 3.7.0 lançada.
Melhorias:
-
Support a configuração de prioridades de nós estáticos e dinâmicos em recursos computacionais usando um arquivo YAML AWS ParallelCluster de configuração.
-
Adicionado suporte para Ubuntu 22. As chaves RSA não são compatíveis por padrão.
-
Adicionada a configuração de fila JobExclusiveAllocation para alocar nós em uma partição exclusivamente para um único trabalho a qualquer momento.
-
Permite a substituição do pacote aws-parallelcluster-node no momento da criação e atualização do cluster. Para o nó principal, isso se aplica à atualização do cluster. Útil somente para fins de desenvolvimento.
-
Evita iniciar o servidor NFS nos nós de computação.
-
Adicionado suporte para nós de login.
-
Permite o agendamento baseado em memória quando vários tipos de instância são especificados para um recurso de computação do Slurm.
-
Adicionado suporte para montar o Amazon File Cache existente como armazenamento compartilhado.
Alterações:
-
Atribua aos nós dinâmicos do Slurm uma prioridade (peso) de 1000 por padrão. Ao fazer isso, o Slurm pode priorizar nós estáticos ociosos sobre nós dinâmicos ociosos.
-
Faça com que os aws-parallelcluster-node daemons lidem apenas com partições AWS ParallelCluster
gerenciadas do Slurm.
-
Aumento do intervalo de sondagem de vigilância (watchdog) EFS-utils para 10 segundos. Essa alteração se aplica quando EncryptionInTransit está definida como true , que é a única condição que faz com que o watchdog seja executado.
-
Atualização do instalador do EFA para 1.25.1 .
-
Driver EFA: efa-2.5.0-1 (era efa-2.1.1g )
-
Efa-config: efa-config-1.15-1 (era efa-config-1.13-1 )
-
Perfil EFA: efa-profile-1.5-1 (sem alteração)
-
Libfabric-aws: libfabric-aws-1.18.1-0 (de libfabric-aws-1.17.1-1 )
-
Núcleo RDMA: rdma-core-46.0-1 (era rdma-core-43.0-1 )
-
Open MPI: openmpi40-aws-4.1.5-4 (era
openmpi40-aws-4.1.5-1 )
-
Atualize o Slurm para a versão 23.02.4.
-
Altere o valor padrão Imds/ImdsSupport de v1.0 para v2.0.
-
Descontinuação do Ubuntu 18.
-
Atualização do tamanho padrão do volume raiz para 40 GB para considerar os limites do Centos 7.
-
Restrita a permissão no arquivo /tmp/wait_condition_handle.txt dentro do nó principal para que somente o root possa lê-lo.
-
Criado um arquivo JSON de mapeamento partition-nodelist do Slurm para ser usado pelos daemons do pacote de nós para reconhecer partições e listas de nós do Slurm gerenciadas por PC.
-
Atualização do driver NVIDIA para a versão 535.54.03.
-
Atualização da biblioteca CUDA para a versão 12.2.0.
-
Atualiza o NVIDIA Fabric Manager para nvidia-fabricmanager-535.
-
Atualização do ARM PL para a versão 23.04.1 somente para Ubuntu 22.04.
-
Atualização do NICE DCV para a versão 2023.0-15487 .
Correções de erros:
-
Adicionada validação ao valor ScaledownIdletime para evitar definir um valor menor que -1.
-
Corrigida a falha na criação do cluster com a AMI do Ubuntu Deep Learning em instâncias de GPU com DCV ativado.
-
Corrija o problema que fazia com que políticas pendentes do IAM fossem criadas ao criar um provedor de recursos ParallelCluster CloudFormation personalizado com. CustomLambdaRole
-
Corrigido um problema que estava causando o desalinhamento do nome DNS dos nós de computação em instâncias com várias interfaces de rede, ao usar SlurmSettings/Dns/UseEc2Hostnames equals to True
Para obter detalhes sobre as alterações, consulte os CHANGELOG arquivos do aws-parallelcluster e os pacotes em. aws-parallelcluster-cookbookaws-parallelcluster-node GitHub
|
30 de agosto de 2023
|
Versão somente para documentação
|
AWS ParallelCluster guia do usuário específico da versão 3 publicado.
Versão somente para documentação:
|
17 de julho de 2023
|
AWS ParallelCluster versão 3.6.1 lançada
|
AWS ParallelCluster versão 3.6.1 lançada.
Alterações:
Correções de erros:
-
Remova o código rígido do nome do dispositivo do volume raiz (/dev/sda1 e/dev/xvda ) e recupere-o do AMIs usado durante. create-cluster
-
Corrija a falha na criação do cluster ao usar o recurso CloudFormation personalizado com ElasticIp definido comoTrue .
-
Corrija falhas na criação e atualização do cluster ao usar um recurso AWS CloudFormation personalizado com grandes arquivos de configuração.
-
Corrige um problema que impedia a desativação da proteção ptrace no Ubuntu e que não permitia o Cross Memory Attach (CMA) no libfabric.
-
Corrige a lógica rápida de failover de capacidade insuficiente ao usar vários tipos de instância e nenhuma instância ser retornada.
Para obter detalhes sobre as alterações, consulte os CHANGELOG arquivos do aws-parallelcluster e os pacotes em. aws-parallelcluster-cookbookaws-parallelcluster-node GitHub
|
5 de julho de 2023
|
AWS ParallelCluster versão 3.6.0 lançada
|
AWS ParallelCluster versão 3.6.0 lançada.
Documentação:
Melhorias:
-
Adicione suporte para RHEL8.
-
Adicione um recurso AWS CloudFormation personalizado para criar e gerenciar clusters com CloudFormation.
-
Adicione suporte para personalizar a configuração do cluster Slurm no arquivo YAML de AWS ParallelCluster configuração.
-
Crie o Slurm com suporte para LUA.
-
Aumenta o limite do número máximo de filas por cluster de 10 para 50. Cada fila pode ter até 50 recursos de computação. Cada cluster pode ter até 50 recursos de computação.
-
Adiciona suporte para especificar uma sequência de vários scripts de ação personalizados para um evento configurado em parâmetros OnNodeStart , OnNodeConfigured , e OnNodeUpdated .
-
Adiciona uma nova seção de configuração HealthChecks / Gpu , para aplicar verificações de integridade da GPU em um nó de computação antes da execução de um trabalho.
-
Adiciona suporte para Tags em SlurmQueues e na configuração SlurmQueues / ComputeResources .
-
Adiciona suporte para DetailedMonitoring na configuração Monitoring .
-
Adicione mem_used_percent disk_used_percent métricas para a memória do nó principal e o rastreamento da utilização do disco do volume raiz no AWS ParallelCluster
CloudWatch painel e configure alarmes para monitorar essas métricas.
-
Adiciona suporte à rotação de logs para registros gerenciados do AWS ParallelCluster .
-
Acompanhe os erros comuns do nó de computação e o maior tempo de inatividade do nó dinâmico no painel. CloudWatch
-
Garante que o DCV Authenticator Server use pelo menos o protocolo TLS-1.2 ao criar o soquete SSL.
-
Instalação do pacote NVIDIA Data Center GPU Manager (DCGM) em todos os sistemas operacionais compatíveis, exceto aarch64 centos7 e alinux2 .
-
Carrega o módulo do kernel nvidia-uvm por padrão para fornecer a funcionalidade de Memória Virtual Unificada (UVM) ao driver CUDA.
-
Instala o NVIDIA Persistence Daemon como um serviço do sistema.
Alterações:
-
Atualize o Slurm para a versão 23.02.2 (da versão22.05.8 ).
-
Atualização do munge para a versão 0.5.15 (era versão 0.5.14 ).
-
Defina o Slurm TreeWidth para 30.
-
Defina o Slurm prolog e epilog as configurações para o diretório /opt/slurm/etc/scripts/prolog.d/ de destino e respectivamente. /opt/slurm/etc/scripts/epilog.d/
-
Defina o Slurm BatchStartTimeout para no máximo 3 minutos para executar Prolog scripts durante o registro do nó de computação.
-
Aumente o padrão RetentionInDays dos CloudWatch registros de 14 para 180 dias.
-
Atualização do instalador do EFA para 1.22.1 .
-
Dkms: 2.8.3-2
-
Driver EFA: efa-2.1.1g (sem alteração)
-
Efa-config: efa-config-1.13-1 (sem alteração)
-
Perfil EFA: efa-profile-1.5-1 (sem alteração)
-
Libfabric-aws: libfabric-aws-1.17.1-1 (era libfabric-aws-1.17.0-1 )
-
Núcleo RDMA: rdma-core-43.0-1 (sem alteração)
-
Open MPI: openmpi40-aws-4.1.5-1 (sem alteração)
-
Atualização da versão do cliente Lustre para a 2.12 no Amazon Linux 2. O cliente Lustre 2.12 foi instalado no Ubuntu 20.04, 18.04 e CentOS >= 7.7.
-
Atualização da versão do cliente Lustre para a 2.10.8 no CentOS 7.6.
-
Atualização do driver NVIDIA para a versão 470.182.03 (era versão 470.141.03 ).
-
Atualização do NVIDIA Fabric Manager para a versão 470.182.03 (era versão 470.141.03 ).
-
Atualização do NVIDIA CUDA Toolkit para a versão 11.8.0 (era versão 11.7.1 ).
-
Atualização da amostra NVIDIA CUDA para a versão 11.8.0 .
-
Biblioteca Intel MPI atualizada para a Versão 2021 atualização 9 (era a versão 2021 atualização 6). Para obter mais informações, consulte Intel® MPI Library 2021 Update 9.
-
Atualização do NICE DCV para a versão 2023.0-15022 (era a versão 2022.2-14521 ).
-
Servidor: 2023.0.15022-1 (era versão 2022.2-14521-1 ).
-
xdcv: 2023.0.547-1 (era versão 2022.2.519-1 ).
-
gl: 2023.0.1027-1 (era versão 2022.2.1012-1 ).
-
web_viewer: 2023.0.15022-1 (era versão 2022.2.14521-1 ).
-
Atualização do aws-cfn-bootstrap para a versão 2.0-24 .
-
Atualize a imagem usada pelo CodeBuild ambiente ao criar imagens de contêiner para clusters AWS Batch:
-
aws/codebuild/amazonlinux2-x86_64-standard:4.0 (de aws/codebuild/amazonlinux2-x86_64-standard:3.0 ).
-
aws/codebuild/amazonlinux2-aarch64-standard:2.0 (era aws/codebuild/amazonlinux2-aarch64-standard:1.0 ).
Correções de erros:
-
Corrija os validadores do Amazon EFS e do grupo de segurança de FSx rede da Amazon para evitar reportar erros falsos.
-
Corrige a falta de tags em recursos criados pelo Image Builder durante a operação build-image .
-
Corrige a política de atualização MaxCount para sempre realizar comparações numéricas na propriedade MaxCount .
-
Corrige o alinhamento de IP em instâncias de nós de computação com várias placas de rede.
-
Corrija a substituição de StoragePass in slurm_parallelcluster_slurmdbd.conf quando uma atualização de parâmetros de fila é executada e as configurações contábeis do Slurm não são atualizadas.
-
Corrige o problema que faz com que grupos de segurança pendentes sejam criados ao criar um cluster com um sistema de arquivos EFS existente.
-
Corrige o problema que faz com que o daemon cfn-hup falhe ao ser reiniciado.
-
Considere nós dinâmicos com INVALID_REG sinalização como falhas de bootstrap para o modo protegido do Slurm. Os nós estáticos que falham no registro do Slurm já são tratados como falhas de bootstrap após o. node_replacement_timeout
Para obter detalhes sobre as alterações, consulte os CHANGELOG arquivos do aws-parallelcluster e os pacotes em. aws-parallelcluster-cookbookaws-parallelcluster-node GitHub
|
22 de maio de 2023
|
AWS ParallelCluster versão 3.5.1 lançada
|
AWS ParallelCluster versão 3.5.1 lançada.
Melhorias:
Alterações:
Correções de erros:
-
Corrige possíveis falhas de inicialização de nós causadas pela correspondência de padrões entre MountDir e /etc/exports ao remover volumes compartilhados do Amazon EBS como parte de uma atualização de cluster.
-
Correção para evitar o truncamento do arquivo de log compute_console_output em cada iteração clustermgtd .
Para obter detalhes sobre as alterações, consulte os CHANGELOG arquivos do aws-parallelcluster e os pacotes em. aws-parallelcluster-cookbookaws-parallelcluster-node GitHub
|
29 de março de 2023
|
AWS ParallelCluster versão 3.5.0 lançada
|
AWS ParallelCluster versão 3.5.0 lançada.
Melhorias:
-
Acesso e gerenciamento de clusters com a interface do usuário do AWS ParallelCluster.
-
Adicione AWS ParallelCluster políticas versionadas em um CloudFormation modelo que você pode referenciar em suas cargas de trabalho.
-
Adicione uma biblioteca AWS ParallelCluster Python que você possa usar com seu próprio código.
-
Adicione o registro da saída do console do nó de computação à Amazon CloudWatch em caso de falha no bootstrap do nó de computação.
-
Adiciona o campo de falhas contendo o código da falha e o motivo da saída do describe-cluster quando a criação do cluster falhar.
-
Adiciona validadores para evitar a injeção maliciosa de strings ao chamar o módulo de subprocesso.
-
Falha na criação do cluster se o status do cluster mudar para PROTECTED durante o provisionamento de nós estáticos.
Alterações:
-
Atualize para a versão Slurm 22.05.8 (da versão) 22.05.7
-
Atualização do instalador EFA para 1.21.0 .
-
Driver EFA: efa-2.1.1-1 (era efa-2.1 )
-
Efa-config: efa-config-1.12-1 (era efa-config-1.11-1)
-
Perfil EFA: efa-profile-1.5-1 (sem alteração)
-
Libfabric-aws: libfabric-aws-1.16.1amzn3.0-1 (de libfabric-aws-1.16.1 )
-
Núcleo RDMA: rdma-core-43.0-1 (era rdma-core-43.0-2 )
-
Open MPI: openmpi40-aws-4.1.4-3 (sem alteração)
-
Torne os registros do controlador Slurm mais detalhados e ative o registro adicional para o plug-in de economia de energia do Slurm.
Correções de erros:
-
Corrija a criação do banco de dados do cluster verificando se o nome do cluster não tem mais de 40 caracteres quando a contabilidade do Slurm está ativada.
-
Corrija um problema clustermgtd que fazia com que os nós de computação, reinicializados por meio do Slurm, fossem substituídos se as verificações de status da instância da Amazon EC2 falhassem.
-
Corrige um problema que impedia o lançamento de nós de computação, com reservas de capacidade compartilhadas por outras contas, devido a uma política de IAM incorreta no nó principal.
Para obter detalhes sobre as alterações, consulte os CHANGELOG arquivos do aws-parallelcluster,, aws-parallelcluster-cookbook, aws-parallelcluster-nodee os pacotes em. aws-parallelcluster-ui GitHub
|
20 de fevereiro de 2023
|
AWS ParallelCluster versão 3.4.1 lançada
|
AWS ParallelCluster versão 3.4.1 lançada.
Correções de erros:
Para obter detalhes sobre as alterações, consulte os CHANGELOG arquivos do aws-parallelcluster e os pacotes em. aws-parallelcluster-cookbookaws-parallelcluster-node GitHub
|
13 de janeiro de 2023
|
AWS ParallelCluster versão 3.4.0 lançada
|
AWS ParallelCluster versão 3.4.0 lançada.
Melhorias:
-
Adiciona suporte para lançar nós em várias zonas de disponibilidade para aumentar a disponibilidade da capacidade.
-
Adiciona suporte para especificar várias sub-redes para cada fila para aumentar a disponibilidade da capacidade.
-
Adicione um novo parâmetro de configuração em Iam/ResourcePrefixpara especificar um prefixo para o caminho e o nome dos recursos do IAM criados por AWS ParallelCluster.
-
Adicione a nova seção de configuração DeploymentSettings/LambdaFunctionsVpcConfigpara especificar a configuração Vpc usada pelas funções AWS ParallelCluster Lambda.
-
Adiciona a capacidade de especificar um script personalizado para ser executado no nó principal durante uma atualização do cluster. O script pode ser especificado com HeadNode/CustomActions/OnNodeUpdatedao usar o Slurm como agendador.
Alterações:
-
Remove a criação de destinos de montagem do Amazon EFS para sistemas de arquivos existentes.
-
Monta sistemas de arquivos EFS usando o amazon-efs-utils . Os sistemas de arquivos EFS podem ser montados usando criptografia em trânsito e um usuário autorizado pelo IAM.
-
Instale o stunnel 5.67 no Cent OS7 e no Ubuntu para oferecer suporte à criptografia EFS em trânsito.
-
Atualização do instalador EFA para 1.20.0 (era 1.18.0 ).
-
Driver EFA: efa-2.1 (era efa-1.16.0-1 )
-
Efa-config: efa-config-1.11-1 (sem alteração)
-
Perfil EFA: efa-profile-1.5-1 (sem alteração)
-
Libfabric-aws: libfabric-aws-1.16.1 (era libfabric-aws-1.16.0~amzn4.0-1 )
-
Núcleo RDMA: rdma-core-43.0-2 era (rdma-core-41.0-2 )
-
Open MPI: openmpi40-aws-4.1.4-3 era (openmpi40-aws-4.1.4-2 )
-
Atualização do Slurm para a versão 22.05.7 (era 22.05.5 )
-
Atualiza o Python para 3.9.16 e 3.7.16 (era 3.9.15 e 3.7.13 ).
-
Com o Slurm22.05.7 , os nós dinâmicos no IDLE+CLOUD+COMPLETING+POWER_DOWN+NOT_RESPONDING status não são considerados insalubres.
Para obter detalhes sobre as alterações, consulte os CHANGELOG arquivos do aws-parallelcluster e os pacotes em. aws-parallelcluster-cookbookaws-parallelcluster-node GitHub
|
22 de dezembro de 2022
|
AWS ParallelCluster versão 3.3.1 lançada
|
AWS ParallelCluster versão 3.3.1 lançada.
Alterações:
-
AMIs Os AWS ParallelCluster produtos oficiais agora estão disponíveis após a suspensão EC2 de uso da Amazon em dois anos.
-
Aumente o tamanho da memória da AWS ParallelCluster API Lambda para 2048 para reduzir as penalidades de inicialização a frio e evitar tempos limite.
Correções de erros:
-
Evite a substituição de sistemas de arquivos gerenciados FSx pelo Lustre e a perda de dados em atualizações de cluster que incluam alterações na ID da sub-rede da frota computacional.
-
SharedStorage DeletionPolicy aplica-se às ações de atualização do cluster.
Para obter detalhes sobre as mudanças, consulte o CHANGELOG arquivo do pacote aws-parallelcluster em. GitHub
|
2 de dezembro de 2022
|
AWS ParallelCluster somente documentação (nota hpc6id)
|
AWS ParallelCluster atualização somente de documentação
|
2 de dezembro de 2022
|
AWS ParallelCluster versão 3.1.5 lançada
|
AWS ParallelCluster versão 3.1.5 lançada.
Melhorias:
Alterações:
-
Adicione lambda:ListTags e lambda:UntagResource ao ParallelClusterUserRole usado pela pilha de AWS ParallelCluster API para uma atualização do cluster.
-
Biblioteca Intel MPI atualizada para a versão 2021 atualização 6 (atualizada a partir da versão 2021 atualização 4). Para obter mais informações, consulte Intel® MPI Library 2021 Update 6.
-
Atualização do driver NVIDIA para a versão 470.141.03 (era 470.103.01).
-
Atualização do NVIDIA Fabric Manager para a versão 470.141.03 (era 470.103.01).
Para obter detalhes sobre as alterações, consulte os CHANGELOG arquivos do aws-parallelcluster e os pacotes em. aws-parallelcluster-cookbookaws-parallelcluster-node GitHub
|
16 de novembro de 2022
|
AWS ParallelCluster versão 3.3.0 lançada
|
AWS ParallelCluster versão 3.3.0 lançada.
Melhorias:
-
Adicione suporte à configuração de alocação de várias instâncias para um recurso computacional ao usar o Slurm como programador. Para obter mais informações, consulte Alocação de vários tipos de instâncias com o Slurm.
-
Adiciona suporte para adição e remoção do SharedStorage com uma atualização de cluster, usando uma configuração atualizada. Para obter mais informações, consulte Armazenamento compartilhado.
-
Adicione um novo parâmetro de configuração DeletionPolicy para Efs e configurações de armazenamento FsxLustrecompartilhado para oferecer suporte à retenção de armazenamento.
-
Adicione suporte para contabilidade do Slurm com o novo parâmetro de configuração Scheduling//SlurmSettingsDatabase. Para obter mais informações, consulte Slurm accounting with. AWS ParallelCluster
-
Adiciona suporte para reservas de capacidade sob demanda (ODCR) e grupos de recursos de reserva de capacidade. Para obter mais informações, consulte Iniciar instâncias com reservas de capacidade sob demanda (ODCR).
-
Adicione um novo parâmetro de configuração para especificar a versão do IMDS a ser suportada em um cluster ou criar infraestrutura de imagem nas configurações do cluster, Imds/ImdsSupport, e build, Imds/ImdsSupport.
-
Adicione suporte para Networking/PlacementGroupna ComputeResourcesseção SlurmQueues/.
-
Adiciona suporte para instâncias com várias interfaces de rede limitadas a apenas uma ENI por dispositivo.
-
Melhora a validação da rede para sistemas de arquivos externos do Amazon EFS verificando o bloco CIDR no grupo de segurança anexado.
-
Adiciona um validador para verificar se os tipos de instância configurados são compatíveis com grupos de posicionamento.
-
Configura os threads NFS como min (256, max (8, num_cores * 4)) para garantir melhor estabilidade e desempenho.
-
Move a instalação do NFS no momento da compilação para reduzir o tempo de configuração.
-
Ative a criptografia do lado do servidor para o tópico do EcrImageBuilder SNS que é criado ao implantar a AWS ParallelCluster API e é usado para notificar sobre eventos de criação de imagens do docker.
Alterações:
-
Altere o comportamento de SlurmQueues/Networking/PlacementGroup/Enabled . Agora, ele cria um grupo de posicionamento gerenciado exclusivo para cada recurso de computação, em vez de um único grupo de posicionamento gerenciado para todos os recursos de computação.
-
Adicione suporte para SlurmQueues/Networking/PlacementGroup/Name como o método de nomenclatura preferencial.
-
Move as tags do nó principal do Launch Template para a definição da instância para evitar a substituição do nó principal nas atualizações das tags.
-
Desativa o multithreading por meio de um script executado por cloud-init e não por meio do CpuOptions definido no modelo de inicialização.
-
Atualiza o Python para a versão 3.9 e o NodeJS para a versão 16 na infraestrutura da API, no contêiner do Docker da API e nos recursos do Lambda do cluster.
-
Remove o suporte para o Python 3.6 no aws-parallelcluster-batch-cli .
-
Atualização do Slurm para a versão 22.05.5 (era 21.08.8-2 )
-
Atualização do driver NVIDIA para a versão 470.141.03 (era 470.129.06 ).
-
Atualização do NVIDIA Fabric Manager para a versão 470.141.03 (era 470.129.06 ).
-
Atualização do NVIDIA CUDA Toolkit para a versão 11.7.1 (from 11.4.4 ).
-
Atualize o Python usado em AWS ParallelCluster virtualenvs de para. 3.7.13 3.9.15
-
Atualização do instalador EFA para a versão 1.18.0.
-
Driver EFA: efa-1.16.0-1 (sem alteração)
-
Efa-config: efa-config-1.11-1 (from
efa-config-1.10-1 )
-
Perfil EFA: efa-profile-1.5-1 (sem alteração)
-
Libfabric-aws: libfabric-aws-1.16.0~amzn4.0-1 (era libfabric-aws-1.16.0~amzn2.0-1 )
-
Núcleo RDMA: rdma-core-41.0-2 (era rdma-core-37.0 )
-
Open MPI: openmpi40-aws-4.1.4-2 (era openmpi40-aws-4.1.1-2 )
-
Atualização do NICE DCV para a versão 2022.1-13300 (era 2022.0-12760 ).
-
Ativa a supressão do SingleSubnetValidator para Queues .
-
Não substitui os nós do DRAIN quando os nós estiverem no estado COMPLETING em que o Epilog ainda pode estar em execução.
Correções de erros:
-
Corrige a validação do parâmetro de filtros no AWS ParallelCluster
ListClusterLogStreams comando para falhar quando filtros incorretos são passados.
-
Corrija a validação do parâmetro SharedStorage/EfsSettingspara falhar na validação quando FileSystemId for especificado junto com outros EfsSettingsparâmetros SharedStorage//. Anteriormente, FileSystemId não estava incluído.
-
Corrige a atualização do cluster ao alterar a ordem de SharedStorage junto com outras alterações na configuração.
-
Corrija UpdateParallelClusterLambdaRole na AWS ParallelCluster API para fazer upload de registros CloudWatch.
-
Corrige que o Cinc não usa o pacote de certificados CA local ao instalar pacotes antes que qualquer livro de receitas seja executado.
-
Corrige um travamento na atualização do Ubuntu com pcluster build-image quando Build:UpdateOsPackages:Enabled:true está definido.
-
Corrige a análise da configuração do cluster YAML falhando nas chaves duplicadas.
Para obter detalhes sobre as alterações, consulte os CHANGELOG arquivos do aws-parallelcluster e os pacotes em. aws-parallelcluster-cookbookaws-parallelcluster-node GitHub
|
2 de novembro de 2022
|
AWS ParallelCluster somente documentação, referência de API adicionada.
|
AWS ParallelCluster atualização somente de documentação
|
27 de outubro de 2022
|
AWS ParallelCluster versão 3.2.1 lançada
|
AWS ParallelCluster versão 3.2.1 lançada.
Melhorias:
Alterações:
-
Atualização do driver NVIDIA para a versão 470.141.03.
-
Atualização do NVIDIA Fabric Manager para a versão 470.141.03.
-
Desativa as tarefas de trabalho man-db e mlocate do cron , que podem ter um impacto negativo no desempenho do nó.
-
Atualiza a Biblioteca Intel MPI para 2021.6.0.602.
-
Atualiza o Python da versão 3.7.10 para a 3.7.13 em resposta a esse risco de segurança.
Correções de erros:
Para obter detalhes sobre as alterações, consulte os CHANGELOG arquivos do aws-parallelcluster e os pacotes em. aws-parallelcluster-cookbookaws-parallelcluster-node GitHub
|
3 de outubro de 2022
|
AWS ParallelCluster versão 3.2.0 lançada
|
AWS ParallelCluster versão 3.2.0 lançada.
Melhorias:
Alterações:
-
Atualização do instalador EFA para a versão 1.17.2
-
EFA driver: efa-1.16.0-1
-
EFA configuration: efa-config-1.10-1
-
Perfil EFA: efa-profile-1.5-1
-
Libfabric: libfabric-aws-1.16.0~amzn2.0-1
-
RDMA core: rdma-core-41.0-2
-
Open MPI: openmpi40-aws-4.1.4-2
-
Atualização do NICE DCV para a versão 2022.0-12760.
-
Atualização do driver NVIDIA para a versão 470.129.06.
-
Atualização do NVIDIA Fabric Manager para a versão 470.129.06.
-
Altera os tipos de volume padrão do EBS de gp2 para gp3 nos volumes raiz e adicionais.
-
Alterações nos sistemas FSx de arquivos Lustre criados por: AWS ParallelCluster
-
Não requer que PlacementGroup/Enabled seja definido como true ao passar umPlacementGroup /existenteId .
-
Não permite definir PlacementGroup / Id quando PlacementGroup / Enabled está explicitamente definido como false .
-
Adiciona uma tag parallelcluster:cluster-name a todos os recursos criados pelo AWS ParallelCluster.
-
Adicione lambda:ListTags e use lambda:UntagResource pela ParallelClusterUserRole pilha de AWS ParallelCluster APIs para atualização do cluster.
-
Restrinja IMDS o IPv6 acesso somente aos usuários administradores raiz e do cluster, quando o parâmetro de configuraçãoHeadNode /Imds /Secured estiver habilitado.
-
Com uma AMI personalizada, use o tamanho do volume raiz da AMI em vez do ParallelCluster padrão de 35 GiB. O valor pode ser alterado no arquivo de configuração do cluster.
-
Desabilitação automática da frota de computação quando o parâmetro de configuração Scheduling / SlurmQueues / ComputeResources / SpotPrice é inferior ao preço mínimo de atendimento de solicitação spot.
-
Mostra valores requested_value e current_value no conjunto de alterações ao adicionar ou remover uma seção durante uma atualização.
-
Desative o aws-ubuntu-eni-helper serviço, disponível no Deep Learning AMIs, para evitar conflitos configure_nw_interface.sh ao configurar instâncias com várias placas de rede.
-
Remove o suporte para o Python 3.6.
-
Define a MTU como 9001 para todas as interfaces de rede ao configurar instâncias com várias placas de rede.
-
Remove o ponto final ao configurar o FQDN do nó de computação.
-
Gerencia nós estáticos em POWERING_DOWN .
-
Não substitui o nó dinâmico em POWER_DOWN , pois os trabalhos ainda podem estar em execução.
-
Reinicia os daemons clustermgtd e slurmctld no momento da atualização do cluster somente quando os parâmetros Scheduling forem atualizados na configuração do cluster.
-
Atualização dos arquivos de manutenção slurmctld e slurmd do systemd
-
Restrinja o IPv6 acesso ao IMDS somente para usuários administradores raiz e de cluster, quando o parâmetro de configuraçãoHeadNode /Imds /Secured estiver habilitado.
-
Define a configuração do Slurm AuthInfo=cred_expire=70 para reduzir o tempo que os trabalhos necessários devem esperar antes de serem reiniciados quando os nós não estiverem disponíveis.
-
Atualização de dependências de manuais de instruções (cookbook) de terceiros:
-
apt-7.4.2 (era apt-7.4.0)
-
line-4.5.2 (era line-4.0.1)
-
openssh-2.10.3 (era openssh-2.9.1)
-
pyenv-3.5.1 (era pyenv-3.4.2)
-
selinux-6.0.4 (era selinux-3.1.1)
-
yum-7.4.0 (era yum-6.1.1)
-
yum-epel-4.5.0 (era yum-epel-4.1.2)
Correções de erros:
-
Corrija o comportamento padrão para ignorar as etapas de AWS ParallelCluster validação e teste ao criar uma AMI personalizada.
-
Corrige o vazamento do identificador do arquivo em computemgtd .
-
Corrija a condição de corrida que esporadicamente fazia com que as instâncias iniciadas fossem imediatamente encerradas porque elas ainda não estavam disponíveis na resposta. EC2 DescribeInstances
-
Corrige o suporte para o parâmetro DisableSimultaneousMultithreading em tipos de instância com processadores Arm.
-
Corrija a falha na atualização da pilha de AWS ParallelCluster API ao atualizar de uma versão anterior. Adiciona o padrão de recurso usado para a Ação ListImagePipelineImages no EcrImageDeletionLambdaRole .
-
Corrija a AWS ParallelCluster API adicionando as permissões ausentes necessárias para importar ou exportar do Amazon S3 ao criar um sistema de arquivos FSx para o Lustre.
Para obter detalhes sobre as alterações, consulte os CHANGELOG arquivos do aws-parallelcluster e os pacotes em. aws-parallelcluster-cookbookaws-parallelcluster-node GitHub
|
27 de julho de 2022
|
AWS ParallelCluster atualizações somente de documentação deste ano até o momento
|
AWS ParallelCluster atualizações somente de documentação.
Seções novas:
Atualizações da seção:
|
6 de julho de 2022
|
AWS ParallelCluster versão 3.1.4 lançada
|
AWS ParallelCluster versão 3.1.4 lançada.
Melhorias:
Alterações:
-
Atualização do Slurm para a versão 21.08.8-2.
-
Compilação Slurm com suporte do JWT.
-
Não requer que PlacementGroup/Enabled seja definido como true ao passar umPlacementGroup /existenteId .
-
Adicione lambda:TagResource ao ParallelClusterUserRole usado pela pilha de ParallelCluster API para criação de clusters e criação de imagens.
Correções de erros:
-
Corrige a capacidade de exportar os logs de um cluster ao usar o comando export-cluster-logs com a opção --filters .
-
Corrija o ponto de entrada do AWS Batch Docker para usar o diretório /home compartilhado para coordenar a execução do Multi-node-Parallel trabalho.
-
Redefina o endereço do nó ao definir o nó estático não íntegro do Slurm como inativo para evitar tratar a falha do nó estático com capacidade insuficiente como um nó de falha de bootstrap.
Para obter detalhes sobre as alterações, consulte os CHANGELOG arquivos do aws-parallelcluster e os pacotes em. aws-parallelcluster-cookbookaws-parallelcluster-node GitHub
|
16 de maio de 2022
|
AWS ParallelCluster versão 3.1.3 lançada
|
AWS ParallelCluster versão 3.1.3 lançada.
Melhorias:
-
Executa a criação da chave SSH junto com a criação do diretório HOME, por exemplo, durante o login SSH, ao alternar para outro usuário e ao executar um comando como outro usuário.
-
Adiciona suporte para nomes distintos de FQDN e LDAP no parâmetro de configuração DirectoryService / DomainName. O novo validador agora verifica as duas sintaxes.
-
O novo script update_directory_service_password.sh implantado no nó principal oferece suporte à atualização manual da senha do Active Directory na configuração do SSSD. A senha é recuperada pelo AWS Secrets Manager a partir da configuração do cluster.
-
Adiciona suporte para implantar a infraestrutura de API em ambientes sem uma VPC padrão.
Alterações:
-
Desative C-States mais profundos no x86_64 oficial AMIs e AMIs criado por meio de build-image comando, para garantir alto desempenho e baixa latência.
-
Atualizações no pacote do sistema operacional e correções de segurança.
-
Altere as imagens básicas do Amazon Linux 2 para usar AMIs com o Kernel 5.10.
Correções de erros:
-
Corrija a pilha de imagens de compilação DELETE_FAILED após a criação bem-sucedida da imagem, devido às novas políticas do EC2 Image Builder.
-
Corrige a conversão do parâmetro de configuração DirectoryService / DomainAddr para a propriedade SSSD ldap_uri quando ela contém vários endereços de domínio.
Para obter detalhes sobre as mudanças, consulte os CHANGELOG arquivos do aws-parallelcluster e os pacotes em. aws-parallelcluster-cookbook GitHub
|
20 de abril de 2022
|
AWS ParallelCluster versão 3.1.2 lançada
|
AWS ParallelCluster versão 3.1.2 lançada.
Alterações:
Correções de erros:
-
Corrige a atualização do arquivo /etc/hosts nos nós de computação quando um cluster é implantado em sub-redes sem acesso à Internet.
-
Corrige o bootstrap dos nós de computação para aguardar a inicialização das unidades efêmeras antes de ingressar no cluster.
Para obter detalhes sobre as mudanças, consulte os CHANGELOG arquivos do pacote aws-parallelcluster em. GitHub
|
2 de março de 2022
|
AWS ParallelCluster versão 3.1.1 lançada
|
AWS ParallelCluster versão 3.1.1 lançada.
-
Adicione suporte para ambientes de cluster de vários usuários por meio da integração com domínios do Active Directory (AD) gerenciados por meio do AWS Directory Service.
-
Adicione suporte para UseEc2Hostnames no arquivo de configuração do cluster. Quando definido como verdadeiro, use nomes de host EC2 padrão da Amazon (por exemplo, ip-1-2-3-4) para nós de computação.
-
Adiciona suporte para criação de clusters em sub-redes sem acesso à Internet.
-
Adiciona suporte para vários tipos de instância de computação por fila.
-
Adiciona suporte para agendamento de GPU com o Slurm em instâncias ARM com placas NVIDIA.
-
Adicione sinalizadores abreviados para cluster-name (-n ), (), region (-r ) ecluster-configuration /image-id image-configuration (-i ) -c à CLI. AWS ParallelCluster
-
Adicione suporte para a NEW_CHANGED_DELETED opção do AutoImportPolicyparâmetro Lustre. FSx
-
Adicione uma parallelcluster:compute-resource-name tag aos EC2 LaunchTemplates recursos usados pelos nós de computação.
-
Melhore os grupos de segurança criados no cluster para permitir conexões de entrada de grupos de segurança personalizados quando SecurityGroups os parâmetros forem especificados para algumas and/or filas de nós principais.
-
Instala os drivers NVIDIA e a biblioteca CUDA para ARM.
Alterações:
-
Atualização do Slurm para a versão 21.08.5 (era 20.11.8 )
-
Atualização do plugin do Slurm para a versão 21.08 (era 20.11 )
-
Atualização do NICE DCV para a versão 2021.3-11591 (era 2021.1-10851 ).
-
Atualização do driver NVIDIA para a versão 470.103.01 (era 470.57.02 ).
-
Atualização do NVIDIA Fabric Manager para a versão 470.103.01 (era 470.57.02 ).
-
Atualização da biblioteca CUDA para a versão 11.4.4 (era 11.4.0 ).
-
Intel MPI atualizado para a versão 2021 atualização 4 (atualizado a partir da versão 2019 atualização 8). Para obter mais informações, consulte Intel® MPI Library 2021 Update 4.
-
Atualize PMIx para a versão 3.2.3 (de3.1.5 ).
-
Remove o despejo de nós de computação com falha em /home/logs/compute . Os arquivos de log dos nós de computação estão disponíveis nos registros do EC2 console da Amazon CloudWatch e nos mesmos.
-
Possibilita a supressão de validadores de comprimento SlurmQueues e ComputeResources .
-
Desabilita a atualização do pacote no momento do lançamento da instância no Amazon Linux 2.
-
Desative os metadados de imagem EC2 ImageBuilder aprimorados da Amazon ao criar imagens AWS ParallelCluster
personalizadas.
-
Defina explicitamente a cloud-init fonte de dados como. EC2 Isso economiza tempo de inicialização para as plataformas Ubuntu e CentOS.
-
Usa o nome do recurso de computação em vez do tipo de instância no nome do modelo de lançamento da frota de computação.
-
Redireciona stderr e stdout para o arquivo de log da CLI para evitar texto indesejado na saída da CLI do pcluster.
-
Mova as configure/install receitas para livros de receitas separados que são chamados do livro principal. Os pontos de entrada existentes são mantidos e compatíveis com versões anteriores.
-
Faça o download das dependências da plataforma Intel HPC durante o tempo de construção da AMI para evitar o contato com a Internet durante a criação do cluster.
-
Não use o nome - do recurso de computação ao configurar os nós do Slurm.
-
Não configure GPUs no Slurm quando o driver NVIDIA não estiver instalado.
-
Corrige a permissão ecs:ListContainerInstances em BatchUserRole .
-
Corrige a exportação de registros de cluster quando não há prefixo especificado, anteriormente exportado para um prefixo None .
-
Corrige a reversão que não está sendo executada em caso de falha na atualização do cluster.
-
Corrige a permissão ecs:ListContainerInstances em BatchUserRole .
-
Corrige o esquema RootVolume para o HeadNode gerando um erro se um KmsKeyId não suportado for especificado.
-
Corrija as métricas FSx ausentes da Amazon a serem exibidas no CloudWatch painel.
-
Corrige EfaSecurityGroupValidator . Anteriormente, ele tinha o potencial de produzir falsas falhas quando grupos de segurança personalizados eram fornecidos e o EFA era ativado.
Para obter detalhes sobre as alterações, consulte os CHANGELOG arquivos do aws-parallelcluster e os pacotes em. aws-parallelcluster-cookbookaws-parallelcluster-node GitHub
|
10 de fevereiro de 2022
|
AWS ParallelCluster versão 3.0.3 lançada
|
AWS ParallelCluster versão 3.0.3 lançada.
Para obter detalhes sobre as mudanças, consulte os CHANGELOG arquivos do aws-parallelcluster e os pacotes em. aws-parallelcluster-cookbook GitHub
|
17 de janeiro de 2022
|
AWS ParallelCluster versão 3.0.2 lançada
|
AWS ParallelCluster versão 3.0.2 lançada.
Atualize o instalador do Elastic Fabric Adapter para 1.14.1
-
Config. EFA: efa-config-1.9-1 (era efa-config-1.9 )
-
Perfil EFA: efa-profile-1.5-1 (era efa-profile-1.5 )
-
Módulo Kernel EFA: efa-1.14.2 (era efa-1.13.0 )
-
Núcleo RDMA: rdma-core-37.0 (de rdma-core-35 )
-
Libfabric: libfabric-1.13.2 (de libfabric-1.13.0 )
-
Open MPI: openmpi40-aws-4.1.1-2 (sem alteração)
GPUDirect O RDMA está sempre ativado se for compatível com o tipo de instância. A opção GdrSupportde configuração não tem efeito.
Para obter detalhes sobre as mudanças, consulte os CHANGELOG arquivos do aws-parallelcluster e os pacotes em. aws-parallelcluster-cookbookaws-parallelcluster-node GitHub
|
5 de novembro de 2021
|
AWS ParallelCluster versão 3.0.1 lançada
|
AWS ParallelCluster versão 3.0.1 lançada.
Ferramenta de migração de configuração de cluster
-
Agora, os clientes podem migrar suas configurações de cluster do formato da AWS ParallelCluster versão 2 para o formato da versão 3 baseado em YAML AWS ParallelCluster . Para obter mais informações, consulte pcluster3-config-converter.
O nó principal pode ser interrompido
AWS Região padrão lida do ~/.aws/config arquivo
-
Para o comando pcluster, se a AWS Região não for especificada no arquivo de configuração, no ambiente ou na linha de comando, a AWS Região padrão especificada na region configuração na [default] seção do ~/.aws/config arquivo será usada.
Para obter detalhes sobre as mudanças, consulte os CHANGELOG arquivos do aws-parallelcluster e os pacotes em. aws-parallelcluster-cookbookaws-parallelcluster-node GitHub
|
27 de outubro de 2021
|
AWS ParallelCluster versão 3.0.0 lançada
|
AWS ParallelCluster versão 3.0.0 lançada.
Suporte para gerenciamento de clusters via Amazon API Gateway
-
Agora, os clientes podem gerenciar e implantar clusters por meio de endpoints HTTP com o Amazon API Gateway. Isso abre novas possibilidades para fluxos de trabalho com scripts ou orientados por eventos.
A interface de linha de AWS ParallelCluster comando (CLI) também foi redesenhada para ser compatível com essa API e inclui uma nova opção de saída JSON. Essa nova funcionalidade possibilita que os clientes também implementem recursos de blocos de construção semelhantes usando a CLI.
Melhoria da criação de AMI personalizada
-
Agora, os clientes têm acesso a um processo mais robusto de criação e gerenciamento personalizado AMIs usando o EC2 Image Builder. O personalizado agora AMIs pode ser gerenciado por meio de um arquivo de AWS ParallelCluster configuração separado e pode ser criado usando o comando pcluster build-image na interface da linha de AWS ParallelCluster comando.
Para obter detalhes sobre as mudanças, consulte os CHANGELOG arquivos do aws-parallelcluster e os pacotes em. aws-parallelcluster-cookbookaws-parallelcluster-node GitHub
|
10 de setembro de 2021
|