As traduções são geradas por tradução automática. Em caso de conflito entre o conteúdo da tradução e da versão original em inglês, a versão em inglês prevalecerá.
Notas da Versão do Amazon SageMaker Training Compiler
Importante
A Amazon Web Services (AWS) anuncia que não haverá novos lançamentos ou versões do SageMaker Training Compiler. Você pode continuar a utilizar o SageMaker Training Compiler por meio dos AWS Contêiner de Aprendizado Profundo (DLCs) existentes para o SageMaker Training. É importante observar que, embora os DLCs existentes permaneçam acessíveis, eles não receberão mais versões ou atualizações da AWS, de acordo com a Política de compatibilidade dos frameworks dos contêineres de deep learning da AWS.
Veja as seguintes notas da versão para monitorar as atualizações mais recentes do Amazon SageMaker Training Compiler:
Notas da Versão do SageMaker Training Compiler: 13 de fevereiro de 2023
Atualizações de moeda
Adicionada compatibilidade com PyTorch v1.13.1
Correções de bugs
-
Corrigido um problema de condição de corrida na GPU que estava causando perda de NAN em alguns modelos, como os modelos de transformador de visão (ViT).
Outras alterações:
-
O SageMaker Training Compiler melhora o desempenho ao permitir que o PyTorch/XLA substitua automaticamente os otimizadores (como SGD, Adam, AdamW) em
torch.optimoutransformers.optimizationcom suas versões sem sincronização emtorch_xla.amp.syncfree(comotorch_xla.amp.syncfree.SGD,torch_xla.amp.syncfree.Adam,torch_xla.amp.syncfree.AdamW). Você não precisa alterar as linhas de código nas quais define otimizadores em seu script de treinamento.
Migração para Contêineres de Aprendizado Profundo AWS
Essa versão foi aprovada no teste de benchmark e foi migrada para o seguinte contêiner AWS de aprendizado profundo:
-
PyTorch v1.13.1
763104351884.dkr.ecr.us-west-2.amazonaws.com/pytorch-trcomp-training:1.13.1-gpu-py39-cu117-ubuntu20.04-sagemakerPara encontrar uma lista completa dos contêineres pré-criados com o Amazon SageMaker Training Compiler, consulte Frameworks compatíveis com Regiões da AWS, tipos de instância e modelos testados.
Notas da Versão do SageMaker Training Compiler: 09 de janeiro de 2023
Alterações significativas
-
tf.keras.optimizers.Optimizeraponta para um novo otimizador no TensorFlow 2.11.0 e posteriores. Os otimizadores antigos foram movidos paratf.keras.optimizers.legacy. Você pode encontrar uma falha no trabalho devido à alteração significativa ao fazer o seguinte:-
Carregar pontos de verificação de um otimizador antigo. Recomendamos que você mude para usar os otimizadores legados.
-
Use o TensorFlow v1. Recomendamos que você migre para o TensorFlow v2 ou mude para os otimizadores legados se precisar continuar usando o TensorFlow v1.
Para ver uma lista mais detalhada das alterações significativas das alterações do otimizador, consulte as notas de lançamento oficiais do TensorFlow v2.11.0
nos repositórios do GitHub no TensorFlow. -
Migração para Contêineres de Aprendizado Profundo AWS
Essa versão foi aprovada no teste de benchmark e foi migrada para o seguinte contêiner AWS de aprendizado profundo:
-
TensorFlow v2.11.0
763104351884.dkr.ecr.<region>.amazonaws.com/tensorflow-training:2.11.0-gpu-py39-cu112-ubuntu20.04-sagemakerPara encontrar uma lista completa dos contêineres pré-criados com o Amazon SageMaker Training Compiler, consulte Frameworks compatíveis com Regiões da AWS, tipos de instância e modelos testados.
Notas da Versão do SageMaker Training Compiler: 08 de dezembro de 2022
Correções de bugs
-
Foi corrigida a semente dos trabalhos de treinamento do PyTorch a partir do PyTorch v1.12 para garantir que não haja discrepância na inicialização do modelo em diferentes processos. Veja também Reprodutibilidade do PyTorch
. -
Corrigido o problema que fazia com que os trabalhos de treinamento distribuídos do PyTorch nas instâncias G4dn e G5 não usassem como padrão a comunicação por meio de PCIe.
Problemas conhecidos
-
O uso indevido das APIs PyTorch/XLA nos transformadores de visão do Hugging Face pode levar a problemas de convergência.
Outras alterações
-
Ao usar a classe
Trainerde transformadores Hugging Face, certifique-se de usar os otimizadores SyncFree definindo o argumentooptimcomoadamw_torch_xla. Para ter mais informações, consulte Modelos de linguagem grandes usando a classe Trainer de Hugging Face Transformers. Veja também Otimizadorna documentação do Hugging Face Transformers.
Migração para Contêineres de Aprendizado Profundo AWS
Essa versão foi aprovada no teste de benchmark e foi migrada para o seguinte contêiner AWS de aprendizado profundo:
-
PyTorch v1.12.0
763104351884.dkr.ecr.<region>.amazonaws.com/pytorch-trcomp-training:1.12.0-gpu-py38-cu113-ubuntu20.04-sagemakerPara encontrar uma lista completa dos contêineres pré-criados com o Amazon SageMaker Training Compiler, consulte Frameworks compatíveis com Regiões da AWS, tipos de instância e modelos testados.
Notas da Versão do SageMaker Training Compiler: 04 de outubro de 2022
Atualizações de moeda
-
Adicionada compatibilidade com Tensorflow v2.10.0.
Outras alterações
-
Foram adicionados modelos de PNL Hugging Face usando a biblioteca de Transformadores aos testes de framework do TensorFlow. Para encontrar os modelos de transformadores testados, consulte Modelos testados.
Migração para Contêineres de Aprendizado Profundo AWS
Essa versão foi aprovada no teste de benchmark e foi migrada para o seguinte contêiner AWS de aprendizado profundo:
-
TensorFlow v2.10.0
763104351884.dkr.ecr.<region>.amazonaws.com/tensorflow-training:2.10.0-gpu-py39-cu112-ubuntu20.04-sagemakerPara encontrar uma lista completa dos contêineres pré-criados com o Amazon SageMaker Training Compiler, consulte Frameworks compatíveis com Regiões da AWS, tipos de instância e modelos testados.
Notas da Versão do SageMaker Training Compiler: 01 de setembro de 2022
Atualizações de moeda
-
Foi adicionada compatibilidade com os transformadores do Hugging Face v4.21.1 com PyTorch v1.11.0.
Melhorias
-
Implementou um novo mecanismo inicializador de treinamento distribuído para ativar o SageMaker Training Compiler para modelos de Transformadores Hugging Face com PyTorch. Para saber mais, consulte Executar trabalhos de treinamento do PyTorch com SageMaker SageMaker Training Compiler para treinamento distribuído.
-
Integrado com o EFA para melhorar a comunicação coletiva no treinamento distribuído.
-
Foi adicionada compatibilidade com instâncias G5 para trabalhos de treinamento em PyTorch. Para ter mais informações, consulte Frameworks compatíveis com Regiões da AWS, tipos de instância e modelos testados.
Migração para Contêineres de Aprendizado Profundo AWS
Essa versão foi aprovada no teste de benchmark e foi migrada para o seguinte contêiner AWS de aprendizado profundo:
-
HuggingFace v4.21.1 com PyTorch v1.11.0
763104351884.dkr.ecr.us-west-2.amazonaws.com/huggingface-pytorch-trcomp-training:1.11.0-transformers4.21.1-gpu-py38-cu113-ubuntu20.04Para encontrar uma lista completa dos contêineres pré-criados com o Amazon SageMaker Training Compiler, consulte Frameworks compatíveis com Regiões da AWS, tipos de instância e modelos testados.
Notas da Versão do SageMaker Training Compiler: 14 de junho de 2022
Novos atributos
-
Adicionada compatibilidade com Tensorflow v2.9.1. O SageMaker Training Compiler é totalmente compatível com a compilação de módulos TensorFlow (
tf.*) e módulos TensorFlow Keras (tf.keras.*). -
Foi adicionada compatibilidade com contêineres personalizados criados com a extensão do Contêineres de Aprendizado Profundo AWS para o TensorFlow. Para ter mais informações, consulte Habilitar o SageMaker Training Compiler usando o SageMaker AI Python SDK e estender os contêineres de deep learning do framework do SageMaker AI.
-
Foi adicionada compatibilidade com instâncias G5 para trabalhos de treinamento do TensorFlow.
Migração para Contêineres de Aprendizado Profundo AWS
Essa versão foi aprovada no teste de benchmark e foi migrada para o seguinte contêiner AWS de aprendizado profundo:
-
TensorFlow 2.9.1
763104351884.dkr.ecr.<region>.amazonaws.com/tensorflow-training:2.9.1-gpu-py39-cu112-ubuntu20.04-sagemakerPara encontrar uma lista completa dos contêineres pré-criados com o Amazon SageMaker Training Compiler, consulte Frameworks compatíveis com Regiões da AWS, tipos de instância e modelos testados.
Notas da Versão do SageMaker Training Compiler: 26 de abril de 2022
Melhorias
-
Foi adicionada compatibilidade com todos os locais Regiões da AWS em que os AWSContêineres de Aprendizado Profundo
estão em serviço, exceto nas regiões da China.
Notas da Versão do SageMaker Training Compiler: 12 de abril de 2022
Atualizações de moeda
-
Foi adicionada compatibilidade com Transformadores do Hugging Face v4.17.0 com TensorFlow v2.6.3 e PyTorch v1.10.2.
Notas da Versão do SageMaker Training Compiler: 21 de fevereiro de 2022
Melhorias
-
Conclusão do teste de benchmark e confirmada a aceleração do treinamento nos tipos de instância
ml.g4dn. Para encontrar uma lista completa das instânciasmltestadas, consulte Tipos de instâncias compatíveis.
Notas da Versão do SageMaker Training Compiler: 01 de dezembro de 2021
Novos atributos
Lançado Co Amazon SageMaker Training Compiler na AWSre:Invent 2021.
Migração para Contêineres de Aprendizado Profundo AWS
O Amazon SageMaker Training Compiler passou no teste de benchmark e foi migrado para os Contêineres de Aprendizado Profundo AWS. Para encontrar uma lista completa dos contêineres pré-criados com o Amazon SageMaker Training Compiler, consulte Frameworks compatíveis com Regiões da AWS, tipos de instância e modelos testados.