Treinar um modelo com o Amazon SageMaker. - SageMaker IA da Amazon

As traduções são geradas por tradução automática. Em caso de conflito entre o conteúdo da tradução e da versão original em inglês, a versão em inglês prevalecerá.

Treinar um modelo com o Amazon SageMaker.

O Amazon SageMaker Training é um serviço de machine learning (ML) totalmente gerenciado oferecido pelo SageMaker que ajuda você a treinar com eficiência uma grande variedade de modelos de ML em grande escala. A essência das tarefas do SageMaker AI é a conteinerização de workloads de ML e a capacidade de gerenciar recursos de computação da AWS. A plataforma SageMaker Training cuida do trabalho pesado associado à configuração e ao gerenciamento da infraestrutura para workloads de treinamento de ML. Com o SageMaker Training, você pode se concentrar em desenvolver, treinar e ajustar seu modelo. Esta página apresenta três maneiras recomendadas de começar a treinar um modelo no SageMaker, seguidas por outras opções que você pode considerar.

dica

Para obter informações sobre modelos básicos de treinamento para IA generativa, consulte Usar os modelos básicos do SageMaker JumpStart no Amazon SageMaker Studio.

Escolher um atributo no Amazon SageMaker Training

Há três casos de uso principais para treinar modelos de ML no SageMaker AI. Esta seção descreve esses casos de uso, bem como os recursos do SageMaker AI que recomendamos para cada caso de uso.

Se você está treinando modelos complexos de aprendizado profundo ou implementando algoritmos menores de machine learning, o SageMaker Training fornece soluções simplificadas e econômicas que atendem aos requisitos de seus casos de uso.

Casos de uso

A seguir estão os principais casos de uso para treinar modelos de ML no SageMaker AI.

  • Caso de uso 1: desenvolver um modelo de machine learning em um ambiente com ou sem código.

  • Caso de uso 2: usar código para desenvolver modelos de machine learning com mais flexibilidade e controle.

  • Caso de uso 3: desenvolver modelos de machine learning em grande escala com o máximo de flexibilidade e controle.

A tabela a seguir descreve três cenários comuns de treinamento de modelos de ML e as opções correspondentes para começar a usar o SageMaker Training.

Descritor Caso de uso 1 Caso de uso 2 Caso de uso 3
Atributo do SageMaker Crie um modelo usando o Amazon SageMaker Canvas. Treine um modelo usando um dos algoritmos de ML integrados do SageMaker AI, como o XGBoost, ou modelos específicos de tarefas do SageMaker JumpStart com o SageMaker Python SDK. Treine um modelo em grande escala com a máxima flexibilidade, utilizando o modo de script ou contêineres personalizados no SageMaker AI.
Descrição Traga seus dados. O SageMaker AI ajuda a gerenciar a criação de modelos de ML e a configuração da infraestrutura e dos recursos de treinamento.

Traga seus dados e escolha um dos algoritmos de ML integrados fornecidos pelo SageMaker AI. Configure os hiperparâmetros do modelo, as métricas de saída e as configurações básicas de infraestrutura usando o SDK do SageMaker Python. A plataforma SageMaker Training ajuda a provisionar a infraestrutura e os recursos de treinamento.

Desenvolva seu próprio código de ML e leve-o como um script ou um conjunto de scripts para o SageMaker AI. Para aprender mais, consulte Computação distribuída com as melhores práticas do SageMaker. Além disso, você pode trazer seu próprio contêiner do Docker. A plataforma SageMaker Training ajuda a provisionar a infraestrutura e os recursos de treinamento em grande escala com base em suas configurações personalizadas.

Otimizado para

Desenvolvimento de modelos com baixo ou nenhum código e orientado por interface de usuário com rápida experimentação com um conjunto de dados de treinamento. Quando você cria um modelo personalizado, um algoritmo é selecionado automaticamente com base nos seus dados. Para opções avançadas de personalização, como seleção de algoritmos, consulte configurações avançadas de criação de modelos.

Treinamento de modelos de ML com personalização de alto nível para hiperparâmetros, configurações de infraestrutura e a capacidade de usar diretamente estruturas de ML e scripts de ponto de entrada para obter mais flexibilidade. Use algoritmos integrados, modelos pré-treinados e modelos JumpStart por meio do Amazon SageMaker Python SDK para desenvolver modelos de ML. Para obter mais informações, consulte Implantação de baixo código com a classe JumpStart.

Workloads de treinamento de ML em grande escala, exigindo várias instâncias e máxima flexibilidade. Consulte computação distribuída com as melhores práticas do SageMaker. O SageMaker AI usa imagens do Docker para hospedar o treinamento e o atendimento de todos os modelos. Você pode usar qualquer algoritmo externo ou do SageMaker AI e usar contêineres do Docker para criar modelos.

Considerações

Flexibilidade mínima para personalizar o modelo fornecido pelo Amazon SageMaker Canvas.

O SageMaker Python SDK fornece uma interface simplificada e menos opções de configuração em comparação com a API de treinamento do SageMaker de baixo nível.

Requer conhecimento da infraestrutura AWS e das opções de treinamento distribuído. Consulte também Criar seu próprio contêiner de treinamento usando o kit de ferramentas de treinamento do SageMaker.

Ambiente recomendado Usar o Amazon SageMaker Canvas. Para saber como configurá-lo, consulte Introdução ao uso do SageMaker Canvas. Use o SageMaker AI JupyterLab no Amazon SageMaker Studio. Para aprender como configurá-lo, consulte Iniciar o Amazon SageMaker Studio. Use o SageMaker JupyterLab no Amazon SageMaker Studio. Para aprender como configurá-lo, consulte Iniciar o Amazon SageMaker Studio.

Opções adicionais

O SageMaker AI oferece as opções adicionais a seguir para treinar modelos de ML:

Componentes do SageMaker que oferecem recursos de treinamento

  • SageMaker JumpStart: o SageMaker JumpStart oferece acesso ao hub público de modelos do SageMaker AI, que contém os mais recentes modelos de base (FMs) proprietários e disponíveis ao público. Você pode ajustar, avaliar e implantar esses modelos no Amazon SageMaker Studio. O SageMaker JumpStart simplifica o processo de aproveitar modelos de base para seus casos de uso de IA generativa e permite que você crie hubs de modelos privados para usar modelos básicos, ao mesmo tempo em que impõe barreiras de proteção de governança e garante que sua organização só possa acessar modelos aprovados. Para começar a usar o SageMaker JumpStart, consulte Modelos do SageMaker JumpStart Foundation.

  • SageMaker HyperPod: o SageMaker HyperPod é um serviço de cluster persistente para casos de uso que precisam de clusters resilientes para grandes workloads de machine learning (ML) e desenvolvimento de modelos de base (FMs) de última geração. Ele acelera o desenvolvimento desses modelos ao eliminar o trabalho pesado indiferenciado envolvido na criação e manutenção de clusters de computação em grande escala alimentados por milhares de aceleradores, como AWS Trainium ou unidades de processamento gráfico (GPUs) NVIDIA A100 e H100. Você pode usar um software de gerenciamento de workload, como o Slurm, no HyperPod.

Mais atributos do SageMaker Training

  • Ajuste de hiperparâmetros: esse recurso do SageMaker AI ajuda a definir um conjunto de hiperparâmetros para um modelo e a iniciar várias tarefas de treinamento em um conjunto de dados. Dependendo dos valores dos hiperparâmetros, o desempenho do treinamento de modelo pode variar. Esse atributo fornece o conjunto de hiperparâmetros com melhor desempenho dentro do intervalo determinado de hiperparâmetros que você configurou para pesquisar.

  • Treinamento distribuído: pré-treine ou ajuste FMs criados com PyTorch, NVIDIA CUDA e outras estruturas baseadas em PyTorch. Para utilizar com eficiência as instâncias de GPU, use as bibliotecas de treinamento distribuídas do SageMaker AI que oferecem operações de comunicação coletiva e várias técnicas de paralelismo de modelo otimizadas para a infraestrutura da AWS, como paralelismo especializado e paralelismo de dados compartilhados.

  • Recursos de observabilidade: use as funcionalidades de criação de perfil e depuração do SageMaker Training para obter informações sobre workloads de treinamento de modelos, desempenho de modelos e utilização de recursos. Para saber mais, consulte Depurar e melhorar o desempenho do modelo e Criar perfil e otimizar o desempenho computacional.

  • Opções de instância econômicas e eficientes: para otimizar o custo e a eficiência computacional para o provisionamento de instâncias de treinamento, use clusters heterogêneos, instâncias spot gerenciadas ou pools aquecidos gerenciados.