Gerenciamento de caminhos de armazenamento para tipos diferentes de armazenamento local de instância - SageMaker IA da Amazon

As traduções são geradas por tradução automática. Em caso de conflito entre o conteúdo da tradução e da versão original em inglês, a versão em inglês prevalecerá.

Gerenciamento de caminhos de armazenamento para tipos diferentes de armazenamento local de instância

Considere os itens a seguir ao configurar caminhos de armazenamento para tarefas de treinamento no SageMaker AI.

  • Se quiser armazenar artefatos de treinamento para treinamento distribuído no diretório /opt/ml/output/data, você deve anexar subdiretórios adequadamente ou usar nomes de arquivo exclusivos para os artefatos por meio da definição do modelo ou do script de treinamento. Se os subdiretórios e nomes de arquivos não estiverem configurados corretamente, todos os operadores do treinamento distribuído poderão gravar as saídas no mesmo nome de arquivo no mesmo caminho de saída no Amazon S3.

  • Se você usa um contêiner de treinamento personalizado, certifique-se de instalar o Kit de Ferramentas de Treinamento do SageMaker, que ajuda a configurar o ambiente para trabalhos de treinamento do SageMaker. Caso contrário, você deve especificar as variáveis de ambiente explicitamente em seu Dockerfile. Para obter mais informações, consulte Criar um contêiner com seus próprios algoritmos e modelos.

  • Ao usar uma instância de ML com volumes SSD NVMe, o SageMaker AI não provisiona o armazenamento gp2 do Amazon EBS. O armazenamento disponível é fixado na capacidade de armazenamento da instância do tipo NVMe. O SageMaker AI configura caminhos de armazenamento para conjuntos de dados de treinamento, pontos de verificação, artefatos do modelo e saídas para usar toda a capacidade do armazenamento de instâncias. Por exemplo, famílias de instâncias de ML com armazenamento de instâncias do tipo NVMe incluem ml.p4d, ml.g4dn e ml.g5. Ao usar uma instância de ML com a opção de armazenamento somente do EBS e sem armazenamento de instância, você deve definir o tamanho do volume do EBS por meio do parâmetro volume_size na classe de estimadores do SageMaker AI (ou VolumeSizeInGB, se estiver usando a API ResourceConfig). Por exemplo, famílias de instâncias de ML que usam volumes do EBS incluem ml.c5 e ml.p2. Para pesquisar os tipos de instância e seus tipos e volumes de armazenamento de instâncias, consulte Tipos de instância do Amazon EC2.

  • Os caminhos padrão para trabalhos de treinamento do SageMaker são montados nos volumes do Amazon EBS ou nos volumes SSD NVMe da instância de ML. Ao adaptar seu script de treinamento ao SageMaker AI, use os caminhos padrão listados no tópico Variáveis de ambiente do SageMaker AI e caminhos padrão para locais de armazenamento de treinamento anterior. Recomendamos que você use o diretório /tmp como um espaço rascunho para armazenar temporariamente objetos grandes durante o treinamento. Isso significa que você não deve usar diretórios montados em um pequeno espaço em disco alocado para o sistema, como /user e /home, para evitar erros de falta de espaço.

Para saber mais, consulte o blog de machine learning AWS, Escolha a melhor fonte de dados para seu trabalho de treinamento do Amazon SageMaker, que discute mais detalhadamente estudos de caso e benchmarks de performance de fontes de dados e modos de entrada.