As traduções são geradas por tradução automática. Em caso de conflito entre o conteúdo da tradução e da versão original em inglês, a versão em inglês prevalecerá.
Escolher um modo de entrada e uma unidade de armazenamento
A melhor fonte de dados para seu trabalho de treinamento depende das características da workload, como o tamanho do conjunto de dados, o formato do arquivo, o tamanho médio dos arquivos, a duração do treinamento, um padrão de leitura sequencial ou randomizado do carregador de dados e a rapidez com que seu modelo pode consumir os dados de treinamento. As práticas recomendadas a seguir fornecem diretrizes para começar a usar o modo de entrada e o serviço de armazenamento de dados mais adequados para seu caso de uso.
Quando usar o Amazon EFS
Se o seu conjunto de dados estiver armazenado no Amazon Elastic File System, você pode ter uma aplicação de pré-processamento ou anotações que usa o Amazon EFS para armazenamento. Você pode executar um trabalho de treinamento configurado com um canal de dados que aponta para o sistema de arquivos do Amazon EFS. Para obter mais informações, consulte Acelere o treinamento na Amazon SageMaker AI usando os sistemas de arquivos Amazon FSx for Lustre e Amazon EFS
Use o modo de arquivo para pequenos conjuntos de dados
Se o conjunto de dados estiver armazenado no Amazon Simple Storage Service e seu volume geral for relativamente pequeno (por exemplo, menos de 50 a 100 GB), tente usar o modo de arquivo. A sobrecarga do download de um conjunto de dados de 50 GB pode variar com base no número total de arquivos. Por exemplo, leva cerca de 5 minutos se um conjunto de dados for dividido em fragmentos de 100 MB. Se essa sobrecarga inicial é aceitável depende principalmente da duração geral do seu trabalho de treinamento, porque uma fase de treinamento mais longa significa uma fase de download proporcionalmente menor.
Serializar muitos arquivos pequenos
Se o tamanho do seu conjunto de dados for pequeno (menos de 50 a 100 GB), mas for composto por muitos arquivos pequenos (menos de 50 MB por arquivo), a sobrecarga de download do modo de arquivo aumentará, pois cada arquivo precisa ser baixado individualmente do Amazon Simple Storage Service para o volume da instância de treinamento. Para reduzir essa sobrecarga e o tempo de passagem de dados em geral, considere serializar grupos desses arquivos pequenos em menos contêineres maiores (como 150 MB por arquivo) usando formatos de arquivo, como TFRecord
Quando usar o modo de arquivo rápido
Para conjuntos de dados maiores com arquivos maiores (mais de 50 MB por arquivo), a primeira opção é experimentar o modo de arquivo rápido, que é mais simples de usar do FSx que o Lustre, pois não requer a criação de um sistema de arquivos ou a conexão com uma VPC. O modo de arquivo rápido é ideal para contêineres de arquivos grandes (mais de 150 MB) e também pode funcionar bem com arquivos com mais de 50 MB. Como o modo de arquivo rápido fornece uma interface POSIX, ele é compatível com leituras randomizadas (leitura de intervalos de bytes não sequenciais). No entanto, esse não é o caso de uso ideal e seu throughput pode ser menor do que com as leituras sequenciais. No entanto, se você tiver um modelo de ML relativamente grande e computacionalmente intensivo, o modo de arquivo rápido ainda poderá saturar a largura de banda efetiva do pipeline de treinamento e não resultar em um gargalo de E/S. Você precisará experimentar e ver. Para alternar do modo de arquivo para o modo de arquivo rápido (e vice-versa), basta adicionar (ou remover) o input_mode='FastFile' parâmetro ao definir seu canal de entrada usando o SDK do SageMaker Python:
sagemaker.inputs.TrainingInput(S3_INPUT_FOLDER, input_mode = 'FastFile')
Quando usar o Amazon FSx for Lustre
Se seu conjunto de dados for muito grande para o modo de arquivo, tiver muitos arquivos pequenos que você não pode serializar facilmente ou usar um padrão de acesso de leitura aleatória, FSx o Lustre é uma boa opção a ser considerada. Seu sistema de arquivos é escalável para centenas de gigabytes por segundo (GB/s) de throughput e milhões de IOPS, o que é ideal quando você tem muitos arquivos pequenos. No entanto, observe que pode haver um problema de inicialização a frio devido ao carregamento lento e à sobrecarga de configurar e inicializar o sistema de arquivos do FSx Lustre.
dica
Para saber mais, consulte Escolha a melhor fonte de dados para seu trabalho de SageMaker treinamento na Amazon