

As traduções são geradas por tradução automática. Em caso de conflito entre o conteúdo da tradução e da versão original em inglês, a versão em inglês prevalecerá.

# Escolher um modo de entrada e uma unidade de armazenamento
<a name="model-access-training-data-best-practices"></a>

A melhor fonte de dados para seu trabalho de treinamento depende das características da workload, como o tamanho do conjunto de dados, o formato do arquivo, o tamanho médio dos arquivos, a duração do treinamento, um padrão de leitura sequencial ou randomizado do carregador de dados e a rapidez com que seu modelo pode consumir os dados de treinamento. As práticas recomendadas a seguir fornecem diretrizes para começar a usar o modo de entrada e o serviço de armazenamento de dados mais adequados para seu caso de uso.

![Fluxograma que resume as melhores práticas de escolha do melhor armazenamento como fonte de dados e modo de arquivo de entrada.](http://docs.aws.amazon.com/pt_br/sagemaker/latest/dg/images/sagemaker-training-choose-mode-and-storage.png)


## Quando usar o Amazon EFS
<a name="model-access-training-data-best-practices-efs"></a>

Se o seu conjunto de dados estiver armazenado no Amazon Elastic File System, você pode ter uma aplicação de pré-processamento ou anotações que usa o Amazon EFS para armazenamento. Você pode executar um trabalho de treinamento configurado com um canal de dados que aponta para o sistema de arquivos do Amazon EFS. Para obter mais informações, consulte [Acelere o treinamento na Amazon SageMaker AI usando os sistemas de arquivos Amazon FSx for Lustre e Amazon EFS](https://aws.amazon.com/blogs/machine-learning/speed-up-training-on-amazon-sagemaker-using-amazon-efs-or-amazon-fsx-for-lustre-file-systems/). Se você não conseguir obter um desempenho melhor, verifique suas opções de otimização seguindo o [guia de desempenho do Amazon Elastic File System](https://docs.aws.amazon.com/efs/latest/ug/performance.html#performance-overview) ou considere usar diferentes modos de entrada ou armazenamento de dados.

## Use o modo de arquivo para pequenos conjuntos de dados
<a name="model-access-training-data-best-practices-file-mode"></a>

Se o conjunto de dados estiver armazenado no Amazon Simple Storage Service e seu volume geral for relativamente pequeno (por exemplo, menos de 50 a 100 GB), tente usar o modo de arquivo. A sobrecarga do download de um conjunto de dados de 50 GB pode variar com base no número total de arquivos. Por exemplo, leva cerca de 5 minutos se um conjunto de dados for dividido em fragmentos de 100 MB. Se essa sobrecarga inicial é aceitável depende principalmente da duração geral do seu trabalho de treinamento, porque uma fase de treinamento mais longa significa uma fase de download proporcionalmente menor.

## Serializar muitos arquivos pequenos
<a name="model-access-training-data-best-practices-serialize"></a>

Se o tamanho do seu conjunto de dados for pequeno (menos de 50 a 100 GB), mas for composto por muitos arquivos pequenos (menos de 50 MB por arquivo), a sobrecarga de download do modo de arquivo aumentará, pois cada arquivo precisa ser baixado individualmente do Amazon Simple Storage Service para o volume da instância de treinamento. [Para reduzir essa sobrecarga e o tempo de passagem de dados em geral, considere serializar grupos desses arquivos pequenos em menos contêineres maiores (como 150 MB por arquivo) usando formatos de arquivo, como [TFRecord](https://www.tensorflow.org/tutorials/load_data/tfrecord)for TensorFlow [ WebDataset](https://webdataset.github.io/webdataset/), for PyTorch e Recordio for.](https://mxnet.apache.org/versions/1.8.0/api/faq/recordio) MXNet

## Quando usar o modo de arquivo rápido
<a name="model-access-training-data-best-practices-fastfile"></a>

Para conjuntos de dados maiores com arquivos maiores (mais de 50 MB por arquivo), a primeira opção é experimentar o modo de arquivo rápido, que é mais simples de usar do FSx que o Lustre, pois não requer a criação de um sistema de arquivos ou a conexão com uma VPC. O modo de arquivo rápido é ideal para contêineres de arquivos grandes (mais de 150 MB) e também pode funcionar bem com arquivos com mais de 50 MB. Como o modo de arquivo rápido fornece uma interface POSIX, ele é compatível com leituras randomizadas (leitura de intervalos de bytes não sequenciais). No entanto, esse não é o caso de uso ideal e seu throughput pode ser menor do que com as leituras sequenciais. No entanto, se você tiver um modelo de ML relativamente grande e computacionalmente intensivo, o modo de arquivo rápido ainda poderá saturar a largura de banda efetiva do pipeline de treinamento e não resultar em um gargalo de E/S. Você precisará experimentar e ver. Para alternar do modo de arquivo para o modo de arquivo rápido (e vice-versa), basta adicionar (ou remover) o `input_mode='FastFile'` parâmetro ao definir seu canal de entrada usando o SDK do SageMaker Python:

```
sagemaker.inputs.TrainingInput(S3_INPUT_FOLDER,  input_mode = 'FastFile')
```

## Quando usar o Amazon FSx for Lustre
<a name="model-access-training-data-best-practices-fsx"></a>

Se seu conjunto de dados for muito grande para o modo de arquivo, tiver muitos arquivos pequenos que você não pode serializar facilmente ou usar um padrão de acesso de leitura aleatória, FSx o Lustre é uma boa opção a ser considerada. Seu sistema de arquivos é escalável para centenas de gigabytes por segundo (GB/s) de throughput e milhões de IOPS, o que é ideal quando você tem muitos arquivos pequenos. No entanto, observe que pode haver um problema de inicialização a frio devido ao carregamento lento e à sobrecarga de configurar e inicializar o sistema de arquivos do FSx Lustre.

**dica**  
Para saber mais, consulte [Escolha a melhor fonte de dados para seu trabalho de SageMaker treinamento na Amazon](https://aws.amazon.com/blogs/machine-learning/choose-the-best-data-source-for-your-amazon-sagemaker-training-job/). Este blog sobre aprendizado AWS de máquina discute ainda mais os estudos de caso e o benchmark de desempenho de fontes de dados e modos de entrada.