

As traduções são geradas por tradução automática. Em caso de conflito entre o conteúdo da tradução e da versão original em inglês, a versão em inglês prevalecerá.

# Armazenamento
<a name="storage"></a>


| **Pergunta** | **Exemplo de resposta** | 
| --- | --- | 
| Onde os dados de treinamento serão armazenados? | No armazenamento em nuvem (por exemplo, Amazon S3, armazenamento de arquivos, armazenamento em blocos ou armazenamento de objetos), no armazenamento local e assim por diante. | 
| Quais são os requisitos de armazenamento para os dados de treinamento e os artefatos do modelo (por exemplo, capacidade, durabilidade, disponibilidade)? | Armazenamento em escala de petabytes, alta durabilidade (99,999999999% de durabilidade), alta disponibilidade e assim por diante. | 
| Quais são os requisitos de retenção e backup de dados para os dados de treinamento e artefatos do modelo? | Retenção de dados por *x* anos, backups diários, backups externos e assim por diante. | 
| Quais formatos de arquivo são usados principalmente para armazenar seus conjuntos de dados de treinamento de IA (por exemplo, CSV, JSON, Parquet)? HDF5 | Arquivos em parquet para dados estruturados e HDF5 para grandes matrizes multidimensionais e dados não estruturados, como imagens e texto. Usamos formatos especializados, como TFRecord para otimizar o carregamento de dados durante o treinamento. | 
| Como seus conjuntos de dados de treinamento são organizados: como arquivos individuais, em bancos de dados ou usando formatos de dados de IA especializados? | Conjuntos de dados pequenos e médios são armazenados como arquivos Parquet individuais no armazenamento de objetos para maior flexibilidade. Grandes conjuntos de dados são armazenados em um banco de dados distribuído (Cassandra) para lidar com a escala. | 
| Você usa alguma técnica de compressão ou codificação de dados especificamente para dados generativos de treinamento de IA? | Para dados tabulares, usamos técnicas de codificação de dicionário e empacotamento de bits disponíveis no Parquet. Para imagens, usamos compressão JPEG com perdas com configurações de qualidade otimizadas para nossos modelos. | 
| Como você lida com o controle de versão e o armazenamento de diferentes iterações de conjuntos de dados de treinamento? Que impacto isso tem nas suas necessidades gerais de armazenamento? | Usamos um sistema de controle de versão de dados (DVC) integrado à nossa plataforma de ML. | 