

As traduções são geradas por tradução automática. Em caso de conflito entre o conteúdo da tradução e da versão original em inglês, a versão em inglês prevalecerá.

# Requisitos de dados de treinamento para o Clean Rooms ML
Requisitos de dados de treinamento

Para criar com êxito um modelo de semelhanças, seus dados de treinamento devem atender aos seguintes requisitos:
+ Os dados do treinamento devem estar no formato Parquet, CSV ou JSON.
**nota**  
Os dados compactados do Parquet Zstandard (ZSTD) não são suportados.
+ Seus dados de treinamento devem ser catalogados em AWS Glue. Para obter mais informações, consulte [Conceitos básicos do AWS Glue Data Catalog](https://docs.aws.amazon.com//glue/latest/dg/start-data-catalog.html) no Guia do AWS Glue desenvolvedor. Recomendamos o uso de AWS Glue rastreadores para criar suas tabelas porque o esquema é inferido automaticamente.
+ O bucket do Amazon S3 que contém os dados de treinamento e os dados iniciais está na mesma AWS região que seus outros recursos de ML do Clean Rooms.
+ Os dados de treinamento devem conter pelo menos 100.000 usuários exclusivos IDs com pelo menos duas interações de itens cada.
+ Os dados de treinamento devem conter pelo menos 1 milhão de registros.
+ O esquema especificado na [CreateTrainingDataset](https://docs.aws.amazon.com/cleanrooms-ml/latest/APIReference/API_CreateTrainingDataset.html)ação deve estar alinhado com o esquema definido quando a AWS Glue tabela foi criada.
+ Os campos obrigatórios, conforme definido na tabela fornecida, são definidos na ação [CreateTrainingDataset](https://docs.aws.amazon.com/cleanrooms-ml/latest/APIReference/API_CreateTrainingDataset.html).    
[\[See the AWS documentation website for more details\]](http://docs.aws.amazon.com/pt_br/clean-rooms/latest/userguide/ml-training-data-requirements.html)
+ Também é possível fornecer até dez recursos categóricos ou numéricos no total.

Aqui está um exemplo de um conjunto de dados de treinamento válido no formato CSV

```
USER_ID,ITEM_ID,TIMESTAMP,EVENT_TYPE(CATEGORICAL FEATURE),EVENT_VALUE (NUMERICAL FEATURE)
196,242,881250949,click,15
186,302,891717742,click,13
22,377,878887116,click,10
244,51,880606923,click,20
166,346,886397596,click,10
```