

Las traducciones son generadas a través de traducción automática. En caso de conflicto entre la traducción y la version original de inglés, prevalecerá la version en inglés.

# Requisitos de datos de entrenamiento para Clean Rooms ML
Requisitos de datos de entrenamiento

Para crear correctamente un modelo similar, los datos de entrenamiento deben cumplir los siguientes requisitos:
+ Los datos de entrenamiento deben estar en formato Parquet, CSV o JSON.
**nota**  
No se admiten los datos de Parquet comprimidos con Zstandard (ZSTD).
+ Tus datos de entrenamiento deben estar catalogados en. AWS Glue Para obtener más información, consulte [Introducción al catálogo de datos de AWS Glue](https://docs.aws.amazon.com//glue/latest/dg/start-data-catalog.html) en la Guía para AWS Glue desarrolladores. Le recomendamos que utilice AWS Glue rastreadores para crear las tablas, ya que el esquema se deduce automáticamente.
+ El depósito de Amazon S3 que contiene los datos de entrenamiento y los datos iniciales se encuentra en la misma AWS región que sus otros recursos de aprendizaje automático para salas limpias.
+ Los datos de entrenamiento deben contener al menos 100 000 usuarios únicos IDs con al menos dos interacciones entre elementos cada uno.
+ Los datos de entrenamiento deben contener al menos 1 millón de registros.
+ El esquema especificado en la [CreateTrainingDataset](https://docs.aws.amazon.com/cleanrooms-ml/latest/APIReference/API_CreateTrainingDataset.html)acción debe alinearse con el esquema definido cuando se creó la AWS Glue tabla.
+ Los campos obligatorios, tal como se definen en la tabla proporcionada, se definen en la acción [CreateTrainingDataset](https://docs.aws.amazon.com/cleanrooms-ml/latest/APIReference/API_CreateTrainingDataset.html).    
[\[See the AWS documentation website for more details\]](http://docs.aws.amazon.com/es_es/clean-rooms/latest/userguide/ml-training-data-requirements.html)
+ Opcionalmente, puede proporcionar hasta 10 características categóricas o numéricas en total.

Este es un ejemplo de un conjunto de datos de entrenamiento válido en formato CSV

```
USER_ID,ITEM_ID,TIMESTAMP,EVENT_TYPE(CATEGORICAL FEATURE),EVENT_VALUE (NUMERICAL FEATURE)
196,242,881250949,click,15
186,302,891717742,click,13
22,377,878887116,click,10
244,51,880606923,click,20
166,346,886397596,click,10
```