Las traducciones son generadas a través de traducción automática. En caso de conflicto entre la traducción y la version original de inglés, prevalecerá la version en inglés.

# Cómo funcionan los modelos personalizados
<a name="canvas-build-model"></a>

Utilice Amazon SageMaker Canvas para crear un modelo personalizado en el conjunto de datos que ha importado. Utilice el modelo que ha creado para hacer predicciones a partir de nuevos datos. SageMaker Canvas usa la información del conjunto de datos para crear hasta 250 modelos y elegir el que tenga el mejor rendimiento.

Al empezar a crear un modelo, Canvas recomienda automáticamente uno o más *tipos de modelos*. Los tipos de modelos se dividen en las siguientes categorías:
+ **Predicción numérica**: esto se conoce como *regresión* en el machine learning. Utilice el tipo de modelo de predicción numérica cuando desee realizar predicciones para datos numéricos. Por ejemplo, es posible que desee predecir el precio de las casas en función de características como la superficie de la casa.
+ **Predicción categórica**: esto se conoce como *clasificación* en el machine learning. Cuando desee clasificar los datos en grupos, utilice los tipos de modelos de predicción categórica:
  + **Predicción de 2 categorías**: utilice el tipo de modelo de predicción de 2 categorías (también conocido como *clasificación binaria* en el machine learning) cuando tenga dos categorías que desee predecir para sus datos. Por ejemplo, es posible que desee determinar si es probable que un cliente se dé de baja.
  + **Predicción de 3 categorías o más**: utilice el tipo de modelo de predicción de 3 categorías o más (también conocido como *clasificación multiclase* en el machine learning) cuando desee predecir tres o más categorías a partir de sus datos. Por ejemplo, es posible que desee predecir el estado del préstamo de un cliente en función de características como los pagos anteriores.
+ **Previsión de series temporales**: utilice previsiones de series temporales cuando desee realizar predicciones durante un período de tiempo. Por ejemplo, es posible que desee predecir la cantidad de artículos que venderá en el próximo trimestre. Para obtener información sobre las previsiones de series temporales, consulte [Pronósticos de series temporales en Amazon SageMaker Canvas](https://docs.aws.amazon.com/sagemaker/latest/dg/canvas-time-series.html).
+ **Predicción de imágenes**: utilice el tipo de modelo de predicción de imágenes de etiqueta única (también conocido como *clasificación de imágenes de etiqueta única* en el machine learning) cuando desee asignar etiquetas a las imágenes. Por ejemplo, es posible que desee clasificar diferentes tipos de defectos de fabricación en las imágenes de su producto.
+ **Predicción de texto**: utilice el tipo de modelo de predicción de texto multicategoría (también conocido como *clasificación de texto multiclase* en el machine learning) cuando desee asignar etiquetas a pasajes de texto. Por ejemplo, es posible que tenga un conjunto de datos de reseñas de clientes sobre un producto y quiera determinar si a los clientes les gustó o no el producto. Puede hacer que su modelo prediga si un pasaje de texto determinado es `Positive`, `Negative` o `Neutral`.

Para ver una tabla de los tipos de datos de entrada admitidos para cada tipo de modelo, consulte [Modelos personalizados](canvas-custom-models.md).

Para cada modelo de datos tabulares que cree (que incluye modelos numéricos, categóricos, de previsión de series temporales y de predicción de texto), debe elegir la **Columna de destino**. La **Columna de destino** es la columna que contiene la información que quiera predecir. Por ejemplo, si está creando un modelo para predecir si las personas han cancelado sus suscripciones, la **Columna de destino** contiene puntos de datos que indican `yes` o `no` en relación con el estado de cancelación de una persona.

En el caso de los modelos de predicción de imágenes, se crea el modelo con un conjunto de datos de imágenes a las que se les han asignado etiquetas. Para las imágenes sin etiquetas que proporcione, el modelo predice una etiqueta. Por ejemplo, si está creando un modelo para predecir si una imagen es de un gato o un perro, debe proporcionar imágenes etiquetadas como gatos o perros al crear el modelo. A continuación, el modelo puede aceptar imágenes sin etiquetar y predecirlas como gatos o perros.

**Qué ocurre cuando se crea un modelo**

Para crear su modelo, puede elegir entre una **compilación rápida** o una **compilación estándar**. La **compilación rápida** tiene un tiempo de compilación más corto, pero la **compilación estándar** generalmente tiene una precisión mayor.

Para los modelos de previsión tabulares y de series temporales, Canvas utiliza *reducción del muestreo* para reducir el tamaño de los conjuntos de datos de más de 5 GB o 30 GB, respectivamente. Canvas reduce el muestreo con el método de muestreo estratificado. La siguiente tabla presenta el tamaño de la muestra reducida por tipo de modelo. Para controlar el proceso de muestreo, puede utilizar Data Wrangler en Canvas para muestrear utilizando la técnica de muestreo que prefiera. En el caso de los datos de series temporales, puede volver a muestrear para agregar puntos de datos. Para obtener más información sobre el muestreo, consulte [Muestreo](canvas-transform.md#canvas-transform-sampling). Para obtener más información sobre el remuestreo de datos de series temporales, consulte [Remuestreo de datos de series temporales](canvas-transform.md#canvas-resample-time-series).

Si realiza una **Compilación rápida** a partir de un conjunto de datos con más de 50 000 filas, Canvas muestreará los datos hasta 50 000 filas para reducir el tiempo de entrenamiento del modelo.

La siguiente tabla resume las características clave del proceso de compilación de modelos, incluidos los tiempos de compilación medios de cada modelo y tipo de compilación, el tamaño de la muestra reducida al compilar modelos con conjuntos de datos de gran tamaño y la cantidad mínima y máxima de puntos de datos que debe tener para cada tipo de compilación.


| Límite | Predicción numérica y categórica | Previsión de serie temporal | Predicción de imágenes | Predicción de texto | 
| --- | --- | --- | --- | --- | 
| Tiempo de **compilación rápida** | De 2 a 20 minutos | De 2 a 20 minutos | De 3 a 15 minutos | De 3 a 15 minutos | 
| Tiempo de **compilación estándar** | De 2 a 4 horas | De 2 a 4 horas | De 2 a 5 horas | De 2 a 5 horas | 
| Tamaño de la muestra reducida (tamaño de un conjunto de datos grande después de que Canvas reduzca la muestra) | 5 GB | 30 GB | N/A | N/A | 
| Número mínimo de entradas (filas) para **compilaciones rápidas** |  2 categorías: 500 filas Más de 3 categorías, numéricos, serie temporal: N/A  | N/A | N/A | N/A | 
| Número mínimo de entradas (filas, imágenes o documentos) para las **compilaciones estándares** | 250 | 50 | 50 | N/A | 
| Número máximo de entradas (filas, imágenes o documentos) para las **compilaciones rápidas** | N/A | N/A | 5000 | 7500 | 
| Número máximo de entradas (filas, imágenes o documentos) para las **compilaciones estándares** | N/A | 150.000 | 180,000 | N/A | 
| Número máximo de columnas. | 1 000 | 1 000 | N/A | N/A | 

Canvas predice los valores utilizando la información del resto del conjunto de datos, según el tipo de modelo:
+ Para la predicción categórica, Canvas coloca cada fila en una de las categorías enumeradas en la **Columna de destino**.
+ Para la predicción numérica, Canvas utiliza la información del conjunto de datos para predecir los valores numéricos de la **Columna de destino**.
+ Para la previsión de series temporales, Canvas utiliza datos históricos para predecir los valores de la **Columna de destino** en el futuro.
+ Para la predicción de imágenes, Canvas utiliza imágenes a las que se les han asignado etiquetas para predecir las etiquetas de las imágenes sin etiquetar.
+ Para la predicción de texto, Canvas analiza los datos de texto a los que se les han asignado etiquetas para predecir las etiquetas de los pasajes de texto sin etiquetar.

**Características adicionales que le ayudarán a crear su modelo**

Antes de compilar el modelo, puede usar Data Wrangler en Canvas para preparar los datos con más de 300 transformaciones y operadores integrados. Data Wrangler admite transformaciones para conjuntos de datos tabulares y de imágenes. Además, puede conectarse a orígenes de datos fuera de Canvas, crear trabajos para aplicar transformaciones a todo el conjunto de datos y exportar datos completamente preparados y limpios para usarlos en flujos de trabajo de ML fuera de Canvas. Para obtener más información, consulte [Preparación de datos](canvas-data-prep.md).

Para ver visualizaciones y análisis a fin de explorar los datos y determinar qué características se incluyen en el modelo, puede utilizar los análisis integrados de Data Wrangler. También puede acceder a un **informe de información y calidad de los datos** que destaca los posibles problemas del conjunto de datos y proporciona recomendaciones sobre cómo solucionarlos. Para obtener más información, consulte [Realización de análisis de datos exploratorio (EDA)](canvas-analyses.md).

Además de la funcionalidad más avanzada de preparación y exploración de datos que ofrece Data Wrangler, Canvas ofrece características básicas que puede utilizar:
+ Para filtrar los datos y acceder a un conjunto de transformaciones de datos básicas, consulte [Preparación de datos para la creación de modelos](canvas-prepare-data.md).
+ Para acceder a visualizaciones y análisis sencillos para explorar características, consulte [Exploración y análisis de datos](canvas-explore-data.md).
+ Para obtener más información sobre características adicionales, como la vista previa del modelo, la validación del conjunto de datos y el cambio del tamaño de la muestra aleatoria utilizada para crear el modelo, consulte [Vista previa del modelo](canvas-preview-model.md).

En el caso de los conjuntos de datos tabulares con varias columnas (como los conjuntos de datos para crear tipos de modelos de previsión categóricos, numéricos o de series temporales), es posible que tenga filas en las que falten puntos de datos. Mientras Canvas crea el modelo, agrega automáticamente los valores faltantes. Canvas usa los valores de su conjunto de datos para realizar una aproximación matemática de los valores faltantes. Para obtener la máxima precisión del modelo, le recomendamos agregar los datos que faltan si puede encontrarlos. Tenga en cuenta que la característica de datos faltantes no es compatible con los modelos de predicción de texto o de imagen.

**Introducción**

Para empezar a compilar un modelo personalizado, consulte [Creación de un modelo](canvas-build-model-how-to.md) y siga el procedimiento correspondiente al tipo de modelo que desee crear.

# Vista previa del modelo
<a name="canvas-preview-model"></a>

**nota**  
La siguiente funcionalidad solo está disponible para los modelos personalizados creados con conjuntos de datos tabulares. También se excluyen los modelos de predicción de texto de varias categorías.

SageMaker Canvas le proporciona una herramienta para obtener una vista previa de su modelo antes de comenzar a construir. Proporciona una puntuación de exactitud estimada y también brinda una idea preliminar de cómo podría afectar cada columna al modelo. 

Para obtener una vista previa de la puntuación del modelo, cuando esté en la pestaña **Compilar** del modelo, elija **Vista previa del modelo**.

La vista previa del modelo genera una predicción de **Exactitud estimada** de la eficacia con la que el modelo podría analizar los datos. La precisión de una **Compilación rápida** o una **Compilación estándar** representa el rendimiento del modelo con datos reales y, por lo general, es superior a la **Precisión estimada**.

La vista previa del modelo también proporciona puntuaciones de **Impacto de columnas**, que pueden indicar la importancia de cada columna en las predicciones del modelo.

La siguiente captura de pantalla muestra una vista previa del modelo en la aplicación de Canvas.

![\[Captura de pantalla de la pestaña Compilación de un modelo en Canvas.\]](http://docs.aws.amazon.com/es_es/sagemaker/latest/dg/images/studio/canvas/canvas-build/canvas-build-preview-model.png)


Amazon SageMaker Canvas gestiona automáticamente los valores que faltan en el conjunto de datos mientras crea el modelo. Infiere los valores faltantes mediante el uso de valores adyacentes que están presentes en el conjunto de datos.

Si está satisfecho con la vista previa del modelo y desea continuar con la compilación de un modelo, consulte [Creación de un modelo](canvas-build-model-how-to.md).

# Validación de datos
<a name="canvas-dataset-validation"></a>

Antes de crear el modelo, SageMaker Canvas comprueba el conjunto de datos para detectar problemas que puedan provocar un error en la compilación. Si SageMaker Canvas encuentra algún problema, te avisará en la página de **compilación** antes de que intentes crear un modelo.

Puede elegir **Validar datos** para ver una lista de los problemas de su conjunto de datos. Luego, puede usar las [funciones de preparación de datos de SageMaker Canvas Data Wrangler](canvas-data-prep.md), o sus propias herramientas, para corregir su conjunto de datos antes de comenzar una compilación. Si no soluciona los problemas del conjunto de datos, la compilación fallará.

Si realiza cambios en su conjunto de datos para solucionar los problemas, tendrá la opción de volver a validarlo antes de intentar compilarlo. Se recomienda volver a validar el conjunto de datos antes de compilarlo.

La siguiente tabla muestra los problemas que SageMaker Canvas comprueba en tu conjunto de datos y cómo resolverlos.


| Problema | Resolución | 
| --- | --- | 
|  El tipo de modelo de sus datos es incorrecto  |  Pruebe con otro tipo de modelo o utilice un conjunto de datos diferente.  | 
|  Faltan valores en la columna de destino  |  Reemplace los valores faltantes, elimine filas con valores faltantes o use un conjunto de datos diferente.  | 
|  Hay demasiadas etiquetas únicas en la columna de destino  |  Compruebe que ha utilizado la columna correcta para la columna de destino o utilice un conjunto de datos diferente.  | 
|  Hay demasiados valores no numéricos en la columna de destino  |  Elija una columna de destino diferente, seleccione otro tipo de modelo o utilice un conjunto de datos diferente.  | 
|  Uno o más nombres de columnas contienen guiones bajos dobles  |  Cambie el nombre de las columnas para eliminar los guiones bajos dobles e inténtelo de nuevo.  | 
|  Ninguna de las filas del conjunto de datos está completa  |  Reemplace los valores faltantes o use un conjunto de datos diferente.  | 
|  Demasiadas etiquetas únicas para el número de filas de los datos  |  Compruebe que esté usando la columna de destino correcta, aumente el número de filas de su conjunto de datos, consolide etiquetas similares o use un conjunto de datos diferente.  | 

# Muestra aleatoria
<a name="canvas-random-sample"></a>

SageMaker Canvas utiliza el método de muestreo aleatorio para muestrear su conjunto de datos. El método de muestreo aleatorio significa que cada fila tiene la misma probabilidad de ser seleccionada para la muestra. Puede elegir una columna en la vista previa para obtener un resumen de las estadísticas de la muestra aleatoria, como la media y la moda.

De forma predeterminada, SageMaker Canvas usa un tamaño de muestra aleatorio de 20 000 filas de su conjunto de datos para conjuntos de datos con más de 20 000 filas. Para conjuntos de datos de menos de 20 000 filas, el tamaño de muestra predeterminado es el número de filas del conjunto de datos. Puede aumentar o disminuir el tamaño de la muestra seleccionando **Muestra aleatoria** en la pestaña **Crear** de la aplicación SageMaker Canvas. Puede utilizar el control deslizante para seleccionar el tamaño de muestra que desee y, a continuación, seleccionar **Actualizar** para cambiar el tamaño de la muestra. El tamaño máximo de muestra que puede elegir para un conjunto de datos es de 40 000 filas y el tamaño mínimo de muestra es de 500 filas. Si elige un tamaño de muestra grande, es posible que la vista previa del conjunto de datos y las estadísticas del resumen tarden unos minutos en volver a cargarse.

La página de **Compilación** muestra una vista previa de 100 filas del conjunto de datos. Si el tamaño de la muestra es del mismo tamaño que el conjunto de datos, la vista previa utiliza las 100 primeras filas del conjunto de datos. De lo contrario, la vista previa usa las 100 primeras filas de la muestra aleatoria.

# Creación de un modelo
<a name="canvas-build-model-how-to"></a>

En las secciones siguientes se muestra cómo crear un modelo para cada uno de los principales tipos de modelos personalizados.
+ Para crear modelos de predicción numérica, predicción de 2 categorías o de 3 categorías o más, consulte [Creación de un modelo de predicción numérica o categórica personalizado](#canvas-build-model-numeric-categorical).
+ Para crear modelos de predicción de imágenes de etiqueta única, consulte [Creación de un modelo de predicción de imágenes personalizado](#canvas-build-model-image).
+ Para crear modelos de predicción de texto de varias categorías, consulte [Creación de un modelo de predicción de texto personalizado](#canvas-build-model-text).
+ Para crear modelos de previsión de series temporales, consulte [Compilación de un modelo de previsión de series temporales](#canvas-build-model-forecasting).

**nota**  
Si encuentra un error durante el análisis posterior a la creación que le indique que debe aumentar la cuota de instancias `ml.m5.2xlarge`, consulte [Solicitar un aumento de cuota](https://docs.aws.amazon.com/sagemaker/latest/dg/canvas-requesting-quota-increases.html).

## Creación de un modelo de predicción numérica o categórica personalizado
<a name="canvas-build-model-numeric-categorical"></a>

Los modelos de predicción numérica y categórica admiten **compilaciones rápidas** y **compilaciones estándar**.

Para crear un modelo de predicción numérica o categórica, utilice el siguiente procedimiento:

1. Abra la aplicación SageMaker Canvas.

1. En el panel de navegación izquierdo, elija **Mis modelos**.

1. Elija **Nuevo modelo**.

1. En el cuadro de diálogo **Crear nuevo modelo** haga lo siguiente:

   1. Escriba un nombre en el campo **Nombre de modelo**.

   1. Seleccione el tipo de problema de **Análisis predictivo**.

   1. Seleccione **Crear**.

1. En **Seleccionar conjunto de datos**, seleccione su conjunto de datos de la lista de conjuntos de datos. Si aún no ha importado sus datos, elija **Importar** para seguir el flujo de trabajo de importación de datos.

1. Cuando tenga todo listo para comenzar a crear el modelo, elija **Seleccionar conjunto de datos**.

1. En la pestaña **Compilación**, en la lista desplegable de la **Columna de destino**, seleccione el objetivo del modelo que desee predecir.

1. En **Tipo de modelo**, Canvas detecta automáticamente el tipo de problema. Si desea cambiar el tipo o establecer ajustes avanzados del modelo, elija **Configurar modelo**.

   Cuando se abra el cuadro de diálogo **Configurar modelo**, haga lo siguiente:

   1. En **Tipo de modelo**, elija el tipo de modelo que desee crear.

   1. Después de elegir el tipo de modelo, hay una **Configuración avanzada** adicional. Para obtener más información sobre cada uno de los ajustes avanzados, consulte [Configuraciones avanzadas de compilación de modelos](canvas-advanced-settings.md). Para realizar la configuración avanzada, haga lo siguiente:

      1. (Opcional) En el menú desplegable **Métrica objetiva**, seleccione la métrica que desee que Canvas optimice al crear su modelo. Si no selecciona una métrica, Canvas elegirá una por defecto. Para ver descripciones de métricas disponibles, consulte [Referencia de métricas](canvas-metrics.md).

      1. En **Método de entrenamiento**, elija el modo de optimización **Automático**, **Ensamblaje** u **Optimización de hiperparámetros (HPO)**.

      1. En **Algoritmos**, seleccione los algoritmos que desee incluir en la compilación de candidatos del modelo.

      1. En **División de datos** especifique porcentajes sobre cómo dividir los datos entre el **Conjunto de entrenamiento** y el **Conjunto de validación**. El conjunto de entrenamiento se usa para compilar el modelo, mientras que el conjunto de validación se usa para probar la exactitud de los candidatos del modelo.

      1. En **Máximo de candidatos y tiempo de ejecución**, haga lo siguiente:

         1. Establezca el valor **Máximo de candidatos** o el número máximo de candidatos del modelo que Canvas puede generar. Tenga en cuenta que **Máximo de candidatos** solo está disponible en el modo HPO.

         1. Establezca los valores de horas y minutos en **Tiempo de ejecución máximo de trabajos** o la cantidad máxima de tiempo que Canvas puede dedicar a compilar el modelo. Transcurrido el tiempo máximo, Canvas deja de compilar y selecciona el mejor candidato del modelo.

   1. Después de realizar la configuración avanzada, seleccione **Guardar**.

1. Seleccione o deseleccione las columnas de sus datos para incluirlas o eliminarlas de la compilación.
**nota**  
Si realiza predicciones por lotes con su modelo después de crearlo, Canvas agrega columnas eliminadas a los resultados de sus predicciones. Sin embargo, Canvas no agrega las columnas eliminadas a sus predicciones por lotes para los modelos de series temporales.

1. (Opcional) Utilice las herramientas de visualización y análisis que proporciona Canvas para visualizar sus datos y determinar qué características podría querer incluir en su modelo. Para obtener información, consulte [Exploración y análisis de sus datos](https://docs.aws.amazon.com/sagemaker/latest/dg/canvas-explore-data.html).

1. (Opcional) Utilice las transformaciones de datos para limpiar, transformar y preparar los datos para la creación de modelos. Para obtener más información, consulte [Preparación de los datos con transformaciones avanzadas](https://docs.aws.amazon.com/sagemaker/latest/dg/canvas-prepare-data.html). Para ver y eliminar las transformaciones, seleccione **Receta de modelo** para abrir el panel lateral **Receta de modelo**.

1. (Opcional) Para ver características adicionales, como obtener una vista previa de la precisión del modelo, validar el conjunto de datos y cambiar el tamaño de la muestra aleatoria que Canvas toma del conjunto de datos, consulte [Vista previa del modelo](canvas-preview-model.md).

1. Tras revisar los datos y realizar cualquier cambio en el conjunto de datos, elija **Compilación rápida** o **Compilación estándar** para empezar a crear el modelo. La siguiente captura de pantalla muestra la página de **Compilación** y las opciones de **compilación rápida** y **compilación estándar**.  
![\[La página de Compilación de un modelo de 2 categorías que muestra las opciones de construcción rápida y construcción estándar.\]](http://docs.aws.amazon.com/es_es/sagemaker/latest/dg/images/studio/canvas/build-page-tabular-quick-standard-options.png)

Cuando el modelo comience la compilación, puede salir de la página. Cuando el modelo aparezca como **Listo** en la página **Mis modelos**, estará listo para el análisis y las predicciones.

## Creación de un modelo de predicción de imágenes personalizado
<a name="canvas-build-model-image"></a>

Los modelos de predicción de imágenes de etiqueta única admiten **compilaciones rápidas** y **compilaciones estándar**.

Para crear un modelo de predicción de imágenes de etiqueta única, utilice el siguiente procedimiento:

1. Abra la aplicación SageMaker Canvas.

1. En el panel de navegación izquierdo, elija **Mis modelos**.

1. Elija **Nuevo modelo**.

1. En el cuadro de diálogo **Crear nuevo modelo** haga lo siguiente:

   1. Escriba un nombre en el campo **Nombre de modelo**.

   1. Seleccione el tipo de problema de **Análisis de imágenes**.

   1. Seleccione **Crear**.

1. En **Seleccionar conjunto de datos**, seleccione su conjunto de datos de la lista de conjuntos de datos. Si aún no ha importado sus datos, elija **Importar** para seguir el flujo de trabajo de importación de datos.

1. Cuando tenga todo listo para comenzar a crear el modelo, elija **Seleccionar conjunto de datos**.

1. En la pestaña **Crear**, verá la **Distribución de etiquetas** de las imágenes de su conjunto de datos. El **Tipo de modelo** está configurado como **Predicción de imágenes de etiqueta única**.

1. En esta página, puede obtener una vista previa de las imágenes y editar el conjunto de datos. Si tiene alguna imagen sin etiquetar, seleccione **Editar conjunto de datos** y [Asignación de etiquetas a las imágenes sin etiquetar](canvas-edit-image.md#canvas-edit-image-assign). También puede realizar otras tareas al mismo tiempo que realiza la acción [Edición de un conjunto de datos de imágenes](canvas-edit-image.md), como cambiar el nombre de las etiquetas y agregar imágenes al conjunto de datos.

1. Tras revisar los datos y realizar cualquier cambio en el conjunto de datos, elija **Compilación rápida** o **Compilación estándar** para empezar a crear el modelo. La siguiente captura de pantalla muestra la página de **Compilación** de un modelo de predicción de imágenes que está listo para ser creado.  
![\[La página de Compilación de un modelo de predicción de imágenes de etiqueta única.\]](http://docs.aws.amazon.com/es_es/sagemaker/latest/dg/images/studio/canvas/build-page-image-model.png)

Cuando el modelo comience la compilación, puede salir de la página. Cuando el modelo aparezca como **Listo** en la página **Mis modelos**, estará listo para el análisis y las predicciones.

## Creación de un modelo de predicción de texto personalizado
<a name="canvas-build-model-text"></a>

Los modelos de predicción de texto multicategoría admiten **compilaciones rápidas** y **compilaciones estándar**.

Para crear un modelo de predicción de texto, utilice el siguiente procedimiento:

1. Abra la aplicación SageMaker Canvas.

1. En el panel de navegación izquierdo, elija **Mis modelos**.

1. Elija **Nuevo modelo**.

1. En el cuadro de diálogo **Crear nuevo modelo** haga lo siguiente:

   1. Escriba un nombre en el campo **Nombre de modelo**.

   1. Seleccione el tipo de problema de **Análisis de texto**.

   1. Seleccione **Crear**.

1. En **Seleccionar conjunto de datos**, seleccione su conjunto de datos de la lista de conjuntos de datos. Si aún no ha importado sus datos, elija **Importar** para seguir el flujo de trabajo de importación de datos.

1. Cuando tenga todo listo para comenzar a crear el modelo, elija **Seleccionar conjunto de datos**.

1. En la pestaña **Compilación**, en la lista desplegable de la **Columna de destino**, seleccione el objetivo del modelo que desee predecir. La columna de destino debe tener un tipo de datos binario o categórico y debe haber al menos 25 entradas (o filas de datos) para cada etiqueta única de la columna de destino.

1. Para el **Tipo de modelo**, confirme que el tipo de modelo se establece automáticamente en **Predicción de texto multicategoría**.

1. Para la columna de entrenamiento, seleccione la columna de origen de datos de texto. Esta debe ser la columna que contenga el texto que quiera analizar.

1. Elija **Compilación rápida** o **Compilación estándar** para empezar a construir el modelo. La siguiente captura de pantalla muestra la página de **Compilación** de un modelo de predicción de texto que está listo para ser creado.  
![\[La página de Compilación de un modelo de predicción de texto de varias categorías.\]](http://docs.aws.amazon.com/es_es/sagemaker/latest/dg/images/studio/canvas/build-page-text-model.png)

Cuando el modelo comience la compilación, puede salir de la página. Cuando el modelo aparezca como **Listo** en la página **Mis modelos**, estará listo para el análisis y las predicciones.

## Compilación de un modelo de previsión de series temporales
<a name="canvas-build-model-forecasting"></a>

Los modelos de previsión de series temporales admiten **Compilaciones rápidas** y **Compilaciones estándar**.

Siga este procedimiento para realizar una previsión de series temporales.

1. Abra la aplicación SageMaker Canvas.

1. En el panel de navegación izquierdo, elija **Mis modelos**.

1. Elija **Nuevo modelo**.

1. En el cuadro de diálogo **Crear nuevo modelo** haga lo siguiente:

   1. Escriba un nombre en el campo **Nombre de modelo**.

   1. Seleccione el tipo de problema **Previsión de series temporales**.

   1. Seleccione **Crear**.

1. En **Seleccionar conjunto de datos**, seleccione su conjunto de datos de la lista de conjuntos de datos. Si aún no ha importado sus datos, elija **Importar** para seguir el flujo de trabajo de importación de datos.

1. Cuando tenga todo listo para comenzar a crear el modelo, elija **Seleccionar conjunto de datos**.

1. En la pestaña **Compilación**, en la lista desplegable de la **Columna de destino**, seleccione el objetivo del modelo que desee predecir.

1. En la sección **Tipo de modelo**, elija **Configurar modelo**.

1. Se abre el cuadro **Configurar modelo**. En la sección **Configuración de series temporales**, rellene los siguientes campos:

   1. En **Columna de ID de elemento**, elija una columna del conjunto de datos que identifique de forma única cada fila. La columna debe tener un tipo de datos de `Text`.

   1. (Opcional) En **Columna de grupo**, elija una o más columnas categóricas (con un tipo de datos de `Text`) que desee usar para agrupar valores de previsión.

   1. En **Columna de marca de tiempo**, seleccione la columna con marcas de tiempo (en formato de fecha y hora). Para obtener más información sobre los formatos de fecha y hora aceptados, consulte [Pronósticos de series temporales en Amazon SageMaker Canvas](canvas-time-series.md).

   1. En el campo **Duración de la previsión**, introduzca el período de tiempo para el que desea prever valores. Canvas detecta automáticamente las unidades de tiempo de los datos.

   1. (Opcional) Active el conmutador **Usar calendario de días festivos** para seleccionar un calendario de días festivos de varios países y aumentar la precisión de sus previsiones con datos de días festivos.

1. En el cuadro **Configurar modelo** hay ajustes adicionales en la sección **Avanzado**. Para obtener más información sobre cada uno de los ajustes avanzados, consulte [Configuraciones avanzadas de compilación de modelos](canvas-advanced-settings.md). Para realizar la configuración **Avanzada**, haga lo siguiente:

   1. En el menú desplegable **Métrica objetiva**, seleccione la métrica que desee que Canvas optimice al crear su modelo. Si no selecciona una métrica, Canvas elegirá una por defecto. Para ver descripciones de métricas disponibles, consulte [Referencia de métricas](canvas-metrics.md).

   1. Si está ejecutando una compilación estándar, verá la sección **Algoritmos**. Esta sección sirve para seleccionar los algoritmos de previsión de series temporales que desea utilizar para compilar el modelo. Puede seleccionar un subconjunto de los algoritmos disponibles o puede seleccionarlos todos si no está seguro de cuáles probar.

      Al ejecutar la compilación estándar, Canvas crea un modelo de conjunto que combina todos los algoritmos para optimizar la exactitud de la predicción.
**nota**  
Si está ejecutando una compilación rápida, Canvas utiliza un único algoritmo de aprendizaje basado en árboles para entrenar el modelo y no tiene que seleccionar ningún algoritmo.

   1. En **Cuantiles de previsión**, introduzca hasta 5 valores de cuantiles separados por comas para especificar los límites superior e inferior de la previsión.

   1. Después de realizar la configuración **Avanzada**, seleccione **Guardar**.

1. Seleccione o deseleccione las columnas de sus datos para incluirlas o eliminarlas de la compilación.
**nota**  
Si realiza predicciones por lotes con su modelo después de crearlo, Canvas agrega columnas eliminadas a los resultados de sus predicciones. Sin embargo, Canvas no agrega las columnas eliminadas a sus predicciones por lotes para los modelos de series temporales.

1. (Opcional) Utilice las herramientas de visualización y análisis que proporciona Canvas para visualizar sus datos y determinar qué características podría querer incluir en su modelo. Para obtener información, consulte [Exploración y análisis de sus datos](https://docs.aws.amazon.com/sagemaker/latest/dg/canvas-explore-data.html).

1. (Opcional) Utilice las transformaciones de datos para limpiar, transformar y preparar los datos para la creación de modelos. Para obtener más información, consulte [Preparación de los datos con transformaciones avanzadas](https://docs.aws.amazon.com/sagemaker/latest/dg/canvas-prepare-data.html). Para ver y eliminar las transformaciones, seleccione **Receta de modelo** para abrir el panel lateral **Receta de modelo**.

1. (Opcional) Para ver características adicionales, como obtener una vista previa de la precisión del modelo, validar el conjunto de datos y cambiar el tamaño de la muestra aleatoria que Canvas toma del conjunto de datos, consulte [Vista previa del modelo](canvas-preview-model.md).

1. Tras revisar los datos y realizar cualquier cambio en el conjunto de datos, elija **Compilación rápida** o **Compilación estándar** para empezar a crear el modelo.

Cuando el modelo comience la compilación, puede salir de la página. Cuando el modelo aparezca como **Listo** en la página **Mis modelos**, estará listo para el análisis y las predicciones.

# Configuraciones avanzadas de compilación de modelos
<a name="canvas-advanced-settings"></a>

Amazon SageMaker Canvas admite varios ajustes avanzados que puede configurar al crear un modelo. En la siguiente página se enumeran todos los ajustes avanzados junto con información adicional sobre sus opciones y configuraciones.

**nota**  
Actualmente, las siguientes configuraciones avanzadas solo se admiten para tipos de modelos de previsión numéricos, categóricos y de series temporales.

## Configuración avanzada de modelos de predicción numéricos y categóricos
<a name="canvas-advanced-settings-predictive"></a>

Canvas admite la siguiente configuración avanzada para tipos de modelos de predicción numéricos y categóricos.

### Métrica objetiva
<a name="canvas-advanced-settings-predictive-obj-metric"></a>

La métrica objetiva es la métrica que desea que Canvas optimice al compilar el modelo. Si no selecciona una métrica, Canvas elegirá una por defecto. Para ver descripciones de métricas disponibles, consulte [Referencia de métricas](canvas-metrics.md).

### Método de entrenamiento
<a name="canvas-advanced-settings-predictive-method"></a>

Canvas puede seleccionar automáticamente el método de entrenamiento en función del tamaño del conjunto de datos, aunque también puede seleccionarlo usted manualmente. Puede elegir entre los siguientes métodos de entrenamiento:
+ **Ensamblaje**: la SageMaker IA aprovecha la AutoGluon biblioteca para entrenar varios modelos básicos. Para encontrar la mejor combinación para su conjunto de datos, el modo de ensamblaje ejecuta 5-10 pruebas con diferentes ajustes de modelo y metaparámetro. A continuación, estos modelos se combinan mediante un método de conjuntos apilados para crear un modelo predictivo óptimo. Para obtener una lista de los algoritmos que admite el modo de conjunto para datos tabulares, consulte la siguiente sección de [Algoritmos](#canvas-advanced-settings-predictive-algos).
+ **Optimización de hiperparámetros (HPO)**: la SageMaker IA encuentra la mejor versión de un modelo ajustando los hiperparámetros mediante la optimización bayesiana o la optimización de multifidelidad mientras ejecuta tareas de entrenamiento en el conjunto de datos. El modo HPO selecciona los algoritmos que son más relevantes para el conjunto de datos y selecciona el mejor rango de hiperparámetros para ajustar los modelos. Para ajustar sus modelos, el modo HPO ejecuta hasta 100 pruebas (predeterminado) para encontrar la configuración de hiperparámetros óptima dentro del rango seleccionado. Si el tamaño del conjunto de datos es inferior a 100 MB, la IA utiliza la optimización bayesiana. SageMaker SageMaker La IA elige la optimización de fidelidad múltiple si el conjunto de datos tiene más de 100 MB.

  Para obtener una lista de los algoritmos que admite el modo HPO para datos tabulares, consulte la siguiente sección de [Algoritmos](#canvas-advanced-settings-predictive-algos).
+ **Automático**: la SageMaker IA elige automáticamente el modo de ensamblaje o el modo HPO en función del tamaño del conjunto de datos. Si su conjunto de datos es superior a 100 MB, SageMaker AI elige el modo HPO. De lo contrario, elige el modo de ensamblaje.

### Algoritmos
<a name="canvas-advanced-settings-predictive-algos"></a>

En el modo **Ensamblaje**, Canvas admite los siguientes algoritmos de machine learning:
+ [LightGBM](https://docs.aws.amazon.com/sagemaker/latest/dg/lightgbm.html): un marco optimizado que utiliza algoritmos basados en árboles con potenciación por gradiente. Este algoritmo utiliza árboles que crecen en amplitud, en lugar de en profundidad, y está altamente optimizado para la velocidad.
+ [CatBoost](https://docs.aws.amazon.com/sagemaker/latest/dg/catboost.html)— Un marco que utiliza algoritmos basados en árboles con aumento de gradiente. Optimizado para la gestión de variables categóricas.
+ [XGBoost](https://docs.aws.amazon.com/sagemaker/latest/dg/xgboost.html)— Un marco que utiliza algoritmos basados en árboles con un aumento de gradiente que aumenta en profundidad, en lugar de en amplitud.
+ [Random Forest](https://scikit-learn.org/stable/modules/generated/sklearn.ensemble.RandomForestClassifier.html): algoritmo basado en árboles que utiliza varios árboles de decisión en submuestras aleatorias de los datos y las reemplaza. Los árboles se dividen en nodos óptimos en cada nivel. Las decisiones de cada árbol se promedian para evitar el sobreajuste y mejorar las predicciones.
+ [Extra Trees](https://scikit-learn.org/stable/modules/generated/sklearn.ensemble.ExtraTreesClassifier.html#sklearn.ensemble.ExtraTreesClassifier): un algoritmo basado en árboles que utiliza varios árboles de decisión en todo el conjunto de datos. Los árboles se dividen aleatoriamente en cada nivel. Las decisiones de cada árbol se promedian para evitar el sobreajuste y mejorar las predicciones. Extra Trees añade un grado de asignación al azar en comparación con el algoritmo Random Forest.
+ [Linear Models](https://scikit-learn.org/stable/modules/classes.html#module-sklearn.linear_model): un marco que utiliza una ecuación lineal para modelar la relación entre dos variables en los datos observados.
+ Neural network torch: un modelo de red neuronal que se implementa con [Pytorch](https://pytorch.org/).
+ Neural network fast.ai: un modelo de red neuronal que se implementa con [fast.ai](https://www.fast.ai/).

En **Modo HPO**, Canvas admite los siguientes algoritmos de machine learning:
+ [XGBoost](https://docs.aws.amazon.com/sagemaker/latest/dg/xgboost.html)— Un algoritmo de aprendizaje supervisado que intenta predecir con precisión una variable objetivo mediante la combinación de un conjunto de estimaciones de un conjunto de modelos más simples y débiles.
+ Algoritmo de aprendizaje profundo: un perceptrón multicapa (MLP) y una red neuronal artificial de retroalimentación. Este algoritmo puede procesar datos que no se pueden separar linealmente.

### División de datos
<a name="canvas-advanced-settings-predictive-split"></a>

Tiene la opción de especificar cómo quiere dividir el conjunto de datos entre el conjunto de entrenamiento (la parte del conjunto de datos que se utiliza para compilar el modelo) y el conjunto de validación (la parte del conjunto de datos que se utiliza para verificar la exactitud del modelo). Por ejemplo, una proporción de división común es 80 % de entrenamiento y 20 % de validación, donde el 80 % de los datos se utilizan para compilar el modelo y el 20 % se reserva para medir el rendimiento del modelo. Si no especifica una proporción personalizada, Canvas divide el conjunto de datos automáticamente.

### Candidatos máximos
<a name="canvas-advanced-settings-predictive-candidates"></a>

**nota**  
Esta característica solo está disponible en el modo de entrenamiento HPO.

Puede especificar el número máximo de candidatos del modelo que Canvas genera al compilar el modelo. Recomendamos que utilice el número predeterminado de candidatos, que es 100, para crear los modelos más precisos. El número máximo que puede especificar es 250. La reducción del número de candidatos del modelo puede afectar a la exactitud del modelo.

### Tiempo de ejecución máximo de trabajos
<a name="canvas-advanced-settings-predictive-runtime"></a>

Puede especificar el tiempo de ejecución máximo de los trabajos o la cantidad máxima de tiempo que Canvas dedica a compilar el modelo. Una vez transcurrido el límite de tiempo, Canvas deja de compilar y selecciona el mejor candidato del modelo.

El tiempo máximo que puede especificar es de 720 horas. Le recomendamos encarecidamente que mantenga el tiempo máximo de ejecución del trabajo en más de 30 minutos para garantizar que Canvas tenga tiempo suficiente para generar candidatos del modelo y terminar de compilar el modelo.

## Configuración avanzada del modelo de previsión de series temporales
<a name="canvas-advanced-settings-time-series"></a>

Para los modelos de previsión de series temporales, Canvas admite la métrica Objetivo, que se detalla en la sección anterior.

Los modelos de previsión de series temporales también admiten la siguiente configuración avanzada:

### Selección de algoritmos
<a name="canvas-advanced-settings-time-series-algos"></a>

Cuando compila un modelo de previsión de series temporales, Canvas utiliza un *ensamblaje* (o una combinación) de algoritmos estadísticos y de machine learning para ofrecer previsiones de series temporales de gran precisión. De forma predeterminada, Canvas selecciona la combinación óptima de todos los algoritmos disponibles en función de la serie temporal del conjunto de datos. Sin embargo, tiene la opción de especificar uno o más algoritmos para usarlos en el modelo de previsión. En este caso, Canvas determina la mejor combinación utilizando solo los algoritmos seleccionados. Si no está seguro de qué algoritmo seleccionar para entrenar el modelo, le recomendamos que elija todos los algoritmos disponibles.

**nota**  
La selección de algoritmos solo se admite en compilaciones estándar. Si no seleccionas ningún algoritmo en la configuración avanzada, de forma predeterminada, la SageMaker IA ejecuta una compilación rápida y entrena a los candidatos del modelo mediante un único algoritmo de aprendizaje basado en árboles. Para obtener más información acerca de la diferencia entre compilaciones rápidas y compilaciones estándar, consulte [Cómo funcionan los modelos personalizados](canvas-build-model.md).

Canvas admite los siguientes algoritmos de previsión de series temporales:
+ [ Media móvil integrada autorregresiva (ARIMA)](https://en.wikipedia.org/wiki/Autoregressive_integrated_moving_average): modelo estocástico simple de series temporales que utiliza el análisis estadístico para interpretar los datos y hacer predicciones futuras. Este algoritmo resulta útil para conjuntos de datos simples con menos de 100 series temporales.
+ [ Red neuronal convolucional: regresión cuantil (CNN-QR)](https://docs.aws.amazon.com/forecast/latest/dg/aws-forecast-algo-cnnqr.html): algoritmo de aprendizaje supervisado patentado que entrena un modelo global a partir de una gran colección de series temporales y utiliza un descodificador de cuantiles para realizar predicciones. CNN-QR funciona mejor con conjuntos de datos grandes que contienen cientos de series temporales.
+ [DeepAr\$1](https://docs.aws.amazon.com/forecast/latest/dg/aws-forecast-recipe-deeparplus.html): un algoritmo de aprendizaje supervisado patentado para pronosticar series temporales escalares mediante redes neuronales recurrentes (RNNs) para entrenar un único modelo de forma conjunta en todas las series temporales. DeepAR\$1 funciona mejor con conjuntos de datos grandes que contienen cientos de series temporales de características.
+ [Series temporales no paramétricas (NPTS)](https://docs.aws.amazon.com/forecast/latest/dg/aws-forecast-recipe-npts.html): método de previsión escalable de línea base probabilística que predice la distribución futura de valores de una serie temporal determinada mediante el muestreo de observaciones anteriores. NPTS resulta útil cuando se trabaja con series temporales dispersas o intermitentes (por ejemplo, previsión de la demanda de elementos individuales en los que la serie temporal tiene muchos ceros o recuentos bajos).
+ [Suavizado exponencial (ETS)](https://en.wikipedia.org/wiki/Exponential_smoothing): método de previsión que produce previsiones que son medias ponderadas de observaciones anteriores, en las que disminuyen exponencialmente las ponderaciones de observaciones más antiguas. El algoritmo es útil para conjuntos de datos simples con menos de 100 series temporales y conjuntos de datos con patrones de estacionalidad.
+ [Prophet](https://facebook.github.io/prophet/): modelo de regresión aditiva que funciona mejor con series temporales que tienen fuertes efectos estacionales y varias temporadas de datos históricos. El algoritmo es útil para conjuntos de datos con tendencias de crecimiento no lineales que se acercan a un límite.

### Cuantiles de previsión
<a name="canvas-advanced-settings-time-series-quantiles"></a>

Para la previsión de series temporales, la SageMaker IA entrena a 6 candidatos a modelos con las series temporales objetivo. A continuación, la SageMaker IA combina estos modelos mediante un método de apilamiento por conjuntos para crear un modelo de pronóstico óptimo para una métrica objetivo determinada. Cada modelo de previsión genera una previsión probabilística con produciendo previsiones en cuantiles entre P1 y P99. Estos cuantiles se utilizan para contabilizar la incertidumbre de las previsiones. De forma predeterminada, se generarán previsiones para los valores 0,1 (`p10`), 0,5 (`p50`) y 0,9 (`p90`). Puede elegir especificar hasta cinco cuantiles propios, desde 0,01 (`p1`) hasta 0,99 (`p99`), con incrementos de 0,01 o más.

# Edición de un conjunto de datos de imágenes
<a name="canvas-edit-image"></a>

En Amazon SageMaker Canvas, puede editar sus conjuntos de datos de imágenes y revisar las etiquetas antes de crear un modelo. Es posible que desee realizar tareas como asignar etiquetas a imágenes sin etiquetar o agregar más imágenes al conjunto de datos. Todas estas tareas se pueden realizar en la aplicación de Canvas, lo que le proporciona un solo lugar para modificar su conjunto de datos y crear un modelo.

**nota**  
Antes de crear un modelo, debe asignar etiquetas a todas las imágenes del conjunto de datos. Además, debe tener al menos 25 imágenes por etiqueta y un mínimo de dos etiquetas. Para obtener más información sobre la asignación de etiquetas, consulte la sección de esta página denominada **Asignación de etiquetas a imágenes sin etiquetar**. Si no puede determinar una etiqueta para una imagen, debe eliminarla del conjunto de datos. Para obtener más información acerca de cómo eliminar imágenes, consulte la sección [Agregar o eliminar imágenes del conjunto de datos](#canvas-edit-image-add-delete) en esta página.

Para empezar a editar su conjunto de datos de imágenes, debe estar en la pestaña **Compilación** mientras crea su modelo de predicción de imágenes de etiqueta única.

Se abre una nueva página en la que se muestran las imágenes del conjunto de datos junto con sus etiquetas. En esta página se clasifica su conjunto de datos de imágenes en **Imágenes totales**, **Imágenes etiquetadas** e **Imágenes sin etiquetar**. También puede consultar la **Guía de preparación de conjuntos de datos** para conocer las prácticas recomendadas sobre cómo crear un modelo de predicción de imágenes más preciso.

En la siguiente captura de pantalla se muestra la página para editar el conjunto de datos de imágenes.

![\[Captura de pantalla de la página de administración del conjunto de datos de imágenes en Canvas.\]](http://docs.aws.amazon.com/es_es/sagemaker/latest/dg/images/studio/canvas/dataset-management-page.png)


Desde esta página puede hacer lo siguiente:

## Ver las propiedades de cada imagen (etiqueta, tamaño, dimensiones)
<a name="canvas-edit-image-view"></a>

Para ver una imagen individual, puede buscarla por nombre de archivo en la barra de búsqueda. A continuación, seleccione la imagen para abrir la vista completa. Puede ver las propiedades de la imagen y reasignar la etiqueta de la imagen. Seleccione **Guardar** cuando termine de ver la imagen.

## Agregar, eliminar o cambiar el nombre de etiquetas en el conjunto de datos
<a name="canvas-edit-image-labels"></a>

Canvas muestra las etiquetas de su conjunto de datos en el panel de navegación izquierdo. Puede agregar nuevas etiquetas al conjunto de datos especificando una etiqueta en el campo de texto **Agregar etiqueta**.

Para cambiar el nombre de una etiqueta de su conjunto de datos o eliminarla, elija el icono **Más opciones** (![\[Vertical ellipsis icon representing a menu or more options.\]](http://docs.aws.amazon.com/es_es/sagemaker/latest/dg/images/studio/canvas/more-options-icon.png)) situado junto a la etiqueta y seleccione **Cambiar nombre** o **Eliminar**. Si cambia el nombre de la etiqueta, puede introducir el nombre de la nueva etiqueta y elegir **Confirmar**. Si elimina la etiqueta, se eliminará de todas las imágenes del conjunto de datos que tengan esa etiqueta. Las imágenes que tengan esa etiqueta se quedarán sin etiquetar.

## Asignación de etiquetas a las imágenes sin etiquetar
<a name="canvas-edit-image-assign"></a>

Para ver las imágenes sin etiquetar de su conjunto de datos, elija **Sin etiquetar** en el panel de navegación izquierdo. Para cada imagen, selecciónela y abra la etiqueta titulada **Sin etiquetar** y, en la lista desplegable, seleccione una etiqueta para asignarla a la imagen. También puede seleccionar más de una imagen y realizar esta acción, y a todas las imágenes seleccionadas se les asignará la etiqueta que seleccione.

## Reasignación de etiquetas a las imágenes
<a name="canvas-edit-image-reassign"></a>

Para reasignar etiquetas a las imágenes, seleccione la imagen (o varias imágenes a la vez) y abra el menú desplegable con la etiqueta actual. Seleccione la etiqueta que quiera y la imagen o imágenes se actualizarán con la nueva etiqueta.

## Ordenación de sus imágenes por etiqueta
<a name="canvas-edit-image-sort"></a>

Puede ver todas las imágenes de una etiqueta determinada seleccionando la etiqueta en el panel de navegación izquierdo.

## Agregar o eliminar imágenes del conjunto de datos
<a name="canvas-edit-image-add-delete"></a>

Puede agregar más imágenes a su conjunto de datos seleccionando **Agregar imágenes** en el panel de navegación superior. Se le guiará por el flujo de trabajo para importar más imágenes. Las imágenes que importe se agregan a su conjunto de datos existente.

Para eliminar imágenes de su conjunto de datos, selecciónelas y, a continuación, elija **Eliminar** en el panel de navegación superior.

**nota**  
Después de realizar cualquier cambio en el conjunto de datos, seleccione **Guardar conjunto de datos** para asegurarse de no perder los cambios.

# Exploración y análisis de datos
<a name="canvas-explore-data"></a>

**nota**  
Solo puede usar las visualizaciones y los análisis de SageMaker Canvas para modelos basados en conjuntos de datos tabulares. También se excluyen los modelos de predicción de texto de varias categorías.

En Amazon SageMaker Canvas, puede explorar las variables de su conjunto de datos mediante visualizaciones y análisis, y crear visualizaciones y análisis en la aplicación. Puede utilizar estas exploraciones para descubrir las relaciones entre las variables antes de crear el modelo.

Para obtener más información sobre las técnicas de visualización en Canvas, consulte [Exploración de los datos con técnicas de visualización](canvas-explore-data-visualization.md).

Para obtener más información sobre los análisis en Canvas, consulte [Exploración de los datos mediante el análisis](canvas-explore-data-analytics.md).

# Exploración de los datos con técnicas de visualización
<a name="canvas-explore-data-visualization"></a>

**nota**  
Solo puede usar las visualizaciones de SageMaker Canvas para modelos basados en conjuntos de datos tabulares. También se excluyen los modelos de predicción de texto de varias categorías.

Con Amazon SageMaker Canvas, puede explorar y visualizar sus datos para obtener información avanzada sobre ellos antes de crear sus modelos de aprendizaje automático. Puede realizar la visualización mediante gráficos de dispersión, gráficos de barras y diagramas de cajas, que pueden ayudarle a comprender los datos y a descubrir las relaciones entre las características que podrían afectar a la precisión del modelo.

En la pestaña **Crear** de la aplicación SageMaker Canvas, elija el **visualizador de datos** para empezar a crear sus visualizaciones.

Puede cambiar el tamaño de la muestra de visualización para ajustar el tamaño de la muestra aleatoria tomada del conjunto de datos. Un tamaño de muestra demasiado grande puede afectar al rendimiento de las visualizaciones de datos, por lo que le recomendamos que elija un tamaño de muestra adecuado. Para cambiar el tamaño de la muestra, use el procedimiento siguiente.

1. Elija una **Muestra de visualización**.

1. Utilice el control deslizante para seleccionar el tamaño de muestra que desee.

1. Seleccione **Actualizar** para confirmar el cambio en el tamaño de la muestra.

**nota**  
Algunas técnicas de visualización requieren columnas de un tipo de datos específico. Por ejemplo, solo puede usar columnas numéricas para los ejes x e y de los gráficos de dispersión.

## Gráfico de dispersión
<a name="canvas-explore-data-scatterplot"></a>

Para crear un gráfico de dispersión con su conjunto de datos, elija **Gráfico de dispersión** en el panel de **Visualización**. Elija las características que quiera trazar en los ejes x e y en la sección **Columnas**. Puede arrastrar y soltar las columnas sobre los ejes o, una vez que se haya colocado un eje, puede elegir una columna de la lista de columnas compatibles.

Puede utilizar **Colorear por** para colorear los puntos de datos del gráfico con una tercera característica. También puede usar **Agrupar por** para agrupar los datos en gráficos separados en función de una cuarta característica.

La siguiente imagen muestra un gráfico de dispersión que utiliza **Colorear por** y **Agrupar por**. En este ejemplo, la característica `MaritalStatus` colorea cada punto de datos y, al agruparlo por la característica `Department`, se obtiene un gráfico de dispersión para los puntos de datos de cada departamento.

![\[Captura de pantalla de un gráfico de dispersión en la vista del Visualizador de datos de la aplicación de Canvas.\]](http://docs.aws.amazon.com/es_es/sagemaker/latest/dg/images/studio/canvas/canvas-eda-scatter-plot.png)


## Gráfico de barras
<a name="canvas-explore-data-barchart"></a>

Para crear un gráfico de barras con su conjunto de datos, elija **Gráfico de barras** en el panel de **Visualización**. Elija las características que quiera trazar en los ejes x e y en la sección **Columnas**. Puede arrastrar y soltar las columnas sobre los ejes o, una vez que se haya colocado un eje, puede elegir una columna de la lista de columnas compatibles.

Puede utilizar **Agrupar por** para agrupar el gráfico de barras por una tercera característica. Puede utilizar **Apilar por** para sombrear verticalmente cada barra en función de los valores únicos de una cuarta característica.

La siguiente imagen muestra un gráfico de barras que utiliza **Agrupar por** y **Apilar por**. En este ejemplo, el gráfico de barras está agrupado por la característica `MaritalStatus` y apilado por la característica `JobLevel`. Para cada `JobRole` del eje x, hay una barra independiente para las categorías únicas de la característica `MaritalStatus`, y cada barra se apila verticalmente según la característica `JobLevel`.

![\[Captura de pantalla de un gráfico de barras en la vista del Visualizador de datos de la aplicación de Canvas.\]](http://docs.aws.amazon.com/es_es/sagemaker/latest/dg/images/studio/canvas/canvas-eda-bar-chart.png)


## Gráfico de cajas
<a name="canvas-explore-data-boxplot"></a>

Para crear un gráfico de cajas con su conjunto de datos, elija **Diagrama de cajas** en el panel de **Visualización**. Elija las características que quiera trazar en los ejes x e y en la sección **Columnas**. Puede arrastrar y soltar las columnas sobre los ejes o, una vez que se haya colocado un eje, puede elegir una columna de la lista de columnas compatibles.

Puede utilizar **Agrupar por** para agrupar los diagramas de caja por una tercera característica.

La siguiente imagen muestra un gráfico de cajas que utiliza **Agrupar por**. En este ejemplo, los ejes x e y muestran `JobLevel` y `JobSatisfaction`, respectivamente, y los diagramas de cajas de colores se agrupan por la característica `Department`.

![\[Captura de pantalla de un gráfico de cajas en la vista del Visualizador de datos de la aplicación de Canvas.\]](http://docs.aws.amazon.com/es_es/sagemaker/latest/dg/images/studio/canvas/canvas-eda-box-plot.png)


# Exploración de los datos mediante el análisis
<a name="canvas-explore-data-analytics"></a>

**nota**  
Solo puede usar el análisis de SageMaker Canvas para modelos basados en conjuntos de datos tabulares. También se excluyen los modelos de predicción de texto de varias categorías.

Con los análisis de Amazon SageMaker Canvas, puede explorar su conjunto de datos y obtener información sobre todas las variables antes de crear un modelo. Puede determinar las relaciones entre las entidades de su conjunto de datos mediante matrices de correlación. Puede usar esta técnica para resumir el conjunto de datos en una matriz que muestre las correlaciones entre dos o más valores. Esto le ayuda a identificar y visualizar los patrones en un conjunto de datos determinado para un análisis de datos avanzado.

La matriz muestra la correlación entre cada característica como positiva, negativa o neutra. Es posible que desee incluir características que tengan una alta correlación entre sí al crear el modelo. Las características que tengan poca o ninguna correlación pueden ser irrelevantes para el modelo, y puede omitirlas al crear el modelo.

Para empezar a utilizar las matrices de correlación en SageMaker Canvas, consulte la siguiente sección.

## Creación de una matriz de correlación
<a name="canvas-explore-data-analytics-correlation-matrix"></a>

Puede crear una matriz de correlación cuando se prepare para construir un modelo en la pestaña **Construir** de la aplicación SageMaker Canvas.

Para obtener instrucciones acerca de cómo empezar a crear un modelo, consulte [Creación de un modelo](canvas-build-model-how-to.md).

Cuando haya empezado a preparar un modelo en la aplicación SageMaker Canvas, haga lo siguiente:

1. En la pestaña **Compilación**, elija el **Visualizador de datos**.

1. Seleccione **Análisis**.

1. Seleccione **Matriz de correlación**.

Debería ver una visualización similar a la siguiente captura de pantalla, que muestra hasta 15 columnas del conjunto de datos organizadas en una matriz de correlación.

![\[Captura de pantalla de una matriz de correlación en la aplicación de Canvas.\]](http://docs.aws.amazon.com/es_es/sagemaker/latest/dg/images/studio/canvas/canvas-correlation-matrix-2.png)


Después de haber creado la matriz de correlación, puede personalizarla haciendo lo siguiente:

### 1. Elija sus columnas
<a name="canvas-explore-data-analytics-correlation-matrix-columns"></a>

Para **Columnas**, puede seleccionar las columnas que quiera incluir en la matriz. Puede comparar hasta 15 columnas de su conjunto de datos.

**nota**  
Puede usar tipos de columnas numéricas, categóricas o binarias para una matriz de correlación. La matriz de correlación no admite los tipos de columnas de datos de texto o fecha y hora.

Para agregar o eliminar columnas de la matriz de correlación, seleccione y deseleccione las columnas en el panel **Columnas**. También puede arrastrar y soltar columnas del panel directamente a la matriz. Si su conjunto de datos tiene muchas columnas, puede buscar las columnas que desee en la barra **Buscar columnas**.

Para filtrar las columnas por tipo de datos, seleccione la lista desplegable y elija **Todas**, **Numéricas** o **Categóricas**. Al seleccionar **Todas**, se muestran todas las columnas del conjunto de datos, mientras que los filtros **Numéricas** y **Categóricas** solo muestran las columnas numéricas o categóricas del conjunto de datos. Tenga en cuenta que los tipos de columnas binarias se incluyen en los filtros de numéricas o categóricas.

Para obtener la mejor información sobre los datos, incluya la columna de destino en la matriz de correlación. Al incluir la columna de destino en la matriz de correlación, aparece como la última característica de la matriz con un símbolo objetivo.

### 2. Elija el tipo de correlación
<a name="canvas-explore-data-analytics-correlation-matrix-cor-type"></a>

SageMaker Canvas admite diferentes *tipos de correlación* o métodos para calcular la correlación entre las columnas.

Para cambiar el tipo de correlación, utilice el filtro **Columnas** mencionado en la sección anterior para filtrar por el tipo de columna y las columnas que desee. Debería ver el **Tipo de correlación** en el panel lateral. Para las comparaciones numéricas, tiene la opción de seleccionar **Pearson** o **Spearman**. Para las comparaciones categóricas, el tipo de correlación se establece como **MI**. Para las comparaciones categóricas y mixtas, el tipo de correlación se establece como **Spearman & MI**.

Para las matrices que solo comparan columnas numéricas, el tipo de correlación es Pearson o Spearman. La medida de Pearson evalúa la relación lineal entre dos variables continuas. La medida de Spearman evalúa la relación monótona entre dos variables. Tanto para Pearson como para Spearman, la escala de correlación varía de -1 a 1; cada extremo de la escala indica una correlación perfecta (una relación 1:1 directa) y 0 indica que no hay correlación. Es posible que desee seleccionar Pearson si los datos tienen relaciones más lineales (como lo revela una [visualización de un gráfico de dispersión](https://docs.aws.amazon.com/sagemaker/latest/dg/canvas-explore-data.html#canvas-explore-data-scatterplot)). Si los datos no son lineales o contienen una mezcla de relaciones lineales y monótonas, puede que prefiera seleccionar Spearman.

Para las matrices que solo comparan columnas categóricas, el tipo de correlación se establece como Clasificación de información mutua (MI). El valor MI es una medida de la dependencia mutua entre dos variables aleatorias. La medida MI está en una escala de 0 a 1, donde 0 indica que no hay correlación y 1 indica una correlación perfecta.

Para las matrices que comparan una combinación de columnas numéricas y categóricas, el tipo de correlación **Spearman y MI** es una combinación de los tipos de correlación Spearman y MI. Para las correlaciones entre dos columnas numéricas, la matriz muestra el valor de Spearman. Para las correlaciones entre una columna numérica y una categórica o dos columnas categóricas, la matriz muestra el valor MI.

Por último, recuerde que la correlación no indica necesariamente causalidad. Un valor de correlación fuerte solo indica que existe una relación entre dos variables, pero es posible que las variables no tengan una relación causal. Revise cuidadosamente las columnas de interés para evitar sesgos al crear el modelo.

### 3. Filtre sus correlaciones
<a name="canvas-explore-data-analytics-correlation-matrix-filter"></a>

En el panel lateral, puede utilizar la característica **Filtrar correlaciones** para filtrar el rango de valores de correlación que desee incluir en la matriz. Por ejemplo, si desea filtrar entidades que solo tengan una correlación positiva o neutra, puede establecer el valor **mínimo** en 0 y el **máximo** en 1 (los valores válidos son -1 a 1).

Para las comparaciones de Spearman y Pearson, puede establecer el rango de **Correlaciones del filtro** entre -1 y 1, donde 0 significa que no hay correlación. -1 y 1 significan que las variables tienen una fuerte correlación negativa o positiva, respectivamente.

En las comparaciones de MI, el rango de correlación solo va de 0 a 1, donde 0 significa que no hay correlación y 1 significa que las variables tienen una correlación fuerte, ya sea positiva o negativa.

Cada característica tiene una correlación perfecta (1) consigo misma. Por lo tanto, puede observar que la fila superior de la matriz de correlación siempre es 1. Si desea excluir estos valores, puede usar el filtro para establecer el **máximo** en menos de 1.

Tenga en cuenta que si su matriz compara una combinación de columnas numéricas y categóricas y utiliza el tipo de correlación de **Spearman y MI**, las correlaciones *categóricas x numéricas* y *categóricas x categóricas* (que utilizan la medida MI) están en una escala de 0 a 1, mientras que las correlaciones *numéricas x numéricas* (que utilizan la medida de Spearman) están en una escala de -1 a 1. Revise sus correlaciones de interés detenidamente para asegurarse de que conoce el tipo de correlación que se utiliza para calcular cada valor.

### 4. Seleccione el método de visualización
<a name="canvas-explore-data-analytics-correlation-matrix-viz-method"></a>

En el panel lateral, puede usar **Visualizar por** para cambiar el método de visualización de la matriz. Elija el método de visualización **Numérico** para mostrar el valor de correlación (Pearson, Spearman o MI) o elija el método de visualización por **Tamaño** para visualizar la correlación con puntos de diferentes tamaños y colores. Si elige **Tamaño**, puede pasar el ratón sobre un punto específico de la matriz para ver el valor de correlación real.

### 5. Elija una paleta de colores
<a name="canvas-explore-data-analytics-correlation-matrix-color"></a>

En el panel lateral, puede utilizar la **Selección de colores** para cambiar la paleta de colores utilizada para la escala de correlación negativa a positiva en la matriz. Seleccione una de las paletas de colores alternativas para cambiar los colores utilizados en la matriz.

# Preparación de datos para la creación de modelos
<a name="canvas-prepare-data"></a>

**nota**  
Ahora puede realizar una preparación avanzada de datos en SageMaker Canvas con Data Wrangler, que le proporciona una interfaz de lenguaje natural y más de 300 transformaciones integradas. Para obtener más información, consulte [Preparación de datos](canvas-data-prep.md).

Es posible que su conjunto de datos de machine learning requiera la preparación de los datos antes de crear el modelo. Es posible que quiera limpiar los datos debido a varios problemas, entre los que se pueden incluir valores faltantes o valores atípicos, y realizar ingeniería de características para mejorar la precisión del modelo. Amazon SageMaker Canvas proporciona transformaciones de datos de aprendizaje automático con las que puede limpiar, transformar y preparar los datos para la creación de modelos. Puede utilizar estas transformaciones en sus conjuntos de datos sin necesidad de código. SageMaker Canvas agrega las transformaciones que usa a la **receta del modelo**, que es un registro de la preparación de datos realizada con los datos antes de crear el modelo. Cualquier transformación de datos que utilice solo modifica los datos de entrada para la creación del modelo y no modifica el origen de datos original.

La vista previa de su conjunto de datos muestra las primeras 100 filas del conjunto de datos. Si su conjunto de datos tiene más de 20 000 filas, Canvas toma una muestra aleatoria de 20 000 filas y obtiene una vista previa de las 100 primeras filas de esa muestra. Solo puede buscar y especificar valores de las filas previsualizadas, y la funcionalidad de filtrado solo filtra las filas previsualizadas y no todo el conjunto de datos.

Las siguientes transformaciones están disponibles en SageMaker Canvas para que pueda preparar los datos para la construcción.

**nota**  
Solo puede usar transformaciones avanzadas para modelos basados en conjuntos de datos tabulares. También se excluyen los modelos de predicción de texto de varias categorías.

## Exclusión de columnas
<a name="canvas-prepare-data-drop"></a>

Puede excluir una columna de la compilación del modelo colocándola en la pestaña **Construir** de la aplicación SageMaker Canvas. Deseleccione la columna que quiera excluir y no se incluirá al crear el modelo.

**nota**  
Si elimina columnas y, a continuación, hace [predicciones por lotes](canvas-make-predictions.md) con su modelo, SageMaker Canvas vuelve a agregar las columnas eliminadas al conjunto de datos de salida disponible para su descarga. Sin embargo, SageMaker Canvas no vuelve a agregar las columnas desplegadas para los modelos de series temporales.

## Filtrado de filas
<a name="canvas-prepare-data-filter"></a>

La funcionalidad de filtrado filtra las filas previsualizadas (las 100 primeras filas del conjunto de datos) según las condiciones que especifique. El filtrado de filas crea una vista previa temporal de los datos y no afecta a la creación del modelo. Puede filtrar para obtener una vista previa de las filas a las que les falten valores, contengan valores atípicos o cumplan condiciones personalizadas en la columna que elija.

### Filtrado de filas por valores faltantes
<a name="canvas-prepare-data-filter-missing"></a>

Los valores faltantes son frecuentes en los conjuntos de datos de machine learning. Si tiene filas con valores nulos o vacíos en determinadas columnas, puede que desee filtrarlas y obtener una vista previa de esas filas.

Para filtrar los valores faltantes de los datos de la vista previa, haga lo siguiente.

1. En la pestaña **Crear** de la aplicación SageMaker Canvas, elija **Filtrar por filas** (![\[Filter icon in the SageMaker Canvas application.\]](http://docs.aws.amazon.com/es_es/sagemaker/latest/dg/images/studio/canvas/filter-icon.png)).

1. Elija la **Columna** en la que desee comprobar si faltan valores.

1. Para la **Operación**, elija **Faltante**.

SageMaker Canvas filtra las filas que contienen valores faltantes en la **columna** que ha seleccionado y proporciona una vista previa de las filas filtradas.

![\[Captura de pantalla de la operación de filtrado por valores faltantes en la aplicación SageMaker Canvas.\]](http://docs.aws.amazon.com/es_es/sagemaker/latest/dg/images/studio/canvas/canvas-filter-missing.png)


### Filtrado de filas por valores atípicos
<a name="canvas-prepare-data-filter-outliers"></a>

Los valores atípicos, o valores poco frecuentes en la distribución y el rango de los datos, pueden afectar negativamente a la precisión del modelo y prolongar los tiempos de construcción. SageMaker Canvas le permite detectar y filtrar filas que contienen valores atípicos en columnas numéricas. Puede elegir definir los valores atípicos con desviaciones estándar o con un rango personalizado.

Para filtrar los valores atípicos en sus datos, haga lo siguiente.

1. En la pestaña **Crear** de la aplicación SageMaker Canvas, elija **Filtrar por filas** (![\[Filter icon in the SageMaker Canvas application.\]](http://docs.aws.amazon.com/es_es/sagemaker/latest/dg/images/studio/canvas/filter-icon.png)).

1. Elija la **Columna** en la que desee comprobar si hay valores atípicos.

1. Para la **Operación**, elija **Atípico**.

1. Establezca el **Rango de valores atípicos** en **Desviación estándar** o **Rango personalizado**.

1. Si elige **Desviación estándar**, especifique un valor de **SD** (desviación estándar) comprendido entre 1 y 3. Si elige **Rango personalizado**, seleccione **Percentil** o **Número** y, a continuación, especifique los valores **Mín** y **Máx**.

La opción **Desviación estándar** detecta y filtra los valores atípicos en las columnas numéricas mediante la media y la desviación estándar. Usted especifica el número de desviaciones estándar que debe separar a un valor de la media para que se considere un valor atípico. Por ejemplo, si especifica `3` para la **SD**, un valor debe estar a más de 3 desviaciones estándar de la media para que se considere un valor atípico.

La opción **Rango personalizado** detecta y filtra los valores atípicos en las columnas numéricas mediante valores mínimos y máximos. Utilice este método si conoce los valores límite que delimitan los valores atípicos. Puede establecer el **Tipo** de rango en **Percentil** o **Número**. Si elige **Percentil**, los valores **Mín** y **Máx** deben ser el mínimo y el máximo del rango de percentiles (0-100) que desee permitir. Si elige **Número**, los valores **Mín** y **Máx** deben ser los valores numéricos mínimos y máximos que desee filtrar en los datos.

![\[Captura de pantalla de la operación de filtrado por valores atípicos en la aplicación SageMaker Canvas.\]](http://docs.aws.amazon.com/es_es/sagemaker/latest/dg/images/studio/canvas/canvas-filter-outlier.png)


### Filtrado de las filas por valores personalizados
<a name="canvas-prepare-data-filter-custom"></a>

Puede filtrar por las filas con valores que cumplan condiciones personalizadas. Por ejemplo, es posible que desee obtener una vista previa de las filas que tengan un valor de precio superior a 100 antes de eliminarlas. Con esta funcionalidad, puede filtrar las filas que superen el umbral que haya establecido y obtener una vista previa de los datos filtrados.

Para utilizar la función de filtrado personalizado, haga lo siguiente.

1. En la pestaña **Crear** de la aplicación SageMaker Canvas, elija **Filtrar por filas** (![\[Filter icon in the SageMaker Canvas application.\]](http://docs.aws.amazon.com/es_es/sagemaker/latest/dg/images/studio/canvas/filter-icon.png)).

1. Elija la **Columna** en la que desee comprobar.

1. Seleccione el tipo de **Operación** que desee utilizar y, a continuación, especifique los valores de la condición seleccionada.

Para la **Operación**, puede elegir una de las siguientes opciones: Tenga en cuenta que las operaciones disponibles dependen del tipo de datos de la columna que elija. Por ejemplo, no puede crear una operación `is greater than` para una columna que contenga valores de texto.


| Operación | Tipos de datos admitidos | Tipo de característica admitida | Función | 
| --- | --- | --- | --- | 
|  Es igual que  |  Numérico, texto  | Binario, categórico |  Filtra las filas en las que el valor de la **Columna** sea igual a los valores que especifique.  | 
|  No es igual a  |  Numérico, texto  | Binario, categórico |  Filtra las filas en las que el valor de la **Columna** no sea igual a los valores que especifique.  | 
|  Es menor que  |  Numérico  | N/A |  Filtra las filas en las que el valor de la **Columna** es inferior al valor especificado.  | 
|  Es menor o igual que  |  Numérico  | N/A |  Filtra las filas en las que el valor de la **Columna** es inferior o igual que el valor especificado.  | 
|  Es mayor que  |  Numérico  | N/A |  Filtra las filas en las que el valor de la **Columna** es mayor que el valor especificado.  | 
|  Es mayor o igual que  |  Numérico  | N/A |  Filtra las filas en las que el valor de la **Columna** es mayor o igual que el valor especificado.  | 
|  Está entre  |  Numérico  | N/A |  Filtra las filas en las que el valor de la **Columna** es igual a o está entre los dos valores que especifique.  | 
|  Contiene  |  Texto  | Categórico |  Filtra las filas en las que el valor de la **Columna** contenga los valores que especifique.  | 
|  Empieza por  |  Texto  | Categórico |  Filtra las filas en las que el valor de la **Columna** comienza por los valores que especifique.  | 
|  Acaba con  |  Categórico  | Categórico |  Filtra las filas en las que el valor de la **Columna** termina con un valor que especifique.  | 

Después de configurar la operación de filtrado, SageMaker Canvas actualiza la vista previa del conjunto de datos para mostrarle los datos filtrados.

![\[Captura de pantalla de la operación de filtrado por valores personalizados en la aplicación SageMaker Canvas.\]](http://docs.aws.amazon.com/es_es/sagemaker/latest/dg/images/studio/canvas/canvas-filter-custom.png)


## Funciones y operadores
<a name="canvas-prepare-data-custom-formula"></a>

Puede utilizar funciones y operadores matemáticos para explorar y distribuir los datos. Puede utilizar las funciones compatibles con SageMaker Canvas o crear su propia fórmula con los datos existentes y crear una nueva columna con el resultado de la fórmula. Por ejemplo, puede agregar los valores correspondientes de dos columnas y guardar el resultado en una nueva columna.

Puede agrupar sentencias para crear funciones más complejas. A continuación se muestran algunos ejemplos de funciones anidadas que podría utilizar.
+ Para calcular el BMI, puede utilizar la función `weight / (height ^ 2)`.
+ Para clasificar las edades, puede utilizar la función `Case(age < 18, 'child', age < 65, 'adult', 'senior')`.

Puede especificar las funciones en la etapa de preparación de los datos antes de crear el modelo. Para usar una función, haga lo siguiente.
+ En la pestaña **Crear** de la aplicación SageMaker Canvas, elija **Ver todo** y, a continuación, elija **Fórmula personalizada** para abrir el panel de **fórmulas personalizadas**.
+ En el panel de **Fórmula personalizada**, puede elegir una **Fórmula** para agregarla a su **Receta de modelo**. Cada fórmula se aplica a todos los valores de las columnas que especifique. Para las fórmulas que aceptan dos o más columnas como argumentos, utilice columnas con tipos de datos coincidentes; de lo contrario, obtendrá un error o valores `null` en la nueva columna. 
+ Una vez que haya especificado una **fórmula**, añada un nombre de columna en el campo **Nombre de nueva columna**. SageMaker Canvas usa este nombre para la nueva columna que se crea.
+ (Opcional) Seleccione **Vista previa** para obtener una vista previa de la transformación.
+ Para agregar la función a la **Receta de modelo**, seleccione **Agregar**.

SageMaker Canvas guarda el resultado de su función en una nueva columna con el nombre que especificó en **Nombre de nueva columna**. Puede ver o eliminar funciones desde el panel **Receta de modelo**.

SageMaker Canvas admite los siguientes operadores para las funciones. Puede utilizar el formato de texto o el formato en línea para especificar la función.


| Operador | Description (Descripción) | Tipos de datos compatibles | Formato de texto | Formato en línea | 
| --- | --- | --- | --- | --- | 
|  Add (Suma)  |  Devuelve la suma de los valores  |  Numérico  | Add(sales1, sales2) | sales1 \$1 sales2 | 
|  Subtract (Sustracción)  |  Devuelve la diferencia entre los valores  |  Numérico  | Subtract(sales1, sales2) | sales1 ‐ sales2 | 
|  Multiply (Multiplicación)  |  Devuelve el producto de los valores  |  Numérico  | Multiply(sales1, sales2) | sales1 \$1 sales2 | 
|  Divide (División)  |  Devuelve el cociente de los valores  |  Numérico  | Divide(sales1, sales2) | sales1 / sales2 | 
|  Mod (Módulo)  |  Devuelve el resultado del operador módulo (el resto después de dividir los dos valores)  |  Numérico  | Mod(sales1, sales2) | sales1 % sales2 | 
|  Abs (Absoluto)  | Devuelve el valor absoluto del valor |  Numérico  | Abs(sales1) | N/A | 
|  Negate  | Devuelve el negativo del valor |  Numérico  | Negate(c1) | ‐c1 | 
|  Exp (Exponente)  |  Devuelve e (número de Euler) elevado a la potencia del valor  |  Numérico  | Exp(sales1) | N/A | 
|  Registro  |  Devuelve el logaritmo (de base 10) del valor   |  Numérico  | Log(sales1) | N/A | 
|  Ln  |  Devuelve el logaritmo natural (de base e) del valor   |  Numérico  | Ln(sales1) | N/A | 
|  Pow (Potencia)  |  Devuelve el valor elevado a una potencia  |  Numérico  | Pow(sales1, 2) | sales1 ^ 2 | 
|  If (Condicional)  |  Devuelve una etiqueta de verdadero o falso en función de la condición que especifique  |  Booleano, numérico, texto  | If(sales1>7000, 'truelabel, 'falselabel') | N/A | 
|  Or (Disyunción)  |  Devuelve un valor booleano que indica si uno de los valores o las condiciones especificados es verdadero o no  |  Booleano  | Or(fullprice, discount) | fullprice \$1\$1 discount | 
|  And (Conjunción)  |  Devuelve un valor booleano que indica si dos de los valores o las condiciones especificados son verdaderos o no  |  Booleano  | And(sales1,sales2) | sales1 && sales2 | 
|  No (Negación)  |  Devuelve un valor booleano opuesto al valor o las condiciones especificados  |  Booleano  | Not(sales1) | \$1sales1 | 
|  Case (Caso condicional)  |  Devuelve un valor booleano basado en sentencias condicionales (devuelve c1 si cond1 es verdadero, devuelve c2 si cond2 es verdadero, de lo contrario devuelve c3)  |  Booleano, numérico, texto  | Case(cond1, c1, cond2, c2, c3) | N/A | 
|  Igualdad  |  Devuelve un valor booleano que indica si dos valores son iguales  |  Booleano, numérico, texto  | N/A | c1 = c2c1 == c2 | 
|  Desigualdad  |  Devuelve un valor booleano que indica si dos valores no son iguales  |  Booleano, numérico, texto  | N/A | c1 \$1= c2 | 
|  Menor que  |  Devuelve un valor booleano que indica si c1 es menor que c2  |  Booleano, numérico, texto  | N/A | c1 < c2 | 
|  Mayor que  |  Devuelve un valor booleano que indica si c1 es mayor que c2  |  Booleano, numérico, texto  | N/A | c1 > c2 | 
|  Menor que o igual a  |  Devuelve un valor booleano que indica si c1 es menor o igual que c2  |  Booleano, numérico, texto  | N/A | c1 <= c2 | 
|  Mayor que o igual a  |  Devuelve un valor booleano que indica si c1 es mayor o igual que c2  |  Booleano, numérico, texto  | N/A | c1 >= c2 | 

SageMaker Canvas también admite operadores agregados, que pueden realizar operaciones como calcular la suma de todos los valores o encontrar el valor mínimo en una columna. Puede utilizar operadores de agregación en combinación con operadores estándar en sus funciones. Por ejemplo, para calcular la diferencia de valores con respecto a la media, puede utilizar la función`Abs(height – avg(height))`. SageMaker Canvas admite los siguientes operadores agregados.


| Operador de agregación | Description (Descripción) | Formato | Ejemplo | 
| --- | --- | --- | --- | 
|  sum  |  Devuelve la suma de todos los valores de una columna  | sum | sum(c1) | 
|  minimum  |  Devuelve el valor mínimo de una columna  | min | min(c2) | 
|  maximum  |  Devuelve el valor máximo de una columna  | max | max(c3) | 
|  average  |  Devuelve el valor medio de una columna  | avg | avg(c4) | 
|  std  | Devuelve la desviación estándar muestral de una columna | std | std(c1) | 
|  stddev  | Devuelve la desviación estándar de los valores de una columna | stddev | stddev(c1) | 
|  variance  | Devuelve la varianza no sesgada de los valores de una columna | variance | variance(c1) | 
|  approx\$1count\$1distinct  | Devuelve el número aproximado de elementos distintos de una columna | approx\$1count\$1distinct | approx\$1count\$1distinct(c1) | 
|  count  | Devuelve el número de elementos de una columna | count | count(c1) | 
|  first  |  Devuelve el valor medio de una columna  | first | first(c1) | 
|  last  |  Devuelve el valor medio de una columna  | last | last(c1) | 
|  stddev\$1pop  | Devuelve la desviación estándar poblacional de una columna | stddev\$1pop | stddev\$1pop(c1) | 
|  variance\$1pop  |  Devuelve la varianza poblacional de los valores de una columna  | variance\$1pop | variance\$1pop(c1) | 

## Administrar filas
<a name="canvas-prepare-data-manage"></a>

Con la transformación Administrar filas, puede ordenar, mezclar aleatoriamente y eliminar filas de datos del conjunto de datos.

### Ordenar filas
<a name="canvas-prepare-data-manage-sort"></a>

Para ordenar las filas de un conjunto de datos por una columna determinada, haga lo siguiente.

1. En la pestaña **Crear** de la aplicación SageMaker Canvas, elija **Administrar filas** y, a continuación, elija **Ordenar filas**.

1. En **Ordenar columna**, elija la columna por la que desee ordenar.

1. En **Orden de clasificación**, seleccione **Ascendente** o **Descendente**.

1. Seleccione **Agregar** para agregar la transformación a la **Receta de modelo**.

### Mezclar filas
<a name="canvas-prepare-data-manage-shuffle"></a>

Para mezclar aleatoriamente las filas de un conjunto de datos, haga lo siguiente.

1. En la pestaña **Crear** de la aplicación SageMaker Canvas, elija **Administrar filas** y, a continuación, elija **Organizar filas**.

1. Seleccione **Agregar** para agregar la transformación a la **Receta de modelo**.

### Eliminar filas duplicadas
<a name="canvas-prepare-data-manage-drop-duplicate"></a>

Para eliminar las filas duplicadas de un conjunto de datos, haga lo siguiente.

1. En la pestaña **Crear** de la aplicación SageMaker Canvas, selecciona **Administrar filas** y, a continuación, selecciona Eliminar **filas duplicadas**.

1. Seleccione **Agregar** para agregar la transformación a la **Receta de modelo**.

### Eliminar filas por valores faltantes
<a name="canvas-prepare-data-remove-missing"></a>

Los valores faltantes son frecuentes en los conjuntos de datos de machine learning y pueden afectar a la precisión del modelo. Utilice esta transformación si desea eliminar filas con valores nulos o vacíos en determinadas columnas.

Para eliminar las filas que contengan valores faltantes en una columna específica, haga lo siguiente.

1. En la pestaña **Crear** de la aplicación SageMaker Canvas, elija **Administrar filas**.

1. Seleccione **Eliminar filas por valores faltantes**.

1. Seleccione **Agregar** para agregar la transformación a la **Receta de modelo**.

SageMaker Canvas descarta las filas que contienen valores faltantes en la **columna** que seleccionó. Después de eliminar las filas del conjunto de datos, SageMaker Canvas agrega la transformación en la sección de **recetas del modelo**. Si elimina la transformación de la sección de **Recetas de modelo**, las filas vuelven a su conjunto de datos.

![\[Captura de pantalla de la operación de eliminar filas mediante valores faltantes en la aplicación SageMaker Canvas.\]](http://docs.aws.amazon.com/es_es/sagemaker/latest/dg/images/studio/canvas/canvas-remove-missing.png)


### Eliminar filas por valores atípicos
<a name="canvas-prepare-data-remove-outliers"></a>

Los valores atípicos, o valores poco frecuentes en la distribución y el rango de los datos, pueden afectar negativamente a la precisión del modelo y provocar tiempos de compilación más prolongados. Con SageMaker Canvas, puede detectar y eliminar filas que contienen valores atípicos en columnas numéricas. Puede elegir definir los valores atípicos con desviaciones estándar o con un rango personalizado.

Para eliminar los valores atípicos de los datos, haga lo siguiente.

1. En la pestaña **Crear** de la aplicación SageMaker Canvas, elija **Administrar filas**.

1. Seleccione **Eliminar filas por valores atípicos**.

1. Elija la **Columna** en la que desee comprobar si hay valores atípicos.

1. Establezca el **Operador** en **Desviación estándar**, **Rango numérico personalizado** o **Rango de cuantiles personalizado**.

1. Si elige **Desviación estándar**, especifique un valor de **Desviaciones estándares** (desviación estándar) comprendido entre 1 y 3. Si elige **Rango numérico personalizado** o **Rango de cuantiles personalizado**, especifique los valores **Mín** y **Máx** (números para los rangos numéricos o percentiles entre el 0 y el 100 % para los rangos de cuantiles).

1. Seleccione **Agregar** para agregar la transformación a la **Receta de modelo**.

La opción **Desviación estándar** detecta y elimina los valores atípicos en las columnas numéricas mediante la media y la desviación estándar. Usted especifica el número de desviaciones estándar que debe separar a un valor de la media para que se considere un valor atípico. Por ejemplo, si especifica `3` para **Desviaciones estándares**, un valor debe estar a más de 3 desviaciones estándares de la media para que se considere un valor atípico.

Las opciones **Rango numérico personalizado** y **Rango de cuantiles personalizado** detectan y eliminan los valores atípicos en las columnas numéricas utilizando valores mínimos y máximos. Utilice este método si conoce los valores límite que delimitan los valores atípicos. Si elige un rango numérico, los valores **Mín** y **Máx** deben ser los valores numéricos mínimos y máximos que desee permitir en los datos. Si elige un rango de cuantiles, los valores **Mín** y **Máx** deben ser el mínimo y el máximo del rango de percentiles (0-100) que desee permitir.

Después de eliminar las filas del conjunto de datos, SageMaker Canvas agrega la transformación en la sección de **recetas del modelo**. Si elimina la transformación de la sección de **Recetas de modelo**, las filas vuelven a su conjunto de datos.

![\[Captura de pantalla de la operación de eliminar filas mediante valores atípicos en la aplicación SageMaker Canvas.\]](http://docs.aws.amazon.com/es_es/sagemaker/latest/dg/images/studio/canvas/canvas-remove-outlier.png)


### Eliminar filas por valores personalizados
<a name="canvas-prepare-data-remove-custom"></a>

Puede eliminar las filas con valores que cumplan condiciones personalizadas. Por ejemplo, es posible que desee excluir todas las filas con un valor de precio superior a 100 al crear el modelo. Con esta transformación, puede crear una regla que elimine todas las filas que superen el umbral que haya establecido.

Para usar la transformación de eliminación personalizada, haga lo siguiente.

1. En la pestaña **Crear** de la aplicación SageMaker Canvas, elija **Administrar filas**.

1. Seleccione **Borrar filas por fórmula**.

1. Elija la **Columna** en la que desee comprobar.

1. Seleccione el tipo de **Operación** que desee utilizar y, a continuación, especifique los valores de la condición seleccionada.

1. Seleccione **Agregar** para agregar la transformación a la **Receta de modelo**.

Para la **Operación**, puede elegir una de las siguientes opciones: Tenga en cuenta que las operaciones disponibles dependen del tipo de datos de la columna que elija. Por ejemplo, no puede crear una operación `is greater than` para una columna que contenga valores de texto.


| Operación | Tipos de datos admitidos | Tipo de característica admitida | Función | 
| --- | --- | --- | --- | 
|  Es igual que  |  Numérico, texto  |  Binario, categórico  |  Elimina las filas en las que el valor de la **Columna** sea igual a los valores que especifique.  | 
|  No es igual a  |  Numérico, texto  |  Binario, categórico  |  Elimina las filas en las que el valor de la **Columna** no sea igual a los valores que especifique.  | 
|  Es menor que  |  Numérico  | N/A |  Elimina las filas en las que el valor de la **Columna** es inferior al valor especificado.  | 
|  Es menor o igual que  |  Numérico  | N/A |  Elimina las filas en las que el valor de la **Columna** es inferior o igual que el valor especificado.  | 
|  Es mayor que  |  Numérico  | N/A |  Elimina las filas en las que el valor de la **Columna** es mayor al valor especificado.  | 
|  Es mayor o igual que  | Numérico | N/A |  Elimina las filas en las que el valor de la **Columna** es mayor o igual que el valor especificado.  | 
|  Está entre  | Numérico | N/A |  Elimina las filas en las que el valor de la **Columna** es igual a o está entre los dos valores que especifique.  | 
|  Contiene  |  Texto  | Categórico |  Elimina las filas en las que el valor de la **Columna** contenga los valores que especifique.  | 
|  Empieza por  |  Texto  | Categórico |  Elimina las filas en las que el valor de la **Columna** comienza por los valores que especifique.  | 
|  Acaba con  |  Texto  | Categórico |  Elimina las filas en las que el valor de la **Columna** termina por los valores que especifique.  | 

Después de eliminar las filas del conjunto de datos, SageMaker Canvas agrega la transformación en la sección de **recetas del modelo**. Si elimina la transformación de la sección de **Recetas de modelo**, las filas vuelven a su conjunto de datos.

![\[Captura de pantalla de la operación de eliminar filas mediante valores personalizados en la aplicación SageMaker Canvas.\]](http://docs.aws.amazon.com/es_es/sagemaker/latest/dg/images/studio/canvas/canvas-remove-custom.png)


## Cambio del nombre de las columnas
<a name="canvas-prepare-data-rename"></a>

Con la transformación de cambio del nombre de las columnas, puede cambiar el nombre de las columnas de sus datos. Al cambiar el nombre de una columna, SageMaker Canvas cambia el nombre de la columna en la entrada del modelo.

Puede cambiar el nombre de una columna de su conjunto de datos haciendo doble clic en el nombre de la columna en la pestaña **Crear** de la aplicación SageMaker Canvas e introduciendo un nombre nuevo. Al pulsar la tecla **Intro**, se envía el cambio y, al hacer clic en cualquier lugar fuera de la entrada, se cancela el cambio. También puede cambiar el nombre de una columna haciendo clic en el icono **Más opciones** (![\[Vertical ellipsis icon representing a menu or more options.\]](http://docs.aws.amazon.com/es_es/sagemaker/latest/dg/images/studio/canvas/more-options-icon.png)), situado al final de la fila en la vista de lista o al final de la celda del encabezado en la vista de cuadrícula, y seleccionando **Cambiar nombre**.

El nombre de la columna no puede tener más de 32 caracteres ni caracteres de guion bajo dobles (\$1\$1), y no se puede cambiar el nombre de una columna por el mismo nombre que otra columna. Tampoco se puede cambiar el nombre de una columna eliminada.

La siguiente captura de pantalla muestra cómo cambiar el nombre de una columna haciendo doble clic en el nombre de la columna.

![\[Captura de pantalla del cambio de nombre de una columna con el método de doble clic en la SageMaker aplicación Canvas.\]](http://docs.aws.amazon.com/es_es/sagemaker/latest/dg/images/studio/canvas/canvas-rename-column.png)


Al cambiar el nombre de una columna, SageMaker Canvas añade la transformación en la sección de **recetas del modelo**. Si elimina la transformación de la sección **Recetas de modelo**, la columna vuelve a su nombre original.

## Administrar columnas
<a name="canvas-prepare-data-manage-cols"></a>

Con las siguientes transformaciones, puede cambiar el tipo de datos de las columnas y reemplazar los valores faltantes o los valores atípicos de columnas específicas. SageMaker Canvas utiliza los tipos de datos o valores actualizados al crear el modelo, pero no cambia el conjunto de datos original. Tenga en cuenta que si ha eliminado una columna de su conjunto de datos mediante la transformación [Exclusión de columnas](#canvas-prepare-data-drop), no podrá reemplazar los valores de esa columna.

### Reemplazar valores faltantes
<a name="canvas-prepare-data-replace-missing"></a>

Los valores faltantes son frecuentes en los conjuntos de datos de machine learning y pueden afectar a la precisión del modelo. Puede optar por eliminar las filas que tengan valores faltantes, pero su modelo será más preciso si opta por reemplazar los valores faltantes. Con esta transformación, puede reemplazar los valores que falten en las columnas numéricas por la media o mediana de los datos de una columna, o también puede especificar un valor personalizado con el que reemplazar los valores faltantes. En el caso de las columnas no numéricas, puede reemplazar los valores faltantes por el modo (el valor más común) de la columna o por un valor personalizado.

Utilice esta transformación si desea reemplazar los valores nulos o vacíos en determinadas columnas. Para reemplazar valores faltantes en una columna específica, haga lo siguiente. 

1. En la pestaña **Crear** de la aplicación SageMaker Canvas, elija **Administrar columnas**.

1. Seleccione **Reemplazar valores faltantes**.

1. Elija la **Columna** en la que desee reemplazar los valores faltantes.

1. Establezca el **Modo** como **Manual** para reemplazar los valores faltantes por los valores que especifique. Con la configuración **automática (predeterminada)**, SageMaker Canvas reemplaza los valores faltantes por los valores imputados que mejor se ajusten a sus datos. Este método de imputación se realiza automáticamente para cada compilación del modelo, a menos que especifique el modo **Manual**.

1. Establezca el valor **Reemplazar por**:
   + Si la columna es numérica, seleccione **Media**, **Mediana** o **Personalizado**. La **Media** reemplaza los valores faltantes por la media de la columna y la **Mediana** reemplaza los valores faltantes por la mediana de la columna. Si elige **Personalizado**, debe especificar un valor personalizado que quiera usar para reemplazar los valores faltantes.
   + Si la columna es no numérica, seleccione **Modo** o **Personalizado**. El **Modo** reemplaza los valores faltantes por el modo, o el valor más común, de la columna. Para **Personalizado**, especifique un valor personalizado que quiera usar para reemplazar los valores faltantes.

1. Seleccione **Agregar** para agregar la transformación a la **Receta de modelo**.

Después de reemplazar los valores faltantes en el conjunto de datos, SageMaker Canvas agrega la transformación en la sección de **recetas del modelo**. Si elimina la transformación de la sección **Recetas de modelo**, las filas vuelven al conjunto de datos.

![\[Captura de pantalla de la operación de reemplazar los valores faltantes en la aplicación SageMaker Canvas.\]](http://docs.aws.amazon.com/es_es/sagemaker/latest/dg/images/studio/canvas/canvas-replace-missing.png)


### Reemplazar valores atípicos
<a name="canvas-prepare-data-replace-outliers"></a>

Los valores atípicos, o valores poco frecuentes en la distribución y el rango de los datos, pueden afectar negativamente a la precisión del modelo y provocar tiempos de creación más prolongados. SageMaker Canvas le permite detectar valores atípicos en columnas numéricas y reemplazarlos por valores que se encuentren dentro de un rango aceptado en sus datos. Puede elegir definir los valores atípicos con desviaciones estándares o con un rango personalizado, y puede reemplazar los valores atípicos por los valores mínimo y máximo del rango aceptado.

Para eliminar los valores atípicos de los datos, haga lo siguiente.

1. En la pestaña **Crear** de la aplicación SageMaker Canvas, elija **Administrar** columnas.

1. Seleccione **Reemplazar valores atípicos**.

1. Elija la **Columna** en la que desee reemplazar los valores atípicos.

1. En **Definir valores atípicos**, elija **Desviación estándar**, **Rango numérico personalizado** o **Rango de cuantiles personalizado**.

1. Si elige **Desviación estándar**, especifique un valor de **Desviaciones estándares** (desviación estándar) comprendido entre 1 y 3. Si elige **Rango numérico personalizado** o **Rango de cuantiles personalizado**, especifique los valores **Mín** y **Máx** (números para los rangos numéricos o percentiles entre el 0 y el 100 % para los rangos de cuantiles).

1. En **Reemplazar por**, seleccione **Rango mínimo/máximo**.

1. Seleccione **Agregar** para agregar la transformación a la **Receta de modelo**.

La opción **Desviación estándar** detecta los valores atípicos en las columnas numéricas mediante la media y la desviación estándar. Usted especifica el número de desviaciones estándar que debe separar a un valor de la media para que se considere un valor atípico. Por ejemplo, si especifica 3 para **las desviaciones estándar**, un valor debe estar a más de 3 desviaciones estándar de la media para que se considere un valor atípico. SageMaker Canvas reemplaza los valores atípicos por el valor mínimo o máximo del rango aceptado. Por ejemplo, si configura las desviaciones estándar para que solo incluyan valores de 200 a 300, SageMaker Canvas cambiará un valor de 198 a 200 (el mínimo).

Las opciones **Rango numérico personalizado** y **Rango de cuantiles personalizado** detectan los valores atípicos en las columnas numéricas utilizando valores mínimos y máximos. Utilice este método si conoce los valores límite que delimitan los valores atípicos. Si elige un rango numérico, los valores **mínimo** y **máximo** deben ser los valores numéricos mínimos y máximos que desee permitir. SageMaker Canvas reemplaza cualquier valor que quede fuera del mínimo y el máximo por los valores mínimo y máximo. Por ejemplo, si su rango solo permite valores del 1 al 100, SageMaker Canvas cambia el valor de 102 a 100 (el máximo). Si elige un rango de cuantiles, los valores **Mín** y **Máx** deben ser el mínimo y el máximo del rango de percentiles (0-100) que desee permitir.

Después de reemplazar los valores en el conjunto de datos, SageMaker Canvas agrega la transformación en la sección de **recetas del modelo**. Si elimina la transformación de la sección **Recetas de modelo**, los valores originales vuelven al conjunto de datos.

![\[Captura de pantalla de la operación de reemplazar valores atípicos en la aplicación SageMaker Canvas.\]](http://docs.aws.amazon.com/es_es/sagemaker/latest/dg/images/studio/canvas/canvas-replace-outlier.png)


### Cambiar el tipo de datos
<a name="canvas-prepare-data-change-type"></a>

SageMaker Canvas le permite cambiar el *tipo de datos* de sus columnas entre numérico, texto y fecha y hora, además de mostrar el tipo de *función asociado a ese tipo de* datos. Un *tipo de datos* hace referencia al formato de los datos y a la forma en que se almacenan, mientras que el *tipo de característica* se refiere a la característica de los datos que se utilizan en los algoritmos de machine learning, como los binarios o los categóricos. Esto le da la flexibilidad de cambiar manualmente el tipo de datos de las columnas en función de las características. La posibilidad de elegir el tipo de datos correcto garantiza la integridad y precisión de los datos antes de crear modelos. Estos tipos de datos se utilizan al crear modelos.

**nota**  
Actualmente, no se admite el cambio del tipo de característica (por ejemplo, de binaria a categórica).

En la siguiente tabla, se enumeran todos los tipos de datos en Canvas.


| Tipo de datos: | Description (Descripción) | Ejemplo | 
| --- | --- | --- | 
| Numérico | Los datos numéricos representan valores numéricos | 1, 2, 31,1, 1,2. 1.3 | 
| Texto | Los datos de texto representan secuencias de caracteres, como nombres o descripciones | A, B, C, Dmanzana, plátano, naranja1A\$1, 2A\$1, 3A\$1 | 
| Fecha y hora | Los datos de fecha y hora representan fechas y horas en formato de marca de tiempo (timestamp) | 2019-07-01 01:00:00, 2019-07-01 02:00:00, 2019-07-01 03:00:00 | 

En la siguiente tabla, se enumeran todos los tipos de característica admitidos en Canvas.


| Tipo de característica | Description (Descripción) | Ejemplo | 
| --- | --- | --- | 
| Binario | Las características binarias representan dos valores posibles | 0, 1, 0, 1, 0 (2 valores distintos)true, false, true (2 valores distintos) | 
| Categórico | Las características categóricas representan categorías o grupos distintos | manzana, plátano, naranja, manzana (3 valores distintos)A, B, C, D, E, A, D, C (5 valores distintos) | 

Para modificar el tipo de datos de una columna de un conjunto de datos, haga lo siguiente.

1. En la pestaña **Crear** de la aplicación SageMaker Canvas, vaya a la vista por **columnas o a la vista** de **cuadrícula** y seleccione el menú desplegable **Tipo de datos** para la columna específica.

1. En el menú desplegable de **Tipo de datos**, seleccione el tipo de datos al que desee realizar la conversión. En la siguiente captura de pantalla se muestra el menú desplegable.  
![\[El menú desplegable de conversión de tipos de datos de una columna, que se muestra en la pestaña Crear.\]](http://docs.aws.amazon.com/es_es/sagemaker/latest/dg/images/studio/canvas/canvas-prepare-data-change.png)

1. En **Columna**, elija o verifique la columna en la que desee cambiar el tipo de datos.

1. En **Nuevo tipo de datos**, seleccione o verifique el nuevo tipo de datos al que desee convertir.

1. Si el **Nuevo tipo de datos** es `Datetime` o `Numeric`, elija una de las siguientes opciones en **Gestionar valores no válidos**:

   1. **Reemplazar por un valor vacío**: los valores no válidos se sustituyen por un valor vacío

   1. **Eliminar filas**: las filas con un valor no válido se eliminan del conjunto de datos

   1. **Reemplazar por un valor personalizado**: los valores no válidos se sustituyen por el **Valor personalizado** que especifique.

1. Seleccione **Agregar** para agregar la transformación a la **Receta de modelo**.

Ahora debería actualizarse el tipo de datos de la columna.

## Preparación de datos de series temporales
<a name="canvas-prepare-data-timeseries"></a>

Utilice las siguientes funcionalidades para preparar los datos de series temporales para crear modelos de previsión de series temporales.

### Remuestreo de datos de series temporales
<a name="canvas-prepare-data-resample"></a>

Al volver a muestrear los datos de series temporales, puede establecer intervalos regulares para las observaciones de su conjunto de datos de series temporales. Esto resulta particularmente útil cuando se trabaja con datos de series temporales que contengan observaciones espaciadas de forma irregular. Por ejemplo, puede utilizar el remuestreo para transformar un conjunto de datos con observaciones registradas cada intervalo de una, dos y tres horas en un intervalo regular de una hora entre observaciones. Los algoritmos de previsión requieren que las observaciones se realicen a intervalos regulares.

Para remuestrear los datos de series temporales, haga lo siguiente.

1. En la pestaña **Crear** de la aplicación SageMaker Canvas, elija **Series temporales**.

1. Seleccione **Remuestrear**.

1. En la **columna Marca de tiempo**, seleccione la columna a la que quiera aplicar la transformación. Solo puede seleccionar columnas del tipo **Fecha y hora**.

1. En la sección de **Configuración de frecuencia**, seleccione una **Frecuencia** y un **Ritmo**. La **Frecuencia** es la unidad de frecuencia y el **Ritmo** es el intervalo de la unidad de frecuencia que se aplicará a la columna. Por ejemplo, al elegir `Calendar Day` para el **valor de Frecuencia** y `1` para el **Ritmo**, se establece que el intervalo aumente cada 1 día natural, por ejemplo `2023-03-26 00:00:00`, `2023-03-27 00:00:00`, `2023-03-28 00:00:00`. Consulte la tabla siguiente a este procedimiento para obtener una lista completa del **valor de Frecuencia**. 

1. Seleccione **Agregar** para agregar la transformación a la **Receta de modelo**.

La siguiente tabla muestra todos los tipos de **Frecuencia** que puede seleccionar al remuestrear datos de series temporales.


| Frecuencia | Description (Descripción) | Valores de ejemplo (suponiendo que el ritmo sea 1) | 
| --- | --- | --- | 
|  Día laborable  |  Se remuestrean las observaciones de la columna de fecha y hora para convertirlas en 5 días laborables de la semana (lunes, martes, miércoles, jueves y viernes)  |  2023-03-24 00:00:00 2023-03-27 00:00:00 2023-03-28 00:00:00 2023-03-29 00:00:00 2023-03-30 00:00:00 2023-03-31 00:00:00 2023-04-03 00:00:00  | 
|  Día natural  |  Se remuestrean las observaciones de la columna de fecha y hora para convertirlas en los 7 días de la semana (lunes, martes, miércoles, jueves, viernes, sábado y domingo)  |  2023-03-26 00:00:00 2023-03-27 00:00:00 2023-03-28 00:00:00 2023-03-29 00:00:00 2023-03-30 00:00:00 2023-03-31 00:00:00 2023-04-01 00:00:00  | 
|  Semana  |  Se remuestrean las observaciones en la columna de fecha y hora al primer día de cada semana.  |  2023-03-13 00:00:00 2023-03-20 00:00:00 2023-03-27 00:00:00 2023-04-03 00:00:00  | 
|  Mes  |  Se remuestrean las observaciones en la columna de fecha y hora al primer día de cada mes.  |  2023-03-01 00:00:00 2023-04-01 00:00:00 2023-05-01 00:00:00 2023-06-01 00:00:00  | 
|  Trimestre anual  |  Se remuestrean las observaciones en la columna de fecha y hora al último día de cada trimestre.  |  2023-03-31 00:00:00 2023-06-30 00:00:00 2023-09-30 00:00:00 2023-12-31 00:00:00  | 
|  Año  |  Se remuestrean las observaciones en la columna de fecha y hora al último día de cada año.  |  2022-12-31 0:00:00 2023-12-31 00:00:00 2024-12-31 00:00:00  | 
|  Hora  |  Se remuestrean las observaciones en la columna de fecha y hora a cada hora de cada día  |  2023-03-24 00:00:00 2023-03-24 01:00:00 2023-03-24 02:00:00 2023-03-24 03:00:00  | 
|  Minuto  |  Se remuestrean las observaciones en la columna de fecha y hora a cada minuto de cada hora  |  2023-03-24 00:00:00 2023-03-24 00:01:00 2023-03-24 00:02:00 2023-03-24 00:03:00  | 
|  Segundo  |  Se remuestrean las observaciones en la columna de fecha y hora a cada segundo de cada minuto  |  2023-03-24 00:00:00 2023-03-24 00:00:01 2023-03-24 00:00:02 2023-03-24 00:00:03  | 

Al aplicar la transformación de remuestreo, puede usar la opción **Avanzada** para especificar cómo se modifican los valores resultantes del resto de las columnas (distintas de la columna de fecha y hora) del conjunto de datos. Esto se puede lograr especificando la metodología de remuestreo, que puede ser reducir o aumentar el muestreo tanto para las columnas numéricas como para las no numéricas.

La *reducción del muestreo* aumenta el intervalo entre las observaciones del conjunto de datos. Por ejemplo, si reduce el muestreo de las observaciones que se realizan cada hora o cada dos horas, cada observación del conjunto de datos se realiza cada dos horas. Los valores de las demás columnas de las observaciones horarias se agregan en un único valor mediante un método de combinación. En las siguientes tablas se muestra un ejemplo de reducción del muestreo de datos de series temporales utilizando la media como método de combinación. Los datos del muestreo se reducen de cada dos horas a cada hora.

La siguiente tabla muestra las lecturas de temperatura por hora durante un día antes de la reducción de la muestra.


| Timestamp | Temperatura (Celsius) | 
| --- | --- | 
| 12:00 pm | 30 | 
| 1:00 am | 32 | 
| 2:00 am | 35 | 
| 3:00 am | 32 | 
| 4:00 am | 30 | 

La siguiente tabla muestra las lecturas de temperatura después de reducir el muestreo a cada dos horas.


| Timestamp | Temperatura (Celsius) | 
| --- | --- | 
| 12:00 pm | 30 | 
| 2:00 am | 33,5 | 
| 2:00 am | 35 | 
| 4:00 am | 32,5 | 

Para reducir el muestreo de datos de series temporales, haga lo siguiente:

1. Expanda la sección **Avanzadas** situada debajo de la transformación **Remuestrear**.

1. Elija **Combinación no numérica** para especificar el método de combinación para las columnas no numéricas. Consulte la siguiente tabla para obtener una lista completa de métodos de combinación.

1. Elija **Combinación numérica** para especificar el método de combinación para las columnas numéricas. Consulte la siguiente tabla para obtener una lista completa de métodos de combinación.

Si no especifica los métodos de combinación, los valores predeterminados son `Most Common` para la **Combinación no numérica** y `Mean` para la **Combinación numérica**. En la siguiente tabla se enumeran los métodos de combinación numérica y no numérica.


| Metodología de reducción de muestreo | Método de combinación | Description (Descripción) | 
| --- | --- | --- | 
| Combinación no numérica | Más común | Agrega los valores de la columna no numérica por el valor que aparece con más frecuencia | 
| Combinación no numérica | Último | Agrega los valores de la columna no numérica por el último valor de la columna | 
| Combinación no numérica | Primero | Agrega los valores de la columna no numérica por el primer valor de la columna | 
| Combinación numérica | Media | Agrega los valores de la columna numérica tomando la media de todos los valores de la columna | 
| Combinación numérica | Median | Agrega los valores de la columna numérica tomando la mediana de todos los valores de la columna | 
| Combinación numérica | Mínimo | Agrega los valores de la columna numérica tomando el mínimo de todos los valores de la columna | 
| Combinación numérica | Máximo | Agrega los valores de la columna numérica tomando el máximo de todos los valores de la columna | 
| Combinación numérica | Sum | Agrega los valores de la columna numérica sumando todos los valores de la columna | 
| Combinación numérica | Cuantil | Agrega los valores de la columna numérica tomando el cuantil de todos los valores de la columna | 

El *aumento del muestreo* reduce el intervalo entre las observaciones del conjunto de datos. Por ejemplo, si aumenta el muestreo de las observaciones que se toman cada dos horas para convertirlas en observaciones por hora, los valores de las demás columnas de las observaciones por hora se interpolan a partir de las que se han tomado cada dos horas.

Para aumentar el muestreo los datos de series temporales, haga lo siguiente.

1. Expanda la sección **Avanzadas** situada debajo de la transformación **Remuestrear**.

1. Elija **Estimación no numérica** para especificar el método de estimación para las columnas no numéricas. Consulte la tabla siguiente a este procedimiento para obtener una lista completa de los métodos.

1. Elija **Estimación numérica** para especificar el método de estimación para las columnas numéricas. Consulte la siguiente tabla para obtener una lista completa de métodos.

1. (Opcional) Elija **ID Column** para especificar la columna que contiene las IDs observaciones de la serie temporal. Especifique esta opción si su conjunto de datos tiene dos series temporales. Si tiene una columna que representa solo una serie temporal, no especifique un valor para este campo. Por ejemplo, puede tener un conjunto de datos que contenga las columnas `id` y `purchase`. La columna `id` tiene los siguientes valores: `[1, 2, 2, 1]`. La columna `purchase` tiene los siguientes valores: `[$2, $3, $4, $1]`. Por lo tanto, el conjunto de datos tiene dos series temporales: una serie temporal es: `1: [$2, $1]` y la otra serie temporal es `2: [$3, $4]`.

Si no especifica los métodos de estimación, los valores predeterminados son `Forward Fill` para la **Estimación no numérica** y `Linear` para la **Estimación numérica**. En la siguiente tabla se muestran los métodos de estimación.


| Metodología de aumento de muestreo | Método de estimación | Description (Descripción) | 
| --- | --- | --- | 
| Estimación no numérica | Rellenar hacia delante | Interpola los valores de la columna no numérica tomando los valores consecutivos después de todos los valores de la columna | 
| Estimación no numérica | Rellenar hacia atrás | Interpola los valores de la columna no numérica tomando los valores consecutivos antes de todos los valores de la columna | 
| Estimación no numérica | Mantener faltantes | Interpola los valores en la columna no numérica mostrando valores vacíos | 
| Estimación numérica | Lineal, temporal, índice, cero, lineal S, más cercano, cuadrático, cúbico, baricéntrico, polinómico, Krogh, polinómico por partes, spline, chip P, Akima, spline cúbico, a partir de derivadas | Interpola los valores de la columna numérica mediante el interpolador especificado. [Para obtener información sobre los métodos de interpolación, consulte pandas. DataFrame.interpolate](https://pandas.pydata.org/docs/reference/api/pandas.DataFrame.interpolate.html) en la documentación de pandas. | 

La siguiente captura de pantalla muestra la configuración **Avanzada** con los campos de aumento y reducción de muestreo rellenados.

![\[La aplicación de Canvas, con el panel lateral de remuestreo de series temporales que muestra las opciones avanzadas.\]](http://docs.aws.amazon.com/es_es/sagemaker/latest/dg/images/studio/canvas/canvas-prepare-data-resampling.png)


### Uso de la extracción de fecha y hora
<a name="canvas-prepare-data-datetime"></a>

Con la transformación de extracción de fecha y hora, puede extraer valores de una columna de fecha y hora en una columna independiente. Por ejemplo, si tiene una columna que contiene las fechas de compra, puede extraer el valor del mes en una columna independiente y utilizar la nueva columna al crear el modelo. También puede extraer varios valores para separar columnas con una sola transformación.

La columna de fecha y hora debe usar un formato de marca de tiempo compatible. Para obtener una lista de los formatos compatibles con SageMaker Canvas, consulte. [Pronósticos de series temporales en Amazon SageMaker Canvas](canvas-time-series.md) Si su conjunto de datos no utiliza uno de los formatos compatibles, actualícelo para que utilice un formato de marca de tiempo compatible y vuelva a importarlo a Amazon SageMaker Canvas antes de crear el modelo.

Para realizar una extracción de fecha y hora, haga lo siguiente.

1. **En la pestaña **Crear** de la aplicación SageMaker Canvas, en la barra de transformaciones, elija Ver todo.**

1. Seleccione **Extraer características**.

1. Elija la **columna Marca de tiempo** de la que desee extraer los valores.

1. En **Valores**, seleccione uno o más valores para extraerlos de la columna. Los valores que puede extraer de una columna de fecha y hora son **Año**, **Mes**, **Día**, **Hora**, **Semana del año**, **Día del año** y **Trimestre**.

1. (Opcional) Seleccione **Vista previa** para obtener una vista previa de los resultados de la transformación.

1. Seleccione **Agregar** para agregar la transformación a la **Receta de modelo**.

SageMaker Canvas crea una nueva columna en el conjunto de datos para cada uno de los valores que extraiga. A excepción de los valores de **año**, SageMaker Canvas utiliza una codificación basada en 0 para los valores extraídos. Por ejemplo, si extrae el valor del **Mes**, enero se extrae como 0 y febrero como 1.

![\[Captura de pantalla del cuadro de extracción de fecha y hora de la SageMaker aplicación Canvas.\]](http://docs.aws.amazon.com/es_es/sagemaker/latest/dg/images/studio/canvas/canvas-datetime-extract.png)


Puede ver la transformación en la sección **Recetas de modelo**. Si elimina la transformación de la sección **Recetas de modelo**, las nuevas columnas se eliminan del conjunto de datos.