Analizar los datos - Amazon Machine Learning

Ya no actualizamos el servicio Amazon Machine Learning ni aceptamos nuevos usuarios para él. Esta documentación está disponible para los usuarios actuales, pero ya no la actualizamos. Para obtener más información, consulte Qué es Amazon Machine Learning.

Las traducciones son generadas a través de traducción automática. En caso de conflicto entre la traducción y la version original de inglés, prevalecerá la version en inglés.

Analizar los datos

Antes insertar los datos etiquetados a un algoritmo de ML, es conveniente inspeccionar los datos para identificar problemas y obtener información sobre los datos que utilice. El poder predictivo del modelo será solo tan bueno como los datos que inserte.

Al analizar los datos, que se deben tener en cuenta las siguientes consideraciones:

  • Resúmenes de variable y datos de destino: es útil comprender los valores que las variables toman y qué valores son dominantes en los datos. Podría consultar estos resúmenes con un experto en la materia para el problema que desea resolver. Pregúntese a usted mismo o al experto en la materia: ¿los datos coinciden con sus expectativas? ¿Parece que existe un problema de recopilación de datos? ¿Una clase en el destino aparece con más frecuente que las otras clases? ¿Hay más valores que faltan o datos no válidos que los que esperaba?

  • Correlaciones de destino de variable: conocer la correlación entre cada variable y la clase de destino es útil, ya que una correlación elevada implica que existe una relación entre la variable y la clase de destino. En general, es recomendable incluir variables con una correlación elevada porque son las que tienen mayor poder predictivo (señal) y omitir variables con una correlación baja porque es probable que sean irrelevantes.

En Amazon ML, puede analizar los datos al crear un origen de datos y revisar el informe de datos resultante.