Ya no actualizamos el servicio Amazon Machine Learning ni aceptamos nuevos usuarios para él. Esta documentación está disponible para los usuarios actuales, pero ya no la actualizamos. Para obtener más información, consulte Qué es Amazon Machine Learning.
Las traducciones son generadas a través de traducción automática. En caso de conflicto entre la traducción y la version original de inglés, prevalecerá la version en inglés.
Reorganización de datos
La funcionalidad de reorganización de datos le permite crear una fuente de datos que se basa solo en una parte de los datos de entrada a los que señala. Por ejemplo, si crea un modelo de ML utilizando el asistente Crear modelo de ML en la consola de Amazon ML y elige la opción de evaluación predeterminada, Amazon ML reserva automáticamente el 30% de los datos para la evaluación de modelos de ML y utiliza el 70% restante para el entrenamiento. Esta funcionalidad se habilita a través de la característica de Reorganización de datos de Amazon ML.
Si utiliza la API de Amazon ML para crear fuentes de datos, puede especificar en qué parte de los datos de entrada se basará una nueva fuente de datos. Para ello, pase las instrucciones del DataRearrangement parámetro aCreateDataSourceFromS3, CreateDataSourceFromRedshift o. CreateDataSourceFromRDS APIs El contenido de la DataRearrangement cadena es una cadena JSON que contiene las ubicaciones inicial y final de los datos, expresadas en porcentajes, un indicador de complemento y una estrategia de división. Por ejemplo, la siguiente DataRearrangement cadena especifica que el primer 70% de los datos se utilizará para crear la fuente de datos:
{ "splitting": { "percentBegin": 0, "percentEnd": 70, "complement": false, "strategy": "sequential" } }
DataRearrangement Parámetros
Para cambiar el modo en que Amazon ML crea una fuente de datos, utilice los siguientes parámetros.
- PercentBegin (Opcional)
-
Utilice
percentBeginpara indicar dónde comienzan los datos para la fuente de datos. Si no incluyepercentBeginypercentEnd, Amazon ML incluye todos los datos al crear la fuente de datos.Los valores válidos son
0a100, ambos incluidos. - PercentEnd (Opcional)
-
Utilice
percentEndpara indicar dónde acaban los datos para la fuente de datos. Si no incluyepercentBeginypercentEnd, Amazon ML incluye todos los datos al crear la fuente de datos.Los valores válidos son
0a100, ambos incluidos. - Complement (opcional)
-
El parámetro
complementindica a Amazon ML que utilice los datos que no se incluyen en el rango depercentBeginapercentEndpara crear un origen de datos. El parámetrocomplementes útil si necesita crear fuentes de datos complementarias para formación y evaluación. Para crear una fuente de datos complementaria, utilice los mismos valores parapercentBeginypercentEnd, junto con el parámetrocomplement.Por ejemplo, las siguientes dos fuentes de datos no comparten ningún dato y se pueden utilizar para formar y evaluar un modelo. La primera fuente de datos tiene un 25 por ciento de los datos y la segunda el 75 por ciento de los datos.
Origen de datos para evaluación:
{ "splitting":{ "percentBegin":0, "percentEnd":25 } }Origen de datos para entrenamiento:
{ "splitting":{ "percentBegin":0, "percentEnd":25, "complement":"true" } }Los valores válidos son
trueyfalse. - Strategy (opcional)
-
Para cambiar cómo divide Amazon ML los datos de una fuente de datos, utilice el parámetro
strategy.El valor predeterminado para el parámetro
strategyessequential, lo que significa que Amazon ML toma todos los registros de datos entre los parámetrospercentBeginypercentEnddel origen de datos, en el orden en el que aparecen los registros en los datos de entradaLas siguientes dos líneas de
DataRearrangementson ejemplos de fuentes de datos de formación y evaluación ordenadas de forma secuencial:Fuente de datos para evaluación:
{"splitting":{"percentBegin":70, "percentEnd":100, "strategy":"sequential"}}Fuente de datos para formación:
{"splitting":{"percentBegin":70, "percentEnd":100, "strategy":"sequential", "complement":"true"}}Para crear una fuente de datos a partir de una selección aleatoria de los datos, defina el parámetro
strategyenrandomy proporcione una cadena que se utilice como valor de inicio para la división aleatoria de los datos (por ejemplo, puede utilizar la ruta de S3 a los datos como la cadena de origen aleatoria). Si elige la estrategia de división aleatoria, Amazon ML asigna a cada fila de datos un número pseudoaleatorio y, a continuación, selecciona las filas que tienen un número asignado entrepercentBeginypercentEnd. Los números pseudoaleatorios se asignan utilizando el desplazamiento en byte como inicio, por lo que se cambian los resultados de los datos en una división diferente. Se conserva cualquier orden existente. La estrategia de la división aleatoria garantiza que las variables en los datos de formación y evaluación se distribuyen de forma similar. Es útil en los casos en los que los datos de entrada pueden tener un orden implícito, que de otro modo haría que las fuentes de datos de formación y evaluación tuvieran registros de datos no similares.Las siguientes dos líneas de
DataRearrangementson ejemplos de fuentes de datos de entrenamiento y evaluación ordenadas de forma no secuencial:Origen de datos para evaluación:
{ "splitting":{ "percentBegin":70, "percentEnd":100, "strategy":"random", "strategyParams": { "randomSeed":"RANDOMSEED" } } }Origen de datos para entrenamiento:
{ "splitting":{ "percentBegin":70, "percentEnd":100, "strategy":"random", "strategyParams": { "randomSeed":"RANDOMSEED" } "complement":"true" } }Los valores válidos son
sequentialyrandom. - Estrategia (opcional): RandomSeed
-
Amazon ML utiliza randomSeed para dividir los datos. El inicio predeterminado para la API es una cadena vacía. Para especificar un inicio para la estrategia de división aleatoria, transfiérala en una cadena. Para obtener más información sobre las semillas aleatorias, consulte División aleatoria de datos en la Guía para desarrolladores de Amazon Machine Learning.
Para obtener el código de muestra que indica cómo utilizar la validación con Amazon ML visite Github Machine Learning