Preparación e importación de datos masivos mediante Amazon SageMaker AI Data Wrangler
importante
Al utilizar Data Wrangler, se generan costos de SageMaker AI. Para obtener una lista completa de los cargos y precios, consulte la pestaña Data Wrangler en los precios de Amazon SageMaker AI
Tras crear un grupo de conjuntos de datos, puede utilizar Amazon SageMaker AI Data Wrangler (Data Wrangler) para importar datos de más de 40 orígenes en un conjunto de datos de Amazon Personalize. Data Wrangler es una característica de Amazon SageMaker AI Studio Classic que proporciona una solución integral para importar, preparar, transformar y analizar datos. No se puede usar Data Wrangler para preparar e importar datos en un conjunto de datos de acciones ni en un conjunto de datos de interacciones de acción.
Cuando utiliza Data Wrangler para preparar e importar datos, emplea un flujo de datos. Un flujo de datos define una serie de pasos de preparación de datos mediante machine learning, empezando por la importación de datos. Cada vez que añade un paso a su flujo, Data Wrangler realiza una acción con sus datos, como transformarlos o generar una visualización.
Estos son algunos de los pasos que puede añadir a su flujo para preparar datos para Amazon Personalize:
-
Estadísticas: puede añadir pasos de información específicos de Amazon Personalize a su flujo. Esta información puede ayudarle a conocer sus datos y a saber qué medidas puede llevar a cabo para mejorarlos.
-
Visualizaciones: puede añadir pasos de visualización para generar gráficos, como histogramas y gráficos de dispersión. Los gráficos pueden ayudarle a detectar problemas en los datos, como valores atípicos o valores que faltan.
-
Transformaciones: puede utilizar los pasos de transformación específicos y generales de Amazon Personalize para asegurarse de que sus datos cumplen los requisitos de Amazon Personalize. La transformación de Amazon Personalize le ayuda a asignar sus columnas de datos a las columnas obligatorias en función del tipo de conjunto de datos de Amazon Personalize.
Si necesita salir de Data Wrangler antes de importar datos en Amazon Personalize, puede volver a donde los dejó eligiendo el mismo tipo de conjunto de datos al iniciar Data Wrangler desde la consola de Amazon Personalize. También puede acceder a Data Wrangler directamente a través de SageMaker AI Studio Classic.
Recomendamos que importe los datos de Data Wrangler en Amazon Personalize de la siguiente manera. Los pasos de transformación, visualización y análisis son opcionales, repetibles y se pueden completar en cualquier orden.
-
Configurar permisos: configure permisos para los roles de servicio de Amazon Personalize y SageMaker AI. Y configure los permisos para sus usuarios.
-
Iniciar Data Wrangler en SageMaker AI Studio Classic desde la consola de Amazon Personalize: utilice la consola de Amazon Personalize para configurar un dominio de SageMaker AI e iniciar Data Wrangler en SageMaker AI Studio Classic.
-
Importar sus datos en Data Wrangler: importe datos de más de 40 orígenes en Data Wrangler. Entre los orígenes se incluyen servicios de AWS, como Amazon Redshift, Amazon EMR o Amazon Athena, así como terceros, como Snowflake o DataBricks.
-
Transformar sus datos: utilice Data Wrangler para transformar sus datos y cumplir con los requisitos de Amazon Personalize.
-
Visualizar y analizar sus datos: utilice Data Wrangler para visualizar sus datos y analizarlos mediante información específica de Amazon Personalize.
-
Procesar e importar datos en Amazon Personalize: utilice un cuaderno de Jupyter de SageMaker AI Studio Classic para importar sus datos procesados en Amazon Personalize.
Información adicional
Los siguientes recursos proporcionan información adicional acerca del uso de Amazon SageMaker AI Data Wrangler y Amazon Personalize.
-
Para ver un tutorial que le guíe a través del procesamiento y la transformación de un conjunto de datos de muestra, consulte Demostración: tutorial del conjunto de datos del Titanic de Data Wrangler en la Guía para desarrolladores de Amazon SageMaker AI. Este tutorial presenta los campos y las funciones de Data Wrangler.
-
Para obtener información sobre la incorporación a los dominios de Amazon SageMaker AI, consulte Incorporación rápida a un dominio de Amazon SageMaker AI en la Guía para desarrolladores de Amazon SageMaker AI.
-
Para obtener información sobre los requisitos de datos de Amazon Personalize, consulte Preparación de los datos de entrenamiento para Amazon Personalize.