

Las traducciones son generadas a través de traducción automática. En caso de conflicto entre la traducción y la version original de inglés, prevalecerá la version en inglés.

# Orígenes de datos e ingestión
<a name="feature-store-ingest-data"></a>

Los registros se agregan a los grupos de características mediante la ingestión. Según el caso de uso que desee, los registros ingeridos pueden mantenerse dentro del grupo de características o no. Esto depende de la configuración de almacenamiento, si su grupo de características utiliza el almacenamiento en línea o sin conexión. El almacenamiento sin conexión se utiliza como base de datos histórica, que se suele utilizar para la exploración de datos, el entrenamiento de modelos de machine learning (ML) y la inferencia por lotes. El almacenamiento en línea se usa como una búsqueda de registros en tiempo real, que normalmente se emplea para atender modelos de ML. Para obtener más información sobre los conceptos y la ingestión del almacén de características, consulte [Conceptos del almacén de características](feature-store-concepts.md).

Existen varias formas de llevar tus datos a Amazon SageMaker Feature Store. El almacén de características ofrece una única llamada a la API para la ingesta de datos denominada `PutRecord` que le permite ingerir datos en lotes o desde orígenes de transmisión. Puede utilizar Amazon SageMaker Data Wrangler para diseñar funciones y, a continuación, incorporarlas a su tienda de funciones. También puede utilizar Amazon EMR para la ingesta de datos por lotes a través de un conector Spark.

En los siguientes temas analizaremos las diferencias. 

**Topics**
+ [Ingesta de transmisiones](#feature-store-ingest-data-stream)
+ [Data Wrangler con el almacén de características](#feature-store-data-wrangler-integration)
+ [Ingestión por lotes con Amazon SageMaker Feature Store Spark](batch-ingestion-spark-connector-setup.md)

## Ingesta de transmisiones
<a name="feature-store-ingest-data-stream"></a>

Puede utilizar orígenes de transmisión como Kafka o Kinesis como origen de datos, de donde se extraen los registros, e introducir directamente los registros al almacenamiento en línea para el entrenamiento, la inferencia o la creación de características. El grupo de características puede ingerir los registros con una llamada sincrónica a la API `PutRecord`. Dado que se trata de una llamada sincrónica a la API, es posible introducir pequeños lotes de actualizaciones en una única llamada a la API. Esto le permite mantener una alta actualización de los valores de las características y publicar valores en cuanto se detecte una actualización. También se denominan *características de transmisión*. 

## Data Wrangler con el almacén de características
<a name="feature-store-data-wrangler-integration"></a>

Data Wrangler es una función de Studio Classic que proporciona una end-to-end solución para importar, preparar, transformar, caracterizar y analizar datos. Data Wrangler le permite diseñar sus características e incorporarlas a un grupo de características del almacenamiento sin conexión o en línea.

En las siguientes instrucciones, se exporta un cuaderno de Jupyter que contiene todo el código fuente para crear un grupo de características del Almacén de características que añada las características de Data Wrangler a un almacenamiento sin conexión o en línea.

Las instrucciones para exportar su flujo de datos de Data Wrangler al Almacén de características en la consola varían en función de si ha habilitado [Amazon SageMaker Studio](studio-updated.md) o [Amazon SageMaker Studio Clásico](studio.md) como experiencia predeterminada.

### Exportación del flujo de datos de Data Wrangler al Almacén de características si su experiencia predeterminada es Studio (consola)
<a name="feature-store-ingest-data-wrangler-integration-with-studio-updated"></a>

1. Abra la consola de Studio siguiendo las instrucciones de [Inicie Amazon SageMaker Studio](studio-updated-launch.md).

1. Seleccione **Datos** en el panel izquierdo para expandir la lista desplegable.

1. En la lista desplegable, seleccione **Data Wrangler**.

1. Si ya tiene una instancia de Amazon SageMaker Canvas en ejecución, elija **Open Canvas**.

   Si no tiene ninguna instancia de SageMaker Canvas en ejecución, elija **Ejecutar en Canvas**.

1. En la consola de SageMaker Canvas, selecciona **Data Wrangler** en el panel de navegación izquierdo.

1. Seleccione **Flujos de datos** para ver sus flujos de datos.

1. Seleccione **\+** para expandir la lista desplegable.

1. Seleccione **Exportar flujo de datos** para expandir la lista desplegable.

1. Elija **Guardar en SageMaker Feature Store (a través de un JupyterLab bloc** de notas).

1. En **Exportar flujo de datos como cuaderno**, seleccione una de las siguientes opciones:
   + **Descargar una copia local** para descargar el flujo de datos a su máquina local.
   + **Exportar a ubicación de S3** para descargar el flujo de datos a una ubicación de Amazon Simple Storage Service e introduzca la ubicación de Amazon S3 o seleccione **Examinar** para buscar su ubicación de Amazon S3.

1. Seleccione **Exportar**.

 Una vez creado el grupo de características, también puede seleccionar y unir datos de varios grupos de características para crear nuevas características diseñadas en Data Wrangler y, a continuación, exportar el conjunto de datos a un bucket de Amazon S3. 

Para obtener más información sobre cómo exportar a Feature Store, consulta [Exportar a SageMaker AI Feature Store](https://docs.aws.amazon.com/sagemaker/latest/dg/data-wrangler-data-export.html#data-wrangler-data-export-feature-store). 