Lectura de objetos de S3 archivados con la clase de almacenamiento estándar

Uso de AWS Glue

Los datos descargados de MySQL a Amazon S3 conservan la misma rigidez estructural y la misma coherencia típicas de un sistema de administración de bases de datos relacionales (RDBMS).

AWS Glue Crawler rastrea los objetos de S3, deduce los tipos de datos y crea los metadatos de las tablas como un DDL de tabla externo. Al configurar el trabajo del rastreador, utilice Amazon S3 como origen y especifique la ubicación del prefijo S3 en la que se crean todos los archivos de datos. En la configuración, incluya lo siguiente:

Opciones de ejecución de rastreadores
Preferencia de prefijo de tabla opcional
Base de datos de destino para crear la tabla
Roles de IAM con los permisos necesarios

Tras invocar el trabajo, escaneará los datos para deducir el esquema y conservarlo en el catálogo de datos de AWS Glue como tablas de AWS Glue. Las tablas de AWS Glue son básicamente tablas externas que se pueden consultar con instrucciones SQL, como una tabla de base de datos normal, mediante servicios analíticos como Amazon Athena, Amazon Redshift Spectrum y Apache Hive en Amazon EMR. Para más información acerca del rastreador, consulte la documentación de AWS Glue.

En el caso de los archivos .csv con un encabezado de columna especificado, los nombres de las columnas de la tabla resultantes reflejarán los mismos nombres de campo. El tipo de datos se deduce según los valores del objeto de datos.

En el caso de los archivos Parquet, el esquema se conserva en los propios datos y la tabla resultante reflejará los mismos nombres de campo y el tipo de datos.

Como alternativa, puede ejecutar un DDL manualmente en Athena para crear la definición de la tabla con los nombres de columna y el tipo de datos necesarios. Esto crea la definición de la tabla en Catálogo de datos. Para más información acerca de cómo crear tablas de Athena, consulte la documentación de Amazon Athena.

Nota: Si falta la fila de encabezado en el archivo CSV, el rastreador crea el nombre del campo como c_0, c_1, c_2, etc.

Uso de Amazon S3 Select

Puede utilizar Amazon S3 Select para leer los objetos de S3 mediante programación con expresiones SQL. La operación de la API se puede invocar mediante el comando select-object-content de la AWS CLI o mediante un SDK como Boto3 y al invocar la operación select_object_content desde Python.

Las operaciones de la API admiten instrucciones SQL como parámetros y solo pueden leer archivos de tipo JSON y Parquet. Las salidas se pueden redirigir como archivos de salida.

Estas operaciones se invocan para cada objeto de S3. En el caso de varios archivos, ejecute las operaciones de manera recursiva.

Para más información acerca de la ejecución de las operaciones mediante la AWS CLI, consulte la documentación de la AWS CLI. Para más información sobre cómo ejecutar S3 Select mediante el SDK Boto3 de Python, consulte la documentación de Boto3.

Aviso JavaScript está desactivado o no está disponible en su navegador.

Para utilizar la documentación de AWS, debe estar habilitado JavaScript. Para obtener más información, consulte las páginas de ayuda de su navegador.

Convenciones del documento

Acceso a los datos archivados

Clases de almacenamiento de S3 Glacier