Requisitos previos para utilizar las tablas de Apache Iceberg como destino
Elija entre las siguientes opciones para completar los requisitos previos necesarios.
Temas
Requisitos previos para la entrega de tablas en Amazon S3
Antes de comenzar, complete los siguientes requisitos previos.
-
Crear un bucket de Amazon S3: debe crear un bucket de Amazon S3 para añadir la ruta del archivo de metadatos durante la creación de las tablas. Para obtener más información, consulte Creación de un bucket de S3.
-
Crear un rol de IAM con los permisos necesarios: Firehose necesita un rol de IAM con permisos específicos para acceder a las tablas de AWS Glue y escribir datos en Amazon S3. El mismo rol se utiliza para concederle a AWS Glue acceso a los buckets de Amazon S3. Necesita este rol de IAM al crear una tabla de Iceberg y flujos de Firehose. Para obtener más información, consulte Conceder a Firehose acceso a las tablas de Amazon S3.
-
Crear tablas de Apache Iceberg: si está configurando claves únicas en el flujo de Firehose para actualizaciones y eliminaciones, Firehose valida si la tabla y las claves únicas existen como parte de la creación del flujo. Para esta situación, debe crear tablas antes de crear el flujo de Firehose. Puede utilizar AWS Glue para crear tablas de Apache Iceberg. Para obtener más información, consulte Creación de tablas de Apache Iceberg. Si no configurará claves únicas en el flujo de Firehose, no necesitará crear tablas de Iceberg antes de crear un flujo de Firehose.
nota
Firehose admite la siguiente versión y formato de tabla para las tablas de Apache Iceberg.
-
Versión de formato de tabla: Firehose solo admite el formato de tabla V2
. No cree tablas en formato V1; de lo contrario, se producirá un error y los datos se enviarán al bucket de errores de S3. -
Formato de almacenamiento de datos: Firehose escribe los datos en las tablas de Apache Iceberg en formato Parquet.
-
Funcionamiento a nivel de fila: Firehose admite el modo Fusionar al leer (MOR) para escribir datos en las tablas de Apache Iceberg.
-
Requisitos previos para la entrega de tablas en Amazon S3
Cumpla los siguientes requisitos previos para enviar datos a los buckets de tablas de Amazon S3.
-
Cree un bucket de tablas de S3, un espacio de nombres, tablas en el bucket de tablas y otros pasos de integración descritos en la Introducción a las tablas de Amazon S3. Los nombres de las columnas deben estar en minúscula debido a las limitaciones que impone la integración del catálogo de tablas de S3, tal como se especifica en las limitaciones de integración del catálogo de tablas de S3.
-
Crear un rol de IAM con los permisos necesarios: Firehose necesita un rol de IAM con permisos específicos para acceder a las tablas de AWS Glue y escribir datos para las tablas en un bucket de la tabla de Amazon S3. Para escribir en las tablas de un bucket de tablas de S3, también debe proporcionar el rol de IAM con los permisos necesarios en AWS Lake Formation. Debe configurar este rol de IAM al crear un flujo de Firehose. Para obtener más información, consulte la sección Concesión de acceso de Firehose a las tablas de Amazon S3.
-
Configurar permisos de AWS Lake Formation: AWS Lake Formation administra el acceso a los recursos de la tabla. Lake Formation utiliza su propio modelo de permisos que permite un control de acceso detallado a los recursos del catálogo de datos.
Para obtener información sobre la integración paso a paso, consulte el blog Creación de un lago de datos para los datos de flujos con las tablas de Amazon S3 y Amazon Data Firehose