Las traducciones son generadas a través de traducción automática. En caso de conflicto entre la traducción y la version original de inglés, prevalecerá la version en inglés.
Requisitos previos para utilizar las tablas de Apache Iceberg como destino
Puede elegir entre las siguientes opciones para completar los requisitos previos necesarios.
Temas
Requisitos previos para realizar envíos a Iceberg Tables en Amazon S3
Antes de comenzar, complete los siguientes requisitos previos.
-
Crear un bucket de Amazon S3: debe crear un bucket de Amazon S3 para añadir la ruta del archivo de metadatos durante la creación de las tablas. Para obtener más información, consulte Creación de un bucket de S3.
-
Crear un rol de IAM con los permisos necesarios: Firehose necesita un rol de IAM con permisos específicos para acceder a las tablas de AWS Glue y escribir datos en Amazon S3. El mismo rol se utiliza para concederle a AWS Glue acceso a los buckets de Amazon S3. Necesita este rol de IAM al crear un flujo de tablas de Iceberg y flujos de Firehose. Para obtener más información, consulte Conceda a Firehose acceso a Amazon S3 Tables.
-
Crear tablas de Apache Iceberg: si está configurando claves únicas en el flujo de Firehose para actualizaciones y eliminaciones, Firehose valida si la tabla y las claves únicas existen como parte de la creación del flujo. Para esta situación, debe crear tablas antes de crear el flujo de Firehose. Puede utilizar AWS Glue para crear tablas de Apache Iceberg. Para obtener más información, consulte Creación de tablas de Apache Iceberg. Si no configurará claves únicas en el flujo de Firehose, no necesitará crear tablas de Iceberg antes de crear un flujo de Firehose.
nota
Firehose admite la siguiente versión y formato de tabla para las tablas de Apache Iceberg.
-
Versión de formato de tabla: Firehose solo admite el formato de tabla V2
. No cree tablas en formato V1; de lo contrario, se producirá un error y los datos se enviarán al bucket de errores de S3. -
Formato de almacenamiento de datos: Firehose escribe los datos en las tablas de Apache Iceberg en formato Parquet.
-
Funcionamiento a nivel de fila: Firehose admite el modo Merge-on-Read (MOR) de escritura de datos en las tablas de Apache Iceberg.
-
Requisitos previos para realizar envíos a las tablas de Amazon S3
Para entregar los datos a los buckets de tablas de Amazon S3, complete los siguientes requisitos previos.
-
Cree un depósito de tablas de S3, un espacio de nombres, tablas en el depósito de tablas y otros pasos de integración descritos en Introducción a Amazon S3 Tables. Los nombres de las columnas deben estar en minúscula debido a las limitaciones que impone la integración del catálogo de tablas de S3, tal como se especifica en las limitaciones de integración del catálogo de tablas de S3.
-
Crear un rol de IAM con los permisos necesarios: Firehose necesita un rol de IAM con permisos específicos para AWS Glue acceder a las tablas de y escribir datos en las tablas de un bucket de tablas de Amazon S3. Para escribir en las tablas de un depósito de tablas de S3, también debes proporcionar la función de IAM con los permisos necesarios. AWS Lake Formation Este rol de IAM se configura al crear un flujo de Firehose. Para obtener más información, consulte Conceder a Firehose acceso a Amazon S3 Tables.
-
Configure AWS Lake Formation los permisos: AWS Lake Formation administre el acceso a los recursos de su tabla. Lake Formation utiliza un modelo propio de permisos que permite un control de acceso detallado para los recursos del Catálogo de datos.
Para obtener información sobre la step-by-step integración, consulte el blog Cree un lago de datos para transmitir datos con Amazon S3 Tables y Amazon Data Firehose