Llevar sus datos al AWS Glue Data Catalog - AWS Lake Formation

Las traducciones son generadas a través de traducción automática. En caso de conflicto entre la traducción y la version original de inglés, prevalecerá la version en inglés.

Llevar sus datos al AWS Glue Data Catalog

Puede crear catálogos federados en el AWS Glue Data Catalog (catálogo de datos) y unificar los datos entre los lagos de datos de Amazon S3 y los almacenes de datos de Amazon Redshift. También puede integrar datos de sus bases de datos operativas, por ejemplo Amazon DynamoDB, y de fuentes de datos de terceros, como PostgreSQL BigQuery, Google o MySQL, entre otras. El Catálogo de datos proporciona un repositorio de metadatos centralizado que facilita la administración y la detección de datos en sistemas dispares.

El Catálogo de datos se integra con más de 30 orígenes de datos externos a través de conectores federados. Con esta integración, puede consultar datos de estas fuentes externas sin tener que crear canalizaciones de datos en las que ingerir primero los datos. AWS

Tras catalogar los datos externos, puede utilizarlos para gestionar de forma centralizada AWS Lake Formation los permisos de acceso a los datos en el catálogo de datos. Los administradores de lagos de datos pueden conceder permisos de acceso detallados a otras entidades principales de IAM (usuarios o roles) dentro de la misma cuenta o entre cuentas mediante los métodos de control de acceso basado en etiquetas (etiquetas LF) y recursos con nombre.

Al usar etiquetas LF, los administradores de datos pueden organizar los recursos de forma lógica en función de atributos como el dominio y el nivel de confidencialidad, lo que simplifica la administración de permisos y garantiza controles de acceso consistentes en todos los servicios de análisis y aprendizaje automático, como Athena, Amazon EMR o Redshift Spectrum. AWS Glue

El Catálogo de datos proporciona los siguientes métodos para administrar datos y permisos en conjuntos de datos externos y metaalmacenes externos:

  • Integre los depósitos de Amazon S3 Table con Data Catalog: puede publicar y catalogar las tablas de Amazon S3 como objetos del catálogo de datos y registrar el catálogo como una ubicación de datos de Lake Formation desde la consola de Lake Formation o mediante operaciones de AWS Glue API.

  • Incorpore los datos de los almacenes de datos de Amazon Redshift al AWS Glue Data Catalog: registre un espacio de nombres o un clúster de Amazon Redshift existente en el catálogo de datos y cree un catálogo federado de varios niveles en el catálogo de datos.

    Puede acceder a sus datos mediante cualquier motor de consultas compatible con la especificación OpenAPI de catálogo REST de Apache Iceberg, como Amazon EMR sin servidor y Amazon Athena.

  • Federe Iceberg REST los catálogos remotos al catálogo de datos: federe los Iceberg REST catálogos remotos al catálogo de datos y acceda de forma segura a Iceberg las tablas remotas almacenadas en Amazon S3 mediante motores de análisis. AWS

  • Conéctese al catálogo de datos desde fuentes de datos externas: conecte el catálogo de datos a fuentes de datos externas mediante AWS Glue conexiones y cree catálogos federados para administrar de forma centralizada los permisos de acceso a los conjuntos de datos mediante Lake Formation. No es necesario migrar los metadatos al Catálogo de datos.

  • Crear catálogos para administrar las tablas de Amazon Redshift en el Catálogo de datos: es posible que no tenga un clúster productor de Amazon Redshift o un recurso compartido de datos de Amazon Redshift disponibles en la actualidad, pero desee crear y administrar las tablas de Amazon Redshift mediante el Catálogo de datos. Para empezar, puede crear un catálogo de AWS Glue administrado mediante la operación de la API glue:CreateCatalog o la consola de AWS Lake Formation , configurando el tipo de catálogo como Managed y Catalog source como Redshift.

  • Publicar los recursos compartidos de datos de Amazon Redshift con el Catálogo de datos: publique los recursos compartidos de Amazon Redshift en el Catálogo de datos y utilice Lake Formation para administrar de forma centralizada el acceso a los datos de los recursos compartidos y restringir el acceso de los usuarios.

    Puede consultar los datos mediante Amazon Redshift Spectrum.

  • Conectar el Catálogo de datos a metaalmacenes de Hive externos: conecte el Catálogo de datos a metaalmacenes externos para administrar los permisos de acceso en conjuntos de datos en Amazon S3 mediante Lake Formation. No es necesario migrar los metadatos al Catálogo de datos.

  • Integre Lake Formation con AWS Data Exchange: Lake Formation admite la concesión de licencias de acceso a sus datos mediante AWS Data Exchange. Si desea conceder licencias para sus datos de Lake Formation, consulte Qué es AWS Data Exchange en la Guía del usuario de AWS Data Exchange .