Acceso a los datos de tablas
Existen diversas formas de acceder a las tablas de buckets de tablas de Amazon S3: puede integrar las tablas con los servicios de análisis de AWS mediante Amazon SageMaker Lakehouse o acceder a las tablas directamente mediante el punto de conexión Iceberg REST de Tablas de Amazon S3 o el catálogo de Tablas de Amazon S3 para Apache Iceberg. El método de acceso que utilice dependerá de la configuración del catálogo, del modelo de gobernanza y de las necesidades de control de accesos. A continuación se ofrece una descripción general de estos métodos de acceso.
- Integración de Amazon SageMaker Lakehouse
Este es el método de acceso recomendado para trabajar con tablas en buckets de tablas de S3. La integración permite una administración unificada de las tablas, una gobernanza centralizada y un control de acceso pormenorizado en diversos servicios de análisis de AWS.
- Acceso directo
Utilice este método si necesita trabajar con implementaciones de catálogos de AWS Partner Network (APN) o implementaciones de catálogos personalizados, o si simplemente necesita realizar operaciones básicas de lectura/escritura en tablas dentro de un único bucket de tablas.
nota
Para acceder a las tablas, la identidad de IAM que utilice necesita acceso a los recursos de la tabla y a las acciones de las tablas de S3. Para obtener más información, consulte Administración de acceso para Tablas de S3.
Acceso a las tablas mediante la integración de Amazon SageMaker Lakehouse
Puede integrar buckets de tablas de S3 con Amazon SageMaker Lakehouse para acceder a las tablas desde servicios de análisis de AWS, como Amazon Athena, Amazon Redshift y QuickSight. Amazon SageMaker Lakehouse unifica todos sus datos entre los lagos de datos de Amazon S3 y los almacenes de datos de Amazon Redshift, lo que le permite crear aplicaciones de análisis, machine learning (ML) e IA generativa en una única copia de datos. La integración rellena el AWS Glue Data Catalog con los recursos de tabla y federa el acceso a estos recursos con AWS Lake Formation. Para obtener más información sobre la integración, consulte Uso de Tablas de Amazon S3 con servicios de análisis de AWS.
La integración permite un control de acceso pormenorizado mediante AWS Lake Formation para proporcionar seguridad adicional. Lake Formation utiliza una combinación de su propio modelo de permisos y el modelo de permisos de IAM para controlar el acceso a los recursos de tabla y a los datos subyacentes. Esto significa que una solicitud para acceder a la tabla debe pasar las comprobaciones de permisos tanto de IAM como de Lake Formation. Para obtener más información, consulte Descripción general de permisos de Lake Formation en la Guía para desarrolladores de AWS Lake Formation.
Los siguientes servicios de análisis de AWS pueden acceder a las tablas a través de esta integración:
Acceso a las tablas mediante el punto de conexión Iceberg REST de AWS Glue
Una vez que los buckets de tablas de S3 estén integrados con Amazon SageMaker Lakehouse, también podrá usar el punto de conexión Iceberg REST de AWS Glue para conectarse a tablas de S3 desde motores de consulta de terceros que sean compatibles con Iceberg. Para obtener más información, consulte Acceso a las tablas de Amazon S3 mediante el punto de conexión Iceberg REST de AWS Glue.
Le recomendamos que utilice el punto de conexión Iceberg REST de AWS Glue cuando desee acceder a las tablas desde Spark, PyIceberg u otros clientes compatibles con Iceberg.
Los siguientes clientes pueden acceder a las tablas directamente a través del punto de conexión Iceberg REST de AWS Glue:
Cualquier cliente de Iceberg, incluidos Spark, PyIceberg y otros.
Acceso directo a las tablas
Puede acceder a las tablas directamente desde motores de consulta de código abierto mediante métodos que conectan las operaciones de administración de Tablas de S3 con sus aplicaciones de análisis de Apache Iceberg. Existen dos métodos de acceso directo: el punto de conexión Iceberg REST de Tablas de Amazon S3 o el catálogo de Tablas de Amazon S3 para Apache Iceberg. Se recomienda usar el punto de conexión REST.
Recomendamos el acceso directo si se accede a las tablas en implementaciones de catálogo autoadministrados, o si solo se necesita realizar operaciones básicas de lectura y escritura en las tablas de un único bucket de tablas. En otras situaciones, recomendamos la integración con Amazon SageMaker Lakehouse.
El acceso directo a las tablas se administra mediante políticas de IAM basadas en identidades o políticas basadas en recursos asociadas a tablas y buckets de tablas. No necesita administrar los permisos de Lake Formation de las tablas si accede a ellas directamente.
Acceso a las tablas a través del punto de conexión Iceberg REST de Tablas de Amazon S3
Puede utilizar el punto de conexión Iceberg REST de Tablas de Amazon S3 para acceder a sus tablas directamente desde cualquier cliente compatible con Iceberg REST a través de puntos de conexión HTTP. Para obtener más información, consulte Acceso a tablas mediante el punto de conexión Iceberg REST de Tablas de Amazon S3.
Los siguientes servicios de análisis de AWS y motores de consulta pueden acceder a las tablas directamente mediante el punto de conexión Iceberg REST de Tablas de Amazon S3:
Motores de consulta compatibles
Cualquier cliente de Iceberg, incluidos Spark, PyIceberg y otros.
Acceso directo a las tablas mediante el catálogo de Tablas de Amazon S3 para Apache Iceberg
También puede acceder a las tablas directamente desde motores de consulta como Apache Spark mediante el catálogo de clientes de Tablas de S3. Para obtener más información, consulte Acceso a tablas de Amazon S3 con el catálogo de Tablas de Amazon S3 para Apache Iceberg. No obstante, S3 recomienda utilizar el punto de conexión Iceberg REST de Tablas de Amazon S3 para el acceso directo, ya que admite más aplicaciones sin necesidad de código específico del lenguaje o del motor.
Los siguientes motores de consulta pueden acceder a las tablas directamente mediante el catálogo de clientes: