Uso de Tablas de Amazon S3 y buckets de tablas - Amazon Simple Storage Service

Uso de Tablas de Amazon S3 y buckets de tablas

Las Tablas de Amazon S3 proporcionan almacenamiento S3 optimizado para cargas de trabajo de análisis, con características diseñadas para mejorar continuamente el rendimiento de las consultas y reducir los costos de almacenamiento de las tablas. Las Tablas de S3 se han personalizado para almacenar datos tabulares, como transacciones de compra diarias, datos de sensores de streaming o impresiones de anuncios. Los datos tabulares representan datos en columnas y filas, como en una tabla de base de datos.

Los datos de Tablas de S3 se almacenan en un nuevo tipo de bucket: un bucket de tablas, que almacena tablas como subrecursos. Los buckets de tablas admiten el almacenamiento de tablas en el formato Apache Iceberg. Mediante instrucciones SQL estándar, puede consultar las tablas con motores de consulta que admitan Iceberg, como Amazon Athena, Amazon Redshift y Apache Spark.

Características de Tablas de S3

Almacenamiento personalizado para tablas

Los buckets de tablas de S3 están personalizados para tablas. Los buckets de tablas proporcionan un mayor número de transacciones por segundo (TPS) y un mejor rendimiento de las consultas en comparación con las tablas autoadministradas en los buckets de uso general de S3. Los buckets de tablas ofrecen la misma durabilidad, disponibilidad y escalabilidad que otros tipos de buckets de Amazon S3.

Compatibilidad integrada con Apache Iceberg

Las tablas de los buckets de tablas se almacenan en formato Apache Iceberg. Puede consultar estas tablas mediante SQL estándar en motores de consulta que admitan Iceberg. Iceberg tiene una variedad de características para optimizar el rendimiento de las consultas, incluida la evolución del esquema y la evolución de las particiones.

Con Iceberg, puede cambiar la forma en que se organizan los datos para que puedan evolucionar con el tiempo sin necesidad de reescribir las consultas ni reconstruir las estructuras de datos. Iceberg se ha diseñado para ayudar a garantizar la coherencia y fiabilidad de los datos a través de la compatibilidad con las transacciones. Para ayudarlo a corregir problemas o realizar consultas de viaje en el tiempo, puede realizar un seguimiento de cómo cambian los datos con el tiempo y retroceder a versiones históricas.

Optimización de tablas automatizada

Para optimizar las tablas para la consulta, S3 realiza continuamente operaciones de mantenimiento automático, como compactación, administración de instantáneas y eliminación de archivos sin referencias. Estas operaciones aumentan el rendimiento de las tablas al compactar objetos más pequeños en menos archivos más grandes. Las operaciones de mantenimiento también reducen los costos de almacenamiento al limpiar los objetos no utilizados. Este mantenimiento automatizado agiliza el funcionamiento de los lagos de datos a escala al reducir la necesidad de mantenimiento manual de las tablas. Puede personalizar las configuraciones de mantenimiento para cada tabla y bucket de tablas.

Seguridad y administración de acceso

Puede administrar el acceso tanto para los buckets de tablas como para las tablas individuales con AWS Identity and Access Management (IAM) y las políticas de control de servicio en AWS Organizations. Tablas de S3 utiliza un espacio de nombres de servicio diferente al de Amazon S3: el espacio de nombres s3tables. Por lo tanto, puede diseñar políticas específicamente para el servicio de Tablas de S3 y los recursos. Puede diseñar políticas para conceder acceso a tablas individuales, a todas las tablas dentro de un espacio de nombres de tabla o a buckets de tablas completos. Todos las opciones de Bloqueo de acceso público de Amazon S3 están siempre habilitados para los buckets de tablas y no se pueden deshabilitar.

Integración con servicios de análisis de AWS

Puede integrar automáticamente sus buckets de tablas de Amazon S3 con Amazon SageMaker Lakehouse desde la consola de S3. Esta integración permite que los servicios de análisis de AWS detecten automáticamente los datos de las tablas y accedan a ellos a través del AWS Glue Data Catalog. Tras la integración, puede trabajar con las tablas mediante servicios de análisis como Amazon Athena, Amazon Redshift, QuickSight, etc. Para obtener más información sobre cómo funciona la integración, consulte Uso de Tablas de Amazon S3 con servicios de análisis de AWS.

Servicios relacionados

Puede utilizar los siguientes Servicios de AWS con Tablas de S3 para admitir las aplicaciones de análisis específicas.

  • Amazon Athena: Athena es un servicio de consulta interactivo que puede utilizar para analizar datos directamente en Amazon S3 con SQL estándar. También puede usar Athena para ejecutar análisis de datos de forma interactiva mediante Apache Spark sin tener que planificar, configurar ni administrar los recursos. Cuando ejecuta aplicaciones de Apache Spark en Athena, envía el código de Spark para su procesamiento y recibe los resultados directamente.

  • AWS Glue: AWS Glue es un servicio de integración de datos sin servidor que le permite descubrir, preparar, mover e integrar datos de múltiples orígenes. Puede usar AWS Glue para análisis, machine learning (ML) y desarrollo de aplicaciones. AWS Glue también incluye herramientas adicionales de productividad y operaciones de datos para la creación, la ejecución de trabajos y la implementación de flujos de trabajo empresariales.

  • Amazon EMR: Amazon EMR es una plataforma de clúster administrada que simplifica la ejecución de los marcos de macrodatos, tales como Apache Hadoop y Apache Spark, en AWS para procesar y analizar grandes cantidades de datos.

  • Amazon Redshift: Amazon Redshift es un servicio de almacén de datos de varios petabytes en la nube. Puede utilizar Amazon Redshift sin servidor para acceder a los datos y analizarlos sin todas las configuraciones de un almacén de datos aprovisionado. Los recursos se aprovisionan automáticamente y la capacidad del almacenamiento de datos se escala de forma inteligente para ofrecer un rendimiento rápido incluso para las cargas de trabajo más exigentes e impredecibles. No incurrirá en gastos cuando el almacenamiento de datos esté inactivo, por lo que solo pagará por lo que utilice. Puede cargar datos y comenzar a realizar consultas de inmediato en el editor de consultas de Amazon Redshift v2 o en su herramienta de inteligencia empresarial (BI) favorita.

  • QuickSight: QuickSight es un servicio de análisis empresariales para crear visualizaciones, realizar análisis ad hoc y obtener rápidamente información útil empresarial a partir de los datos. QuickSight descubre sin problemas orígenes de datos de AWS y ofrece un rendimiento de consulta rápido y con capacidad de respuesta mediante el uso del motor de cálculo en memoria, paralelo y ultrarrápido (SPICE) de QuickSight.

  • AWS Lake Formation: Lake Formation es un servicio administrado que agiliza el proceso para configurar, proteger y administrar los lagos de datos. Lake Formation le ayuda a descubrir sus orígenes de datos y, a continuación, a catalogarlos, limpiarlos y transformarlos. Con Lake Formation, puede administrar el control de acceso detallado para los datos del lago de datos en Amazon S3 y los metadatos en AWS Glue Data Catalog.