Acessar dados da tabela - Amazon Simple Storage Service

Acessar dados da tabela

Há várias maneiras de acessar tabelas nos buckets de tabela do Amazon S3. É possível integrar tabelas a serviços de analytics da AWS usando o Amazon SageMaker Lakehouse ou acessar tabelas diretamente usando o endpoint Iceberg REST de tabelas do Amazon S3 ou o Catálogo de Tabelas do Amazon S3 para Apache Iceberg. O método de acesso que você usa dependerá da configuração do catálogo, do modelo de governança e das necessidades de controle de acesso. Apresentamos a seguir uma visão geral desses métodos de acesso.

Integração com o Amazon SageMaker Lakehouse

Esse é o método de acesso recomendado para trabalhar com tabelas em buckets de tabela do S3. A integração oferece gerenciamento unificado de tabelas, governança centralizada e controle de acesso refinado em vários serviços de analytics da AWS.

Acesso direto

Use esse método se precisar trabalhar com implementações de catálogos do AWS Partner Network (APN) e implementações de catálogos personalizados ou se precisar realizar apenas operações básicas de leitura/gravação em tabelas dentro de um único bucket de tabela.

nota

Para acessar tabelas, a identidade do IAM que você usa precisa ter acesso aos seus recursos de tabela e às ações da funcionalidade Tabelas do S3. Para obter mais informações, consulte Gerenciamento de acesso para a funcionalidade Tabelas do S3.

Acessar tabelas por meio da integração com o Amazon SageMaker Lakehouse

É possível integrar buckets de tabela do S3 ao Amazon SageMaker Lakehouse para acessar tabelas de serviços de analytics da AWS, como o Amazon Athena, o Amazon Redshift e o QuickSight. O Amazon SageMaker Lakehouse unifica todos os dados nos data lakes do Amazon S3 e nos data warehouses do Amazon Redshift, para que seja possível criar aplicações de analytics, machine learning (ML) e IA generativa em uma única cópia dos dados. A integração preenche o AWS Glue Data Catalog com os recursos da tabela e federa o acesso a esses recursos com o AWS Lake Formation. Consulte mais informações sobre integração em Usar tabelas do Amazon S3 com serviços de analytics da AWS.

A integração permite o controle de acesso refinado por meio do AWS Lake Formation para oferecer segurança adicional. O Lake Formation usa conjuntamente um modelo de permissões próprio e o modelo de permissões do IAM para controlar o acesso aos recursos de tabela e aos dados subjacentes. Isso significa que uma solicitação para acessar a tabela deve passar por verificações de permissão tanto do IAM quanto do Lake Formation. Consulte mais informações em Lake Formation permissions overview no Guia do desenvolvedor do AWS Lake Formation.

Os seguintes serviços de analytics da AWS podem acessar tabelas por meio dessa integração:

Acessar tabelas usando o endpoint Iceberg REST do AWS Glue

Depois que os buckets de tabela do S3 estiverem integrados ao Amazon SageMaker Lakehouse, você também poderá usar o endpoint Iceberg REST do AWS Glue para se conectar às tabelas do S3 por meio de mecanismos de consulta de terceiros compatíveis com o Iceberg. Para obter mais informações, consulte Acessar tabelas do Amazon S3 usando o endpoint Iceberg REST do AWS Glue.

Recomendamos usar o endpoint Iceberg REST do AWS Glue quando você quiser acessar tabelas do Spark, do PyIceberg ou de outros clientes compatíveis com o Iceberg.

Os seguintes clientes podem acessar tabelas diretamente por meio do endpoint Iceberg REST do AWS Glue:

  • Qualquer cliente do Iceberg, incluindo o Spark, o PyIceberg e outros.

Acessar tabelas diretamente

É possível acessar tabelas diretamente de mecanismos de consulta de código aberto por meio de métodos que conectam as operações de gerenciamento de Tabelas do S3 às suas aplicações de analytics do Apache Iceberg. Há dois métodos de acesso direto: o endpoint Iceberg REST do serviço Tabelas do Amazon S3 ou o Catálogo de Tabelas do Amazon S3 para Apache Iceberg. O endpoint REST é recomendado.

Recomendamos o acesso direto se você acessa tabelas em implementações de catálogos autogerenciados ou se precisa realizar apenas operações básicas de leitura/gravação em tabelas em um único bucket de tabela. Com relação a outros cenários de acesso, recomendamos a integração com o Amazon SageMaker Lakehouse.

O acesso direto às tabelas é gerenciado por meio de políticas baseadas em identidade do IAM ou políticas baseadas em recursos anexadas a tabelas e buckets de tabela. Você não precisa gerenciar as permissões do Lake Formation para tabelas ao acessá-las diretamente.

Acessar tabelas por meio do endpoint Iceberg REST do serviço Tabelas do Amazon S3

Você pode usar o endpoint Iceberg REST do serviço Tabelas do Amazon S3 para acessar as tabelas diretamente de qualquer cliente compatível com o Iceberg REST por meio de endpoints HTTP. Consulte mais informações em Acessar tabelas usando o endpoint Iceberg REST do serviço Tabelas do Amazon S3.

Os seguintes mecanismos de consulta e serviços de analytics da AWS podem acessar tabelas diretamente usando o endpoint Iceberg REST do serviço Tabelas do Amazon S3:

Mecanismos de consulta compatíveis

Acessar tabelas diretamente por meio do Catálogo de Tabelas do Amazon S3 para Apache Iceberg

Você também pode acessar tabelas diretamente de mecanismos de consulta como o Apache Spark usando o catálogo de clientes de Tabelas do S3. Consulte mais informações em Acessar tabelas do Amazon S3 com o Catálogo de Tabelas do Amazon S3 para Apache Iceberg. No entanto, o S3 recomenda usar o endpoint Iceberg REST de Tabelas do Amazon S3 para acesso direto, pois ele é compatível com mais aplicações e não exige código específico de mecanismo ou linguagem.

Os seguintes mecanismos de consulta podem acessar tabelas diretamente usando o catálogo de cliente: