Acelerar a descoberta de dados com o S3 Metadata - Amazon Simple Storage Service

Acelerar a descoberta de dados com o S3 Metadata

O Amazon S3 Metadata acelera a descoberta de dados ao capturar automaticamente os metadados dos objetos nos buckets de uso geral e armazená-los em tabelas do Apache Iceberg totalmente gerenciadas e somente leitura que você pode consultar. Essas tabelas somente leitura são chamadas de tabelas de metadados. À medida que objetos são adicionados, atualizados e removidos dos buckets de uso geral, o S3 Metadata atualiza automaticamente as tabelas de metadados correspondentes para refletir as alterações mais recentes.

Por padrão, o S3 Metadata fornece três tipos de metadados:

  • Metadados definidos pelo sistema, como o horário de criação e a classe de armazenamento de um objeto.

  • Metadados personalizados, como tags e metadados definidos pelo usuário que foram incluídos durante o upload do objeto.

  • Metadados de eventos, como quando um objeto é atualizado ou excluído, e a Conta da AWS que fez a solicitação.

Para conferir detalhes sobre quais dados são armazenados nas tabelas de metadados, consulte Esquema de tabelas do S3 Metadata.

Com o S3 Metadata, você pode facilmente encontrar, armazenar e consultar metadados para os objetos do S3, para que possa preparar dados rapidamente para uso em analytics de negócios, recuperação de conteúdo, treinamento de modelos de inteligência artificial e machine learning (IA/ML) e muito mais.

As tabelas de metadados são armazenadas em buckets de tabela do S3, que fornecem armazenamento otimizado para dados tabulares. Para consultar metadados com facilidade, você pode integrar o bucket de tabela ao AWS Glue Data Catalog. Depois que o bucket de tabela for integrado ao AWS Glue Data Catalog, você poderá consultar diretamente as tabelas de metadados com mecanismos de consulta, como Amazon Athena, Amazon EMR, Amazon Redshift, Apache Spark e Trino. Você também pode consultar tabelas de metadados com qualquer outra aplicação que seja compatível com o formato Apache Iceberg. Para criar painéis das tabelas de metadados, use o Amazon QuickSight.

Para ter informações sobre os preços do S3 Metadata, consulte Definição de preço do Amazon S3.

Como funcionam as tabelas de metadados

As tabelas de metadados são gerenciadas pelo Amazon S3 e não podem ser modificadas por nenhuma entidade principal do IAM fora do próprio Amazon S3. (No entanto, você pode excluir as tabelas de metadados.) Como resultado, as tabelas de metadados são somente leitura, o que ajuda a garantir que elas reflitam corretamente o conteúdo do bucket.

Para manter as tabelas de metadados do Apache Iceberg com a melhor performance, o Amazon S3 realiza atividades de manutenção periódicas nas tabelas, como compactação e remoção de arquivos sem referência. Essas atividades de manutenção ajudam a minimizar o custo de armazenamento das tabelas de metadados e a otimizar a performance das consultas. Essa manutenção das tabelas ocorre automaticamente, não exigindo adesão nem gerenciamento contínuo da sua parte. No entanto, se necessário, você pode configurar essas atividades de manutenção das tabelas. Para ter mais informações, consulte Table bucket maintenance.

nota

O S3 Metadata foi projetado para anexar continuamente à tabela de metadados conforme você faz alterações no bucket de uso geral. Cada atualização cria um snapshot, que é uma nova versão da tabela de metadados. Devido à natureza somente leitura da tabela de metadados, não é possível excluir registros da tabela de metadados. Você também não pode usar o recurso de expiração de snapshots da funcionalidade Tabelas do S3 para expirar snapshots antigos da tabela de metadados.

Para ajudar a minimizar os custos, você pode excluir periodicamente a configuração de tabelas de metadados e as tabelas de metadados, depois recriá-las. Para obter mais informações, consulte Excluir configurações de tabelas de metadados e Excluir tabelas de metadados.

Para gerar e armazenar metadados de objetos em uma tabela de metadados gerenciada pelo S3, crie uma configuração de tabelas de metadados para o bucket de uso geral. O Amazon S3 foi projetado para atualizar continuamente a tabela de metadados a fim de refletir as alterações mais recentes nos dados, desde que a configuração esteja ativa no bucket.

Para criar uma configuração de tabelas de metadados, você deve garantir que tenha as permissões do AWS Identity and Access Management (IAM) necessárias para criar e gerenciar tabelas de metadados. Para obter mais informações, consulte Definir permissões para configurar tabelas de metadados. Você também deve criar ou especificar um bucket de tabela do S3 para armazenar a tabela de metadados. Esse bucket de tabela deve estar na mesma conta e Região da AWS que o bucket de uso geral. Para ter mais informações sobre como criar buckets de tabela, consulte Creating table buckets.

nota

O S3 Metadata não se aplica a nenhum objeto que já existia no bucket de uso geral antes de você criar a configuração de tabelas de metadados. Em outras palavras, o S3 Metadata captura apenas metadados de eventos de alteração (como uploads, atualizações e exclusões) que acontecem depois que você cria a configuração de tabelas de metadados.

Para monitorar as atualizações na configuração de tabelas de metadados, você pode usar o AWS CloudTrail. Para obter mais informações, consulte Ações de buckets do Amazon S3 rastreadas pelo registro em log do CloudTrail.