Pré-requisitos para uso das tabelas do Apache Iceberg como destino - Amazon Data Firehose

As traduções são geradas por tradução automática. Em caso de conflito entre o conteúdo da tradução e da versão original em inglês, a versão em inglês prevalecerá.

Pré-requisitos para uso das tabelas do Apache Iceberg como destino

Escolha entre as seguintes opções para preencher os pré-requisitos obrigatórios.

Pré-requisitos para entrega em tabelas Iceberg no Amazon S3

Antes de começar, conclua os pré-requisitos a seguir.

  • Crie um bucket do Amazon S3: você deve criar um bucket do Amazon S3 para adicionar o caminho do arquivo de metadados durante a criação das tabelas. Para obter mais informações, consulte Criação de um bucket do S3.

  • Crie um perfil do IAM com as permissões necessárias: o Firehose precisa de um perfil do IAM com permissões específicas para acessar as tabelas do AWS Glue e gravar dados no Amazon S3. A mesma função é usada para conceder ao AWS Glue acesso aos buckets do Amazon S3. Você precisará desse perfil do IAM ao criar uma tabela do Iceberg e um fluxo do Firehose. Para obter mais informações, consulte Conceda ao Firehose acesso às tabelas do Amazon S3.

  • Crie tabelas do Apache Iceberg: se você estiver configurando chaves exclusivas no fluxo do Firehose para atualizações e exclusões, o Firehose as validará se a tabela e as chaves exclusivas existirem como parte da criação do fluxo. Para esse cenário, você deve criar tabelas antes de criar o fluxo do Firehose. É possível usar o AWS Glue para criar tabelas do Apache Iceberg. Para obter mais informações, consulte Criar tabelas do Apache Iceberg. Se você não estiver configurando chaves exclusivas no fluxo do Firehose, não precisará criar tabelas do Iceberg antes de criar um fluxo do Firehose.

    nota

    O Firehose oferece suporte à versão e formato de tabela a seguir para tabelas do Apache Iceberg.

    • Versão de formato de tabela: o Firehose oferece suporte apenas ao formato de tabela V2. Não crie tabelas no formato V1, caso contrário, você receberá um erro e, em vez disso, os dados serão entregues ao bucket de erros do S3.

    • Formato de armazenamento de dados: o Firehose grava dados nas tabelas do Apache Iceberg no formato Parquet.

    • Operação em nível de linha: o Firehose oferece suporte ao modo Merge-on-Read (MOR) de gravação de dados nas tabelas do Apache Iceberg.

Pré-requisitos para entrega às tabelas do Amazon S3

Para entregar dados aos buckets de tabela do Amazon S3, preencha os pré-requisitos a seguir.

  • Crie um bucket do S3 Table, namespace, tabelas no bucket da tabela e outras etapas de integração descritas em Introdução às tabelas do Amazon S3. Os nomes das colunas devem estar em minúsculas devido às limitações impostas pela integração do catálogo do S3 Tables, conforme especificado nas limitações da integração do catálogo de tabelas do S3.

  • Crie um perfil do IAM com as permissões necessárias: o Firehose precisa de um perfil do IAM com permissões específicas para acessar AWS Glue as tabelas em um bucket de tabela do Amazon S3. Para gravar em tabelas em um bucket de tabelas do S3, você também deve fornecer à função do IAM as permissões necessárias em AWS Lake Formation. Você configura esse perfil do IAM ao criar um fluxo do Firehose. Para obter mais informações, consulte Conceder ao Firehose acesso às tabelas do Amazon S3.

  • Configurar AWS Lake Formation permissões — AWS Lake Formation gerencia o acesso aos recursos da sua tabela. O Lake Formation usa um modelo de permissões próprio que permite um controle de acesso detalhado aos recursos do Catálogo de Dados.

Para step-by-step integração, consulte o blog Crie um data lake para streaming de dados com o Amazon S3 Tables e o Amazon Data Firehose. Para obter informações adicionais, consulte também Usando tabelas do Amazon S3 com serviços de AWS análise.