Geral Permissões Registros e depuração Iceberg

Considerações e limitações

Geral

Analise as seguintes limitações ao usar o Lake Formation com o EMR Serverless.

nota

Quando você habilita o Lake Formation para um trabalho do Spark no EMR Sem Servidor, o trabalho inicia um driver de sistema e um driver de usuário. Se você especificou a capacidade pré-inicializada na inicialização, os drivers são provisionados na capacidade pré-inicializada e o número de drivers do sistema é igual ao número de drivers de usuário que você especifica. Se você escolher a capacidade sob demanda, o EMR Sem Servidor iniciará um driver de sistema além de um driver de usuário. Para estimar os custos associados ao trabalho do EMR Sem Servidor com o Lake Formation, use o serviço AWS Calculadora de Preços.

O Amazon EMR Sem Servidor com Lake Formation está disponível em todas as regiões do EMR Sem Servidor com suporte.

As aplicações habilitadas para Lake Formation não oferecem suporte ao uso de imagens personalizadas do EMR Sem Servidor.
Você não pode desativar DynamicResourceAllocation para trabalhos do Lake Formation.
Você só pode usar o Lake Formation com trabalhos do Spark.
O EMR Sem Servidor com Lake Formation oferece suporte apenas a uma única sessão do Spark durante todo o trabalho.
O EMR Sem Servidor com Lake Formation só oferece suporte a consultas de tabelas entre contas compartilhadas por meio de links de recursos.
As seguintes opções não são compatíveis:
- Conjuntos de dados distribuídos resilientes (RDD)
- Streaming do Spark
- Controle de acesso para colunas aninhadas
O EMR Sem Servidor bloqueia funcionalidades que podem prejudicar o isolamento completo do driver do sistema, incluindo as seguintes:
- UDTs, Hive UDFs e qualquer função definida pelo usuário que envolva classes personalizadas
- Fontes de dados personalizadas
- Fornecimento de JARs adicionais para extensão, conector ou metastore do Spark
- Comando ANALYZE TABLE
Se seu aplicativo EMR Serverless estiver em uma sub-rede privada com endpoints VPC para o Amazon S3 e você anexar uma política de endpoint para controlar o acesso, antes que seus trabalhos possam enviar dados de log para o Amazon S3 gerenciado, inclua as permissões detalhadas em Armazenamento gerenciado AWS em sua política de VPC para o endpoint do gateway S3. Para solicitações de solução de problemas, entre em contato com AWS o suporte.
A partir do Amazon EMR 7.9.0, o Spark FGAC oferece suporte ao AFile sistema S3 quando usado com o esquema s3a://.
O Amazon EMR 7.11 oferece suporte à criação de tabelas gerenciadas usando CTAS.
O Amazon EMR 7.12 oferece suporte à criação de tabelas gerenciadas e externas usando CTAS.

Permissões

Para aplicar controles de acesso, as operações EXPLAIN PLAN e DDL, como DESCRIBE TABLE, não expõem informações restritas.
Quando você registra a localização de uma tabela no Lake Formation, o acesso aos dados usa as credenciais armazenadas do Lake Formation em vez das permissões IAM da função de tempo de execução de trabalho do EMR Serverless. Os trabalhos falharão se a função registrada para a localização da tabela estiver configurada incorretamente, mesmo quando a função de tempo de execução tiver permissões do S3 IAM para essa localização.
A partir do Amazon EMR 7.12, você pode gravar nas tabelas existentes do Hive e do Iceberg usando DataFrameWriter (V2) com as credenciais do Lake Formation no modo de acréscimo. Para operações de substituição ou ao criar novas tabelas, o EMR usa as credenciais da função de tempo de execução para modificar os dados da tabela.
As seguintes limitações se aplicam ao usar exibições ou tabelas em cache como dados de origem (essas limitações não se aplicam às visualizações do AWS Glue Data Catalog):
- Para operações MERGE, DELETE e UPDATE
  - Compatível: uso de visualizações e tabelas em cache como tabelas de origem.
  - Não suportado: uso de visualizações e tabelas em cache em cláusulas de atribuição e condição.
- Para as operações CREATE OR REPLACE e REPLACE TABLE AS SELECT:
  - Não suportado: uso de visualizações e tabelas em cache como tabelas de origem.
As tabelas Delta Lake com dados UDFs na fonte suportam as operações MERGE, DELETE e UPDATE somente quando o vetor de exclusão está ativado.

Registros e depuração

O EMR Sem Servidor restringe o acesso aos logs do Spark do driver do sistema em aplicações habilitadas para Lake Formation. Como o driver do sistema é executado com permissões elevadas, os eventos e logs que o driver do sistema gera podem incluir informações confidenciais. Para evitar que usuários ou códigos não autorizados acessem esses dados confidenciais, o EMR Sem Servidor desabilita o acesso aos logs do driver do sistema.
Os logs do perfil do sistema são sempre mantidos no armazenamento gerenciado: essa é uma configuração obrigatória que não pode ser desabilitada. Esses registros são armazenados com segurança e criptografados usando uma chave KMS gerenciada pelo cliente ou uma chave KMS AWS gerenciada.

Iceberg

Analise as seguintes considerações ao usar o Apache Iceberg:

Você só pode usar o Apache Iceberg com o catálogo de sessões e não com catálogos nomeados arbitrariamente.
As tabelas do Iceberg registradas no Lake Formation oferecem suporte apenas às tabelas de metadados history, metadata_log_entries, snapshots, files, manifests e refs. O Amazon EMR oculta as colunas que podem conter dados confidenciais, como partitions, path e summaries. Essa limitação não se aplica às tabelas do Iceberg que não estão registradas no Lake Formation.
As tabelas não registradas no Lake Formation oferecem suporte a todos os procedimentos armazenados do Iceberg. Os procedimentos register_table e migrate não são compatíveis com nenhuma tabela.
Sugerimos que você use o Iceberg DataFrameWriter V2 em vez do V1.

Atenção O Javascript está desativado ou não está disponível no seu navegador.

Para usar a documentação da AWS, o Javascript deve estar ativado. Consulte as páginas de Ajuda do navegador para obter instruções.

Convenções do documento

Suporte ao formato de tabela aberta

Solução de problemas