Considerações e limitações - Amazon EMR

As traduções são geradas por tradução automática. Em caso de conflito entre o conteúdo da tradução e da versão original em inglês, a versão em inglês prevalecerá.

Considerações e limitações

  • O uso do Delta Lake é compatível com as versões 6.9.0 e posteriores do Amazon EMR. É possível usar o Apache Spark 3.x em clusters do Amazon EMR com tabelas Delta.

  • Recomendamos usar o esquema de URI s3 para caminhos de localização do S3 em vez de s3a para melhorar a performance, a segurança e a confiabilidade. Para obter mais informações, consulte Working with storage and file systems.

  • Com o Amazon EMR 7.0, não há Delta Universal Format (UniForm) suporte para convert-to-Iceberg declarações.

  • Com o Amazon EMR 6.9 e 6.10, ao armazenar dados da tabela do Delta Lake no Amazon S3, os dados da coluna se tornam NULL após a operação de renomeação da coluna. Esse problema foi resolvido no Amazon EMR 6.11. Para obter mais informações sobre a operação experimental de renomeação de coluna, consulte Column rename operation no guia do usuário do Delta Lake.

  • Ao usar o EMR Delta com Glue na região Pequim (cn-north-1), defina hive.s3.endpoint como https://s3---cn-north-1.amazonaws.com.rproxy.govskope.ca.cn.

  • Se você criar um banco de dados no AWS Glue Data Catalog fora do Apache Spark, o banco de dados poderá ter um campo vazioLOCATION. Como o Spark não permite criar bancos de dados com uma propriedade de localização vazia, você receberá o seguinte erro ao usar o Spark no Amazon EMR para criar uma tabela Delta em um banco de dados do Glue e se o banco de dados tiver uma propriedade LOCATION vazia:

    IllegalArgumentException: Can not create a Path from an empty string

    Para resolver esse problema, crie o banco de dados no Catálogo de Dados com um caminho válido e não vazio para o campo LOCATION. Para ver as etapas para implementar a solução, consulte Exceção para argumento inválido ao criar uma tabela no Guia do usuário do Amazon Athena.