AWS runtime for Apache Spark(pré-visualização do emr-spark-8.0) - Amazon EMR

As traduções são geradas por tradução automática. Em caso de conflito entre o conteúdo da tradução e da versão original em inglês, a versão em inglês prevalecerá.

AWS runtime for Apache Spark(pré-visualização do emr-spark-8.0)

A tabela a seguir lista as versões do aplicativo disponíveis com AWS runtime for Apache Spark (emr-spark-8.0-preview).

Informações da versão da aplicação
Aplicação Versão
Spark 4.0.1-amzn-0
AWS runtime for Apache SparkNotas de lançamento (emr-spark-8.0-preview)
  • Versão prévia — Esta é uma versão prévia AWS runtime for Apache Spark com o Apache Spark 4.0.1. Essa prévia está disponível somente no EMR Serverless.

  • Disponibilidade regional — Essa versão prévia está disponível em todas as AWS regiões onde o EMR Serverless está disponível, exceto nas regiões da China e AWS GovCloud (EUA).

  • Informações sobre a versão do aplicativo - Esta versão vem com as seguintes versões do aplicativo:

    • AWS SDK for Java 2.35.5, 1.12.792

    • Python 3.9, 3.11, 3.12

    • Scala 2.13.16

    • AmazonCloudWatchAgent 1.300034.0-amzn-0

    • Delta 4.0.0-amzn-0-spark

    • Iceberg 1.10.0-amzn-spark-0

    • Essa versão vem com o Amazon Corretto 17 (construído no OpenJDK) por padrão para aplicativos compatíveis com o Corretto 17 (JDK 17).

  • Limitações da versão prévia - Os seguintes recursos não estão disponíveis nesta versão prévia:

    • Recursos interativos e de integração: SageMaker Unified Studio, integração com EMR Studio, Spark Connect, Livy JupyterEnterpriseGateway e não são suportados.

    • Formatos de tabela e controle de acesso: Hudi, Delta Universal Format e controle de acesso refinado (FGAC) com filtragem e operadores em nível de linha ou coluna não são suportados. DDL/DML

    • Conectores de dados: spark-sql-kinesis, emr-dynamodb e spark-redshift não estão disponíveis.

    • Servidor de histórico: o Persistent Spark History Server não está disponível nesta versão prévia. Os usuários ainda podem acessar a interface ativa do Spark para monitorar e depurar trabalhos ativos sem servidor em tempo real.

    • Características especializadas: As visualizações materializadas não estão disponíveis.

  • Recursos de pré-visualização - Você pode testar os seguintes recursos nesta versão prévia. Essa versão prévia não é recomendada para cargas de trabalho de produção:

    • Características do SQL: modo ANSI SQL com tratamento de tipos mais rigoroso, sintaxe SQL PIPE (|>) para operações de encadeamento, tipo de dados VARIANT para dados JSON semiestruturados, scripts SQL com instruções de fluxo de controle e variáveis de sessão e funções SQL definidas pelo usuário.

    • Aprimoramentos de streaming: API de processamento arbitrário com estado v2 com transformWithState operador, leitor de fonte de dados de estado para estado de streaming consultável (experimental) e armazenamento de estado aprimorado com ponto de verificação aprimorado do changelog do RocksDB.

    • Suporte ao formato de tabela: Apache Iceberg v3 com suporte ao tipo de dados VARIANT, integração com tabelas AWS S3 e Full Table Access (FTA) com AWS Lake Formation tabelas Iceberg, Delta Lake e Hive.

  • Documentação adicional - Para obter documentação adicional do Apache Spark, consulte a documentação de lançamento do Apache Spark 4.0.1.

Conceitos básicos

Para começar a usar a versão prévia do Apache Spark 4.0.1, crie um aplicativo EMR Serverless usando a CLI: AWS

aws emr-serverless create-application --type spark \ --release-label emr-spark-8.0-preview \ --region us-east-1 --name spark4-preview