As traduções são geradas por tradução automática. Em caso de conflito entre o conteúdo da tradução e da versão original em inglês, a versão em inglês prevalecerá.
Características e capacidades
Tecnologias suportadas
-
Linguagens: aplicativos Python e Scala
-
Sistemas de compilação: Maven e SBT para projetos Scala; requirements.txt, Pipfile e Setuptools para projetos Python
-
Plataformas de destino: Amazon EMR e EMR Serverless
-
Versões suportadas: oferecemos suporte às atualizações do Apache Spark da versão 2.4 para a 3.5. Os mapeamentos do modo de implantação correspondentes são os seguintes
-
Para EMR- EC2
-
Versão de origem: EMR 5.20.0 e posterior
-
Versão de destino: EMR 7.12.0 e anterior, deve ser mais recente que o EMR 5.20.0
-
-
Para EMR Serverless
-
Versão de origem: EMR Serverless 6.6.0 e posterior
-
Versão de destino: EMR Serverless 7.12.0 e versões anteriores
-
-
O que nós atualizamos
O agente de upgrade fornece atualizações abrangentes do aplicativo Spark:
-
Configuração de compilação: atualiza automaticamente os arquivos de gerenciamento de dependências (pom.xml, requirements.txt etc.)
-
Código-fonte: corrige problemas de compatibilidade da API e uso de métodos obsoletos
-
Código de teste: garante que os testes unitários e de integração funcionem com a versão de destino do Spark
-
Dependências: atualiza as dependências empacotadas para versões compatíveis com a versão de destino do EMR
-
Validação: compila e valida aplicativos em clusters EMR de destino
-
Análise de qualidade de dados: detecta diferenças de esquema, desvios estatísticos em nível de valor (min/max/mean) e incompatibilidades agregadas de contagem de linhas, com relatórios de impacto detalhados.
Regiões disponíveis
O agente de upgrade do Spark está disponível nas seguintes regiões:
-
Ásia-Pacífico: Tóquio (ap-northeast-1), Seul (ap-northeast-2), Cingapura (ap-southeast-1), Sydney (ap-southeast-2) e Mumbai (ap-southeast-1)
-
América do Norte: Canadá (ca-central-1)
-
Europa: Estocolmo (eu-north-1), Irlanda (eu-west-1), Londres (eu-west-2), Paris (eu-west-3) e Frankfurt (eu-central-1)
-
América do Sul: São Paulo (sa-east-1)
-
Estados Unidos: Virgínia do Norte (us-east-1), Ohio (us-east-2) e Oregon (us-east-2)
Escopo das atualizações e requisitos do usuário
-
Gerenciamento de cluster: o Spark Upgrade Agent se concentra nas atualizações do código do aplicativo. Os clusters EMR de destino para novas versões devem ser criados e gerenciados pelos usuários.
-
Ações do Bootstrap: O Spark Upgrade Agent não atualiza scripts de bootstrap personalizados fora do código do aplicativo Spark. Eles precisam ser atualizados pelo usuário.
-
Atualização para compilação e testes: o agente de atualização executará a compilação e a execução de seus testes de unidade e integração em seu ambiente de desenvolvimento localmente para validar que os aplicativos sejam compilados com êxito com a versão de destino do Spark. Se você tiver restrições (políticas de segurança, limitações de recursos, restrições de rede ou diretrizes corporativas) para o código do aplicativo Spark para execução local, considere usar o Amazon SageMaker Unified Studio VSCode IDE Spaces ou EC2 executar o agente de upgrade. O agente de upgrade usa seu EC2 cluster EMR-S de destino ou aplicativos EMR-S para validar e atualizar. end-to-end
-
Abordagem baseada em erros: o agente de atualização usa uma metodologia baseada em erros, fazendo uma correção por vez com base em erros de compilação ou de tempo de execução, em vez de várias correções ao mesmo tempo. Essa abordagem iterativa garante que cada problema seja tratado adequadamente antes de prosseguir para o próximo.
-
Dependências privadas: dependências instaladas a partir de repositórios de artefatos privados não podem ser atualizadas automaticamente como parte desse processo. Eles devem ser atualizados pelo usuário.
-
Recursos regionais: o agente de upgrade do Spark é regional e usa os recursos subjacentes do EMR nessa região para o processo de upgrade. Não há suporte para upgrades entre regiões.