Amazon EMR Studio - Amazon EMR

Amazon EMR Studio

O Amazon EMR Studio é um ambiente de desenvolvimento integrado (IDE) baseado na Web para cadernos Jupyter totalmente gerenciados que são executados em clusters do Amazon EMR. Você pode configurar um EMR Studio para sua equipe desenvolver, visualizar e depurar aplicações escritas em R, Python, Scala e PySpark. O EMR Studio é integrado ao AWS Identity and Access Management (IAM) e ao Centro de Identidade do IAM para que os usuários possam fazer login usando suas credenciais corporativas.

É possível criar um EMR Studio gratuitamente. As cobranças aplicáveis ​​para o armazenamento do Amazon S3 e para os clusters do Amazon EMR se aplicam quando você usa o EMR Studio. Para obter detalhes e destaques do produto, consulte a página de serviços do Amazon EMR Studio.

Principais recursos do EMR Studio

O Amazon EMR Studio oferece os seguintes recursos:

  • Autentique usuários com o AWS Identity and Access Management (IAM) ou o AWS IAM Identity Center com ou sem a propagação de identidade confiável e seu provedor de identidade empresarial.

  • Acesse e execute clusters do Amazon EMR sob demanda para executar trabalhos do caderno Jupyter.

  • Conexão aos clusters do Amazon EMR no EKS para enviar trabalhos à medida que o trabalho é executado.

  • Navegação e salvamento de cadernos de exemplo. Para obter mais informações sobre cadernos de exemplo, consulte o repositório do GitHub para Cadernos de exemplo do EMR Studio.

  • Análise dados usando Python, PySpark, Spark Scala, Spark R ou Spark SQL e instalação de kernels e de bibliotecas personalizados.

  • Colaboração em tempo real com outros usuários no mesmo Workspace. Para obter mais informações, consulte Configuração da colaboração no Workspace no EMR Studio.

  • Uso do SQL Explorer do EMR Studio para navegar em seu catálogo de dados, executar consultas SQL e fazer download de resultados antes do trabalho com os dados em um caderno.

  • Execução de cadernos parametrizados como parte dos fluxos de trabalho programados com uma ferramenta de orquestração, como o Apache Airflow ou o Amazon Managed Workflows for Apache Airflow. Para obter mais informações, consulte Orchestrating analytics jobs on EMR Notebooks using MWAA no blog de Big Data da AWS.

  • Vinculação de repositórios de código, como GitHub e BitBucket.

  • Rastreamento e depuração de trabalhos usando o servidor de histórico do Spark, a interface do usuário do Tez ou o servidor de linha do tempo do YARN.

O EMR Studio é elegível para a HIPAA e certificado pela HITRUST CSF e pelo SOC 2. Para obter mais informações sobre a conformidade com a HIPAA para serviços da AWS, consulte https://aws.amazon.com/compliance/hipaa-compliance/. Para saber mais sobre a conformidade da HITRUST CSF para serviços da AWS, consulte https://aws.amazon.com/compliance/hitrust/.

O EMR Studio também está em conformidade com o FedRAMP. Para obter mais informações sobre os programas de conformidade com os quais o Amazon EMR está de acordo, consulte Compliance validation for Amazon EMR. Para obter mais informações sobre outros programas de conformidade para serviços da AWS, consulte Serviços da AWS no escopo por programa de conformidade.

Ambiente de desenvolvimento integrado do Estúdio Unificado Amazon SageMaker.

O Estúdio Unificado Amazon SageMaker fornece um ambiente de desenvolvimento integrado (IDE) para seus cadernos Jupyter que é executado em clusters do Amazon EMR no EC2 ou usando conexões de computação do EMR Sem Servidor. Ao combinar o poder do Amazon EMR com os recursos de fluxo de trabalho de ponta a ponta do Estúdio Unificado Amazon SageMaker, as equipes podem simplificar a preparação de dados, o desenvolvimento de pipelines e a experimentação de ML em um único ambiente. O Amazon EMR no SageMaker revoluciona o processamento de big data ao oferecer suporte a estruturas de código aberto como Apache Spark, Trino e Apache Flink. Elimine as complexidades do gerenciamento de infraestrutura enquanto escala as workloads de analytics sem esforço. Para saber mais, consulte Amazon EMR.

Histórico de recursos do Amazon EMR Studio

Esta tabela lista as atualizações na funcionalidade de ajuste de escala gerenciado do Amazon EMR.

Data de lançamento Recurso
de janeiro de 5, 2024

Foi adicionado suporte para o EMR Studio na AWS GovCloud (Leste dos EUA) e AWS GovCloud (Oeste dos EUA).

de novembro de 26, 2023

Foi adicionado suporte à propagação de identidade confiável para o EMR Studio com a autenticação do Centro de Identidade do IAM.

de outubro de 26, 2023

Capacidade adicional de criar uma aplicação do EMR Serverless com capacidade interativa.

de fevereiro de 28, 2023

Adição de suporte para chaves gerenciadas pelo cliente do AWS KMS para o armazenamento de logs de aplicações para aplicações do EMR Sem Servidor.

de fevereiro de 23, 2023

Adição da criação de perfil do IAM com um clique para envio de trabalhos do EMR Sem Servidor. Adição de pesquisa do ECR para quando você seleciona uma imagem personalizada para aplicações do EMR Sem Servidor.

de janeiro de 27, 2023

Os cadernos de execução descentralizados podem rastrear o progresso da execução de cada célula com a mágica %execute_notebook.

de janeiro de 23, 2023

As aplicações persistentes foram otimizadas para a obtenção de tempos de inicialização mais rápidos.