Amazon EMR Studio
Amazon EMR Studio es un entorno de desarrollo integrado (IDE) basado en web para cuadernos de Jupyter completamente administrados que se ejecutan en clústeres de Amazon EMR. Puede configurar un EMR Studio para que su equipo desarrolle, visualice y depure aplicaciones escritas en R, Python, Scala y PySpark. EMR Studio está integrado con AWS Identity and Access Management (IAM) e IAM Identity Center para que los usuarios puedan iniciar sesión con sus credenciales corporativas.
Puede crear un EMR Studio sin costo alguno. Cuando utiliza EMR Studio, se aplican cargos por almacenamiento de Amazon S3 y por clústeres de Amazon EMR. Para obtener detalles y aspectos destacados del producto, consulte la página de servicio de Amazon EMR Studio
Características principales de EMR Studio
Amazon EMR Studio ofrece las siguientes características:
-
Autentique a los usuarios con AWS Identity and Access Management (IAM) o con AWS IAM Identity Center, con o sin la propagación de identidades de confianza y su proveedor de identidad empresarial.
-
Lance clústeres de Amazon EMR y acceda a ellos bajo demanda para ejecutar trabajos del cuaderno de Jupyter.
-
Conéctese a Amazon EMR en los clústeres de EKS para enviar el trabajo como ejecuciones de trabajo.
-
Explore y guarde cuadernos de muestra. Para obtener más información sobre los cuadernos de muestra, consulte el repositorio de GitHub con ejemplos de Cuadernos de EMR Studio
. -
Analice los datos con Python, PySpark, Spark Scala, Spark R o SparkSQL e instale kernels y bibliotecas personalizados.
-
Colabore en tiempo real con otros usuarios del mismo espacio de trabajo. Para obtener más información, consulte Configuración de la colaboración en el espacio de trabajo en EMR Studio.
-
Utilice el Explorador de SQL de EMR Studio para examinar su catálogo de datos, ejecutar consultas SQL y descargar los resultados antes de trabajar con los datos de un cuaderno.
-
Ejecute cuadernos parametrizados como parte de los flujos de trabajo programados con una herramienta de orquestación como Apache Airflow o Amazon Managed Workflows para Apache Airflow. Para obtener más información, consulte Orquestación de trabajos de análisis en Cuadernos de EMR mediante MWAA
en el blog de macrodatos de AWS. -
Enlace repositorios de código como GitHub y BitBucket.
-
Haga un seguimiento y depure las tareas mediante el servidor de historial de Spark, la interfaz de usuario de Tez o el servidor de cronogramas YARN.
EMR Studio cumple con los requisitos de la HIPAA y cuenta con la certificación de HITRUST CSF y de SOC 2. Para obtener más información acerca de la conformidad con la HIPAA de los servicios de AWS, consulte https://aws.amazon.com/compliance/hipaa-compliance/
EMR Studio también es compatible con FedRamp. Para obtener más información sobre los programas de conformidad que Amazon EMR cumple, consulte Validación de conformidad para Amazon EMR. Para obtener más información sobre programas adicionales de conformidad para los servicios de AWS, consulte Servicios de AWS en el ámbito del programa de conformidad
Entorno de desarrollo integrado de Estudio unificado de Amazon SageMaker
Estudio unificado de Amazon SageMaker proporciona un entorno de desarrollo integrado (IDE) para sus cuadernos de Jupyter que se ejecuta en Amazon EMR en clústeres de EC2 o mediante conexiones informáticas EMR sin servidor. Al combinar la potencia de Amazon EMR con las funcionalidades de flujo de trabajo integrales de Estudio unificado de Amazon SageMaker, los equipos pueden agilizar la preparación de datos, el desarrollo de canalizaciones y la experimentación con el machine learning en un único entorno. Amazon EMR en SageMaker revoluciona el procesamiento de macrodatos, ya que admite marcos de código abierto, como Apache Spark, Trino y Apache Flink. Elimine las complejidades de la administración de la infraestructura y, al mismo tiempo, escale las cargas de trabajo de análisis sin esfuerzo. Para obtener más información, consulte Amazon EMR
Historial de características de Amazon EMR Studio
En esta tabla se enumeran las actualizaciones de la capacidad de Escalado administrado de Amazon EMR.
| Fecha de lanzamiento de la nueva versión | Funcionalidad |
|---|---|
| de enero de 5, 2024 |
Se ha añadido compatibilidad con EMR Studio en AWS GovCloud (Este de EE. UU.) y AWS GovCloud (Oeste de EE. UU.). |
| de noviembre de 26, 2023 |
Se agregó la compatibilidad con la propagación de identidades de confianza para EMR Studio con la autenticación de IAM Identity Center. |
| de octubre de 26, 2023 |
Se agregó la posibilidad de crear una aplicación de EMR sin servidor con capacidad interactiva. |
| de febrero de 28, 2023 |
Se agregó compatibilidad con claves de AWS KMS administrada por el cliente para el almacenamiento de registros de aplicaciones para aplicaciones de EMR sin servidor. |
| de febrero de 23, 2023 |
Se agregó la creación de roles de IAM con un solo clic para el envío de trabajos de EMR sin servidor. Se agregó la búsqueda de ECR para cuando se selecciona una imagen personalizada para las aplicaciones de EMR sin servidor. |
| de enero de 27, 2023 |
Los cuadernos de ejecución Headless pueden hacer un seguimiento del progreso de la ejecución de cada celda con magia de |
| de enero de 23, 2023 |
Las aplicaciones persistentes se han optimizado para acelerar los tiempos de lanzamiento. |