JupyterHub - Amazon EMR

JupyterHub

Cuaderno de Jupyter es una aplicación web de código abierto que puede utilizar para crear y compartir documentos que contienen código activo, ecuaciones, visualizaciones y texto narrativo. JupyterHub le permite alojar múltiples instancias de un servidor de cuadernos de Jupyter de un único usuario. Cuando se crea un clúster con JupyterHub, Amazon EMR crea un contenedor de Docker en el nodo maestro del clúster. JupyterHub, todos los componentes necesarios para Jupyter, y Sparkmagic se ejecutan en el contenedor.

Sparkmagic es una biblioteca de kernels que permite que los blocs de notas de Jupyter interactúen con Apache Spark que se ejecuta en Amazon EMR a través de Apache Livy, que es un servidor de REST para Spark. Spark y Apache Livy se instalan automáticamente al crear un clúster con JupyterHub. El kernel de Python 3 predeterminado para Jupyter está disponible junto con los kernels de PySpark 3, PySpark y Spark que están disponibles con Sparkmagic. Puede utilizar estos kernels para ejecutar código Spark ad hoc y consultas SQL interactiva con Python y Scala. Puede instalar kernels adicionales en el contenedor de Docker manualmente. Para obtener más información, consulte Instalación de kernels y bibliotecas adicionales.

En el siguiente diagrama, se muestran los componentes de JupyterHub en Amazon EMR con los métodos de autenticación correspondientes para los usuarios de los blocs de notas y para el administrador. Para obtener más información, consulte Agregar usuarios y administradores de Cuadernos de Jupyter.

JupyterHub architecture on EMR showing user authentication and component interactions.

En la siguiente tabla, se muestra la versión de JupyterHub incluida en la última versión de la serie 7.x de Amazon EMR, junto con los componentes que Amazon EMR instala con JupyterHub.

Para ver la versión de los componentes instalados con JupyterHub en esta versión, consulte Versiones de los componentes de la versión 7.10.0.

Información de la versión de JupyterHub para emr-7.10.0
Etiqueta de versión de Amazon EMR Versión de JupyterHub Componentes instalados con JupyterHub

emr-7.10.0

JupyterHub 1.5.0

emrfs, emr-goodies, emr-ddb, hadoop-client, hadoop-hdfs-datanode, hadoop-hdfs-library, hadoop-hdfs-namenode, hadoop-kms-server, hadoop-yarn-nodemanager, hadoop-yarn-resourcemanager, hadoop-yarn-timeline-server, hudi, hudi-spark, r, spark-client, spark-history-server, spark-on-yarn, spark-yarn-slave, livy-server, jupyterhub

En la tabla siguiente, se muestra la versión de JupyterHub incluida en la última versión de la serie Amazon EMR 6.x, junto con los componentes que Amazon EMR instala con JupyterHub.

Para ver la versión de los componentes instalados con JupyterHub en esta versión, consulte Versiones de los componentes de la versión 6.15.0.

Información de la versión de JupyterHub para emr-6.15.0
Etiqueta de versión de Amazon EMR Versión de JupyterHub Componentes instalados con JupyterHub

emr-6.15.0

JupyterHub 1.5.0

aws-sagemaker-spark-sdk, emrfs, emr-goodies, emr-ddb, hadoop-client, hadoop-hdfs-datanode, hadoop-hdfs-library, hadoop-hdfs-namenode, hadoop-kms-server, hadoop-yarn-nodemanager, hadoop-yarn-resourcemanager, hadoop-yarn-timeline-server, hudi, hudi-spark, r, spark-client, spark-history-server, spark-on-yarn, spark-yarn-slave, livy-server, jupyterhub

En la tabla siguiente, se muestra la versión de JupyterHub incluida en la última versión de la serie Amazon EMR 5.x, junto con los componentes que Amazon EMR instala con JupyterHub.

Para ver la versión de los componentes instalados con JupyterHub en esta versión, consulte Versiones del componente de la versión 5.36.2.

Información de la versión de JupyterHub para emr-5.36.2
Etiqueta de versión de Amazon EMR Versión de JupyterHub Componentes instalados con JupyterHub

emr-5.36.2

JupyterHub 1.4.1

aws-sagemaker-spark-sdk, emrfs, emr-goodies, emr-ddb, hadoop-client, hadoop-hdfs-datanode, hadoop-hdfs-library, hadoop-hdfs-namenode, hadoop-kms-server, hadoop-yarn-nodemanager, hadoop-yarn-resourcemanager, hadoop-yarn-timeline-server, hudi, hudi-spark, r, spark-client, spark-history-server, spark-on-yarn, spark-yarn-slave, livy-server, jupyterhub

El kernel de Python 3 que se incluye con JupyterHub en Amazon EMR es la versión 3.6.4.

Las bibliotecas instaladas en el contenedor jupyterhub pueden variar según las versiones de lanzamiento de Amazon EMR y las versiones de AMI de Amazon EC2.

Para enumerar las bibliotecas instaladas utilizando conda
  • Ejecute el siguiente comando en la línea de comandos del nodo principal:

    sudo docker exec jupyterhub bash -c "conda list"
Para enumerar las bibliotecas instaladas utilizando pip
  • Ejecute el siguiente comando en la línea de comandos del nodo principal:

    sudo docker exec jupyterhub bash -c "pip freeze"