Editores de consultas: uso de JupyterLab con Aurora DSQL - Amazon Aurora DSQL

Editores de consultas: uso de JupyterLab con Aurora DSQL

En esta guía, se proporcionan instrucciones paso a paso acerca de cómo conectar y consultar Amazon Aurora DSQL mediante JupyterLab con Python. JupyterLab es un popular entorno informático interactivo que combina código, texto y visualizaciones en un solo documento. Se usa ampliamente para aplicaciones de ciencia de datos e investigación.

Las instrucciones que aparecen a continuación tratarán los aspectos básicos del uso de Aurora DSQL tanto en una instalación local de JupyterLab como en el uso de Amazon SageMaker AI, un servicio de machine learning totalmente administrado que proporciona un entorno alojado con una interfaz de usuario para los flujos de trabajo de datos.

Introducción

Requisitos

  • Un clúster de Aurora DSQL

  • Credenciales de AWS configuradas (solo para instalación local)

  • Python versión 3.9 o superior (solo instalación local)

Uso de JupyterLab local

Para empezar a usar JupyterLab, los usuarios primero deben instalar la aplicación con el comando pip de Python:

pip install jupyterlab

A continuación, se puede abrir JupyterLab ejecutando jupyter lab. Esto abrirá la aplicación de JupyterLab en localhost:8888, accesible desde un navegador. Asegúrese de tener las credenciales de AWS configuradas en el entorno local antes de continuar.

Uso de Amazon SageMaker AI

En la consola de AWS, vaya a la página de la consola de Amazon SageMaker AI y, a continuación, a la sección Cuadernos en Aplicaciones e IDE. Desde allí, puede seleccionar Crear instancia de cuaderno para empezar a crear un entorno de SageMaker. Seleccione un tipo de instancia y una plataforma antes de hacer clic en Crear instancia de cuaderno.

Consulte la documentación de configuración de Amazon SageMaker AI para obtener más información sobre las opciones de configuración e instancia.

nota

Advertencia: El uso de Amazon SageMaker AI puede suponer cargos en la cuenta de AWS.

Cuando la instancia de SageMaker esté activa, podrá abrirla desde la sección de instancias de cuaderno con Abrir JupyterLab. Antes de empezar a utilizar Aurora DSQL en el cuaderno, debe proporcionar acceso al clúster de DSQL en el rol de IAM de la instancia de SageMaker. La forma más sencilla de hacerlo es seguir el enlace al rol de IAM en la página de instancias del cuaderno. Desde allí, puede editar las políticas adjuntas al rol de IAM de SageMaker. Consulte Autenticación y autorización para obtener más información sobre la configuración de una política de IAM para permitir el acceso a Aurora DSQL.

Conexión a Aurora DSQL mediante JupyterLab

Tras configurar una instancia de JupyterLab, los pasos para conectarse a Aurora DSQL son los mismos a nivel local y en SageMaker AI. Cree un cuaderno de Python 3 vacío, en el que pueda agregar celdas con código de Python.

En una celda de Python, descargue el certificado raíz de Amazon de la tienda de confianza oficial:

import urllib.request urllib.request.urlretrieve('https://www.amazontrust.com/repository/AmazonRootCA1.pem', 'root.pem')

Para conectarse a Aurora DSQL, instale primero el conector de Aurora DSQL para Python y el controlador de Psycopg en una celda de Python y, a continuación, impórtelo:

pip install aurora_dsql_python_connector psycopg
import aurora_dsql_psycopg as dsql

Una vez importado el conector, puede crear una configuración de DSQL y conectarse. El conector de Aurora DSQL Python gestionará automáticamente la creación de un token de autenticación en cada conexión.

config = { 'host': "your-cluster.dsql.us-east-1.on.aws", 'region': "us-east-1", 'user': "admin" } conn = dsql.connect(**config)

Al ejecutar el código, ahora debería tener una conexión de Psycopg a Aurora DSQL. A continuación, puede ejecutar consultas mediante el cursor de Psycopg y proporcionando su consulta SQL. Consulte la documentación de Psycopg para obtener más información sobre el uso de Psycopg con una base de datos compatible con Postgres. Esta consulta dará como resultado una lista de tuplas en results_list.

with conn: with conn.cursor() as cur: cur.execute("SELECT * FROM table") results_list = cur.fetchall()

Luego, puede usar marcos de Python como Pandas para analizar o visualizar los resultados de las consultas, por ejemplo:

pip install pandas import pandas as pd df = pd.DataFrame(tuples_list) print(df) print(f"Total records: {len(df)}")

cuaderno de ejemplo

En el repositorio de ejemplos de Aurora DSQL hay disponible un cuaderno de ejemplo con Aurora DSQL.

Documentación adicional

Documentación de configuración de Amazon SageMaker AI

Conector de Aurora DSQL para Python

Documentación de Pandas