쿼리 편집기: Aurora DSQL과 함께 JupyterLab 사용
이 가이드에서는 Python과 함께 JupyterLab을 사용하여 Amazon Aurora DSQL을 연결하고 쿼리하는 방법에 대한 단계별 지침을 제공합니다. JupyterLab은 코드, 텍스트 및 시각화를 단일 문서로 결합하는 인기 있는 대화형 컴퓨팅 환경입니다. 데이터 과학 및 연구 애플리케이션에 널리 사용됩니다.
아래 지침은 JupyterLab의 로컬 설치에서 Aurora DSQL 사용의 기본 사항과 데이터 워크플로를 위한 UI를 통해 호스팅 환경을 제공하는 완전 관리형 기계 학습 서비스인 Amazon SageMaker AI를 사용하는 방법을 다룹니다.
시작하기
요구 사항
-
Aurora DSQL 클러스터
-
AWS 자격 증명 구성(로컬 설치만 해당)
-
Python 버전 3.9 이상(로컬 설치만 해당)
로컬 JupyterLab 사용
JupyterLab을 시작하려면 사용자는 먼저 Python의 pip를 사용하여 애플리케이션을 설치해야 합니다.
pip install jupyterlab
그런 다음 jupyter lab을 실행하여 JupyterLab을 열 수 있습니다. 그러면 브라우저에서 액세스할 수 있는 localhost:8888에서 JupyterLab 애플리케이션이 열립니다. 계속하기 전에 로컬 환경에 AWS 자격 증명이 구성되어 있는지 확인합니다.
Amazon SageMaker AI 사용
AWS Console에서 Amazon SageMaker AI 콘솔 페이지로 이동한 다음 애플리케이션 및 IDE 아래의 노트북 섹션으로 이동합니다. 여기에서 노트북 인스턴스 생성을 선택하여 SageMaker 환경 생성을 시작할 수 있습니다. 노트북 인스턴스 생성을 클릭하기 전에 인스턴스 유형과 플랫폼을 선택합니다.
설정 및 인스턴스 옵션에 대한 자세한 내용은 Amazon SageMaker AI 설정 설명서를 참조하세요.
참고
경고: Amazon SageMaker AI를 사용하면 AWS 계정에 요금이 부과될 수 있습니다.
SageMaker 인스턴스가 활성화되면 JupyterLab 열기을 통해 노트북 인스턴스 섹션에서 인스턴스를 열 수 있습니다. 노트북에서 Aurora DSQL을 시작하기 전에 SageMaker 인스턴스의 IAM 역할에서 DSQL 클러스터에 대한 액세스를 제공해야 합니다. 가장 간단한 방법은 노트북 인스턴스 페이지의 IAM 역할에 대한 링크를 따르는 것입니다. 여기에서 SageMaker IAM 역할에 연결된 정책을 편집할 수 있습니다. Aurora DSQL에 대한 액세스를 허용하도록 IAM 정책을 구성하는 방법에 대한 자세한 내용은 인증 및 권한 부여를 참조하세요.
JupyterLab을 사용하여 Aurora DSQL에 연결
JupyterLab 인스턴스를 설정한 후 Aurora DSQL에 연결하는 단계는 로컬 및 SageMaker AI에서 동일합니다. Python 코드를 사용하여 셀을 추가할 수 있는 빈 Python 3 노트북을 생성합니다.
Python 셀에서 공식 트러스트 스토어에서 Amazon 루트 인증서를 다운로드합니다.
import urllib.request urllib.request.urlretrieve('https://www.amazontrust.com/repository/AmazonRootCA1.pem', 'root.pem')
Aurora DSQL에 연결하려면 먼저 Python용 Aurora DSQL 커넥터
pip install aurora_dsql_python_connector psycopg
import aurora_dsql_psycopg as dsql
커넥터를 가져온 상태에서 DSQL 구성을 생성하고 연결할 수 있습니다. Aurora DSQL Python 커넥터는 각 연결에서 인증 토큰 생성을 자동으로 처리합니다.
config = { 'host': "your-cluster.dsql.us-east-1.on.aws", 'region': "us-east-1", 'user': "admin" } conn = dsql.connect(**config)
코드를 실행하면 이제 Aurora DSQL에 Psycopg로 연결할 수 있습니다. 그런 다음 Psycopg 커서를 사용하고 SQL 쿼리를 제공하여 쿼리를 실행할 수 있습니다. Postgres 호환 데이터베이스에서 Psycopg를 사용하는 방법에 대한 자세한 내용은 Psycopg 설명서results_list에 튜플 목록을 생성합니다.
with conn: with conn.cursor() as cur: cur.execute("SELECT * FROM table") results_list = cur.fetchall()
그런 다음 Pandas
pip install pandas import pandas as pd df = pd.DataFrame(tuples_list) print(df) print(f"Total records: {len(df)}")
예제 노트북
Aurora DSQL을 사용하는 샘플 노트북은 Aurora DSQL 샘플 리포지토리에서 사용할 수 있습니다.