기계 번역으로 제공되는 번역입니다. 제공된 번역과 원본 영어의 내용이 상충하는 경우에는 영어 버전이 우선합니다.

# 데이터 가져오기
<a name="canvas-importing-data"></a>

Amazon SageMaker Canvas는 테이블, 이미지 및 문서 데이터 가져오기를 지원합니다. 로컬 머신, Amazon S3 및 Amazon Redshift와 같은 Amazon 서비스, 외부 데이터 소스에서 데이터세트를 가져올 수 있습니다. Amazon S3에서 데이터세트를 가져올 때 모든 크기의 데이터세트를 가져올 수 있습니다. 가져온 데이터세트를 사용하여 모델을 구축하고 다른 데이터세트를 예측하세요.

사용자 지정 모델을 구축할 수 있는 각 사용 사례는 서로 다른 유형의 입력을 수용합니다. 예를 들어 단일 레이블 이미지 분류 모델을 구축하려면 이미지 데이터를 가져와야 합니다. 다양한 모델 유형과 해당 유형이 허용하는 데이터에 대한 자세한 내용은 [사용자 지정 모델 작동 방식](canvas-build-model.md)을 참조하세요. 다음 데이터 유형에 대해 SageMaker Canvas에서 데이터를 가져오고 사용자 지정 모델을 구축할 수 있습니다:
+ **테이블 형식**(CSV, 파켓 또는 테이블)
  + 범주형 - 범주형 데이터를 사용하여 2 및 3 이상의 범주형 예측을 위한 사용자 지정 범주형 예측 모델을 구축합니다.
  + 수치 - 수치 데이터를 사용하여 사용자 지정 수치 예측 모델을 구축합니다.
  + 텍스트 - 텍스트 데이터를 사용하여 사용자 지정 다중 범주 텍스트 예측 모델을 구축합니다.
  + 시계열 – 시계열 데이터를 사용하여 사용자 지정 시계열 예측 모형을 구축합니다.
+ **이미지**(JPG 또는 PNG) - 이미지 데이터를 사용하여 사용자 지정 단일 레이블 이미지 예측 모델을 구축합니다.
+ **문서**(PDF, JPG, PNG, TIFF) - 문서 데이터는 SageMaker Canvas 즉시 사용 가능 모델에서만 지원됩니다. 문서 데이터에 대한 예측을 수행할 수 있는 즉시 사용 가능 모델에 대한 자세한 내용은 [즉시 사용 가능 모델](canvas-ready-to-use-models.md)을 참조하세요.

다음 데이터 원본에서 Canvas로 데이터를 가져올 수 있습니다.
+ 컴퓨터의 로컬 파일
+ Amazon S3 버킷
+ Amazon Redshift 프로비저닝 클러스터(Amazon Redshift Serverless 제외)
+ AWS Glue Data Catalog Amazon Athena를 통해
+ Amazon Aurora
+ Amazon Relational Database Service(Amazon RDS)
+ Salesforce Data Cloud
+ Snowflake
+ Databricks, SQLServer, MariaDB 및 JDBC 커넥터를 통한 기타 인기 데이터베이스
+ SAP OData와 같은 40개 이상의 외부 SaaS 플랫폼

가져올 수 있는 데이터 소스의 전체 목록은 다음 테이블을 참조하세요.


| 소스 | Type | 지원되는 데이터 유형 | 
| --- | --- | --- | 
| 로컬 파일 업로드 | 로컬 | 테이블 형식, 이미지, 문서 | 
| Amazon Aurora | Amazon 내부 | 테이블 형식 | 
| Amazon S3 버킷 | Amazon 내부 | 테이블 형식, 이미지, 문서 | 
| Amazon RDS | Amazon 내부 | 테이블 형식 | 
| Amazon Redshift 프로비저닝 클러스터(Redshift Serverless 제외) | Amazon 내부 | 테이블 형식 | 
| AWS Glue Data Catalog (Amazon Athena를 통해) | Amazon 내부 | 테이블 형식 | 
| [Databricks](https://www.databricks.com/) | 외부 | 테이블 형식 | 
| Snowflake | 외부 | 테이블 형식 | 
| [Salesforce Data Cloud](https://www.salesforce.com/products/genie/overview/) | 외부 | 테이블 형식 | 
| SQLServer | 외부 | 테이블 형식 | 
| MySQL | 외부 | 테이블 형식 | 
| PostgreSQL | 외부 | 테이블 형식 | 
| MariaDB | 외부 | 테이블 형식 | 
| [Amplitude](https://docs.aws.amazon.com/appflow/latest/userguide/amplitude.html) | 외부 SaaS 플랫폼 | 테이블 형식 | 
| [CircleCI](https://docs.aws.amazon.com/appflow/latest/userguide/connectors-circleci.html) | 외부 SaaS 플랫폼 | 테이블 형식 | 
| [DocuSign Monitor](https://docs.aws.amazon.com/appflow/latest/userguide/connectors-docusign-monitor.html) | 외부 SaaS 플랫폼 | 테이블 형식 | 
| [Domo](https://docs.aws.amazon.com/appflow/latest/userguide/connectors-domo.html) | 외부 SaaS 플랫폼 | 테이블 형식 | 
| [Datadog](https://docs.aws.amazon.com/appflow/latest/userguide/datadog.html) | 외부 SaaS 플랫폼 | 테이블 형식 | 
| [Dynatrace](https://docs.aws.amazon.com/appflow/latest/userguide/dynatrace.html) | 외부 SaaS 플랫폼 | 테이블 형식 | 
| [Facebook 광고](https://docs.aws.amazon.com/appflow/latest/userguide/connectors-facebook-ads.html) | 외부 SaaS 플랫폼 | 테이블 형식 | 
| [Facebook Page Insights](https://docs.aws.amazon.com/appflow/latest/userguide/connectors-facebook-page-insights.html) | 외부 SaaS 플랫폼 | 테이블 형식 | 
| [Google Ads](https://docs.aws.amazon.com/appflow/latest/userguide/connectors-google-ads.html) | 외부 SaaS 플랫폼 | 테이블 형식 | 
| [Google Analytics 4](https://docs.aws.amazon.com/appflow/latest/userguide/connectors-google-analytics-4.html) | 외부 SaaS 플랫폼 | 테이블 형식 | 
| [Google Search Console](https://docs.aws.amazon.com/appflow/latest/userguide/connectors-google-search-console.html) | 외부 SaaS 플랫폼 | 테이블 형식 | 
| [GitHub](https://docs.aws.amazon.com/appflow/latest/userguide/connectors-github.html) | 외부 SaaS 플랫폼 | 테이블 형식 | 
| [GitLab](https://docs.aws.amazon.com/appflow/latest/userguide/connectors-gitlab.html) | 외부 SaaS 플랫폼 | 테이블 형식 | 
| [Infor Nexus](https://docs.aws.amazon.com/appflow/latest/userguide/infor-nexus.html) | 외부 SaaS 플랫폼 | 테이블 형식 | 
| [Instagram 광고](https://docs.aws.amazon.com/appflow/latest/userguide/connectors-instagram-ads.html) | 외부 SaaS 플랫폼 | 테이블 형식 | 
| [Jira Cloud](https://docs.aws.amazon.com/appflow/latest/userguide/connectors-jira-cloud.html) | 외부 SaaS 플랫폼 | 테이블 형식 | 
| [LinkedIn 광고](https://docs.aws.amazon.com/appflow/latest/userguide/connectors-linkedin-ads.html) | 외부 SaaS 플랫폼 | 테이블 형식 | 
| [LinkedIn 광고](https://docs.aws.amazon.com/appflow/latest/userguide/connectors-linkedin-ads.html) | 외부 SaaS 플랫폼 | 테이블 형식 | 
| [Mailchimp](https://docs.aws.amazon.com/appflow/latest/userguide/connectors-mailchimp.html) | 외부 SaaS 플랫폼 | 테이블 형식 | 
| [Marketo](https://docs.aws.amazon.com/appflow/latest/userguide/marketo.html) | 외부 SaaS 플랫폼 | 테이블 형식 | 
| [Microsoft Teams](https://docs.aws.amazon.com/appflow/latest/userguide/connectors-microsoft-teams.html) | 외부 SaaS 플랫폼 | 테이블 형식 | 
| [Mixpanel](https://docs.aws.amazon.com/appflow/latest/userguide/connectors-mixpanel.html) | 외부 SaaS 플랫폼 | 테이블 형식 | 
| [Okta](https://docs.aws.amazon.com/appflow/latest/userguide/connectors-okta.html) | 외부 SaaS 플랫폼 | 테이블 형식 | 
| [Salesforce](https://docs.aws.amazon.com/appflow/latest/userguide/salesforce.html) | 외부 SaaS 플랫폼 | 테이블 형식 | 
| [Salesforce Marketing Cloud](https://docs.aws.amazon.com/appflow/latest/userguide/connectors-salesforce-marketing-cloud.html) | 외부 SaaS 플랫폼 | 테이블 형식 | 
| [Salesforce Pardot](https://docs.aws.amazon.com/appflow/latest/userguide/pardot.html) | 외부 SaaS 플랫폼 | 테이블 형식 | 
| [SAP OData](https://docs.aws.amazon.com/appflow/latest/userguide/sapodata.html) | 외부 SaaS 플랫폼 | 테이블 형식 | 
| [SendGrid](https://docs.aws.amazon.com/appflow/latest/userguide/connectors-sendgrid.html) | 외부 SaaS 플랫폼 | 테이블 형식 | 
| [ServiceNow](https://docs.aws.amazon.com/appflow/latest/userguide/servicenow.html) | 외부 SaaS 플랫폼 | 테이블 형식 | 
| [Singular](https://docs.aws.amazon.com/appflow/latest/userguide/singular.html) | 외부 SaaS 플랫폼 | 테이블 형식 | 
| [Slack](https://docs.aws.amazon.com/appflow/latest/userguide/slack.html) | 외부 SaaS 플랫폼 | 테이블 형식 | 
| [Stripe](https://docs.aws.amazon.com/appflow/latest/userguide/connectors-stripe.html) | 외부 SaaS 플랫폼 | 테이블 형식 | 
| [Trend Micro](https://docs.aws.amazon.com/appflow/latest/userguide/trend-micro.html) | 외부 SaaS 플랫폼 | 테이블 형식 | 
| [Typeform](https://docs.aws.amazon.com/appflow/latest/userguide/connectors-typeform.html) | 외부 SaaS 플랫폼 | 테이블 형식 | 
| [Veeva](https://docs.aws.amazon.com/appflow/latest/userguide/veeva.html) | 외부 SaaS 플랫폼 | 테이블 형식 | 
| [Zendesk](https://docs.aws.amazon.com/appflow/latest/userguide/zendesk.html) | 외부 SaaS 플랫폼 | 테이블 형식 | 
| [Zendesk Chat](https://docs.aws.amazon.com/appflow/latest/userguide/connectors-zendesk-chat.html) | 외부 SaaS 플랫폼 | 테이블 형식 | 
| [Zendesk Sell](https://docs.aws.amazon.com/appflow/latest/userguide/connectors-zendesk-sell.html) | 외부 SaaS 플랫폼 | 테이블 형식 | 
| [Zendesk Sunshine](https://docs.aws.amazon.com/appflow/latest/userguide/connectors-zendesk-sunshine.html) | 외부 SaaS 플랫폼 | 테이블 형식 | 
| [Zoom Meetings](https://docs.aws.amazon.com/appflow/latest/userguide/connectors-zoom.html) | 외부 SaaS 플랫폼 | 테이블 형식 | 

데이터를 가져오는 방법에 대한 지침 및 이미지의 최대 파일 크기 등 입력 데이터 요구 사항에 관한 정보는 [데이터세트 생성](canvas-import-dataset.md)을 참조하세요.

Canvas는 또한 사용자가 시작하는 데 도움이 되는 몇 가지 샘플 데이터세트를 제공합니다. 실험할 수 있는 SageMaker AI 제공 샘플 데이터세트에 대해 자세히 알아보려면 [Use sample datasets](https://docs.aws.amazon.com/sagemaker/latest/dg/canvas-sample-datasets.html)를 참조하세요.

Canvas로 데이터세트를 가져온 후 언제든지 데이터세트를 업데이트할 수 있습니다. 수동 업데이트를 수행하거나 자동 데이터세트 업데이트 일정을 설정할 수 있습니다. 자세한 내용은 [데이터세트 업데이트](canvas-update-dataset.md) 섹션을 참조하세요.

각 데이터세트 유형에 대한 자세한 내용은 다음 섹션을 참조하세요.

**테이블 형식**

외부 데이터 원본(예: Snowflake 데이터베이스 또는 SaaS 플랫폼)에서 데이터를 가져오려면 Canvas 애플리케이션에서 데이터 원본을 인증하고 연결해야 합니다. 자세한 내용은 [데이터 원본에 연결](canvas-connecting-external.md) 섹션을 참조하세요.

Amazon S3에서 Canvas로 5GB보다 큰 데이터세트를 가져오려면 Amazon Athena를 사용하여 Amazon S3에서 데이터를 쿼리하고 샘플링하여 더 빠른 샘플링을 달성할 수 있습니다.

Canvas에서 데이터세트를 만든 후 Data Wrangler의 데이터 준비 기능을 사용하여 데이터를 준비하고 변환할 수 있습니다. Data Wrangler를 사용하여 누락된 값을 처리하고, 특성을 변환하고, 여러 데이터세트를 단일 데이터세트로 조인하는 등의 작업을 수행할 수 있습니다. 자세한 내용은 [데이터 준비](canvas-data-prep.md) 섹션을 참조하세요.

**작은 정보**  
데이터가 테이블에 정렬되어 있으면 Amazon Redshift, Amazon Athena 또는 Snowflake와 같은 다양한 소스의 데이터세트를 조인할 수 있습니다.

**이미지**

이미지 데이터세트를 편집하고 레이블 할당 또는 재할당, 이미지 추가 또는 이미지 삭제와 같은 작업을 수행하는 방법에 대한 자세한 내용은 [이미지 데이터세트 편집](canvas-edit-image.md)을 참조하세요.

# 데이터세트 생성
<a name="canvas-import-dataset"></a>

**참고**  
5GB보다 큰 데이터세트를 Amazon SageMaker Canvas로 가져오는 경우 Canvas의 [Data Wrangler 기능](canvas-data-prep.md)을 사용하여 데이터 흐름을 만드는 것이 좋습니다. Data Wrangler는 데이터 [조인](canvas-transform.md#canvas-transform-join) 및 [연결](canvas-transform.md#canvas-transform-concatenate)과 같은 고급 데이터 준비 기능을 지원합니다. 데이터 흐름을 만든 후 데이터 흐름을 Canvas 데이터세트로 내보내고 모델 빌드를 시작할 수 있습니다. 자세한 내용은 [모델 만들기를 위해 내보내기](canvas-processing-export-model.md) 섹션을 참조하세요.

다음 섹션에서는 Amazon SageMaker Canvas에서 데이터세트를 생성하는 방법을 설명합니다. 사용자 지정 모델의 경우 테이블 및 이미지 데이터용 데이터세트를 생성할 수 있습니다. 즉시 사용 가능 모델의 경우 테이블 형식 및 이미지 데이터세트와 문서 데이터세트를 사용할 수 있습니다. 다음 정보를 기반으로 워크플로를 선택합니다.
+ 범주형, 숫자형, 텍스트 및 시계열 데이터에 대한 자세한 내용은 [테이블 형식 데이터 가져오기](#canvas-import-dataset-tabular)을 참조하세요.
+ 이미지 데이터에 대한 내용은 [이미지 데이터 가져오기](#canvas-import-dataset-image)을 참조하세요.
+ 문서 데이터는 [문서 데이터 가져오기](#canvas-ready-to-use-import-document) 섹션을 참조하세요.

데이터세트는 여러 파일로 구성될 수 있습니다. 예를 들어 CSV 형식의 인벤토리 데이터 파일이 여러 개 있을 수 있습니다. 파일의 스키마(또는 열 이름 및 데이터 유형)가 일치하면 이러한 파일을 데이터세트로 함께 업로드할 수 있습니다.

Canvas는 또한 여러 버전의 데이터세트 관리를 지원합니다. 데이터세트를 만들면 첫 번째 버전은 `V1`로 레이블이 지정됩니다. 데이터세트를 업데이트하여 데이터세트의 새 버전을 만들 수 있습니다. 수동 업데이트를 수행하거나 새 데이터로 데이터세트를 업데이트하는 자동 일정을 설정할 수 있습니다. 자세한 내용은 [데이터세트 업데이트](canvas-update-dataset.md) 섹션을 참조하세요.

Canvas로 데이터를 가져올 때는 데이터가 다음 테이블의 요구 사항을 충족하는지 확인하세요. 제한 사항은 빌드하는 모델 유형에 따라 다릅니다.


| Limit | 2 범주, 3 이상 범주, 수치 및 시계열 모델 | 텍스트 예측 모델 | 이미지 예측 모델 | \$1즉시 사용 가능 모델에 대한 문서 데이터 | 
| --- | --- | --- | --- | --- | 
| 지원되는 파일 형식 |  CSV 및 Parquet(로컬 업로드, Amazon S3 또는 데이터베이스) JSON(데이터베이스)  |  CSV 및 Parquet(로컬 업로드, Amazon S3 또는 데이터베이스) JSON(데이터베이스)  | JPG, PNG | PDF, JPG, PNG, TIFF | 
| 최대 파일 크기 |  로컬 업로드: 5GB 데이터 소스: PB 단위  |  로컬 업로드: 5GB 데이터 소스: PB 단위  | 이미지당 30MB | 문서당 5MB | 
| 한 번에 업로드할 수 있는 최대 파일 수 | 30 | 30 | 해당 사항 없음 | 해당 사항 없음 | 
| 최대 열 수 | 1,000 | 1,000 | 해당 사항 없음 | 해당 사항 없음 | 
| **빠른 빌드**를 위한 최대 항목 수(행, 이미지 또는 문서) | 해당 사항 없음 | 7,500행 | 이미지 5,000개 | 해당 사항 없음 | 
| **표준 빌드**의 최대 항목 수(행, 이미지 또는 문서) | 해당 사항 없음 | 150,000행 | 이미지 18만 개 | 해당 사항 없음 | 
| **빠른 빌드**의 최소 항목 수(행) |  2 범주: 500행 3 이상 범주, 숫자, 시계열: 해당 사항 없음  | 해당 사항 없음 | 해당 사항 없음 | 해당 사항 없음 | 
| **표준 빌드**의 최소 항목 수(행, 이미지 또는 문서) | 250행 | 50행 | 이미지 50개 | 해당 사항 없음 | 
|  라벨당 최소 항목 수(행 또는 이미지) | 해당 사항 없음 | 25행 | 25행 | 해당 사항 없음 | 
| 최소 레이블 수 |  2 범주: 2 3 이상 범주: 3 숫자, 시계열: 해당 사항 없음  | 2 | 2 | 해당 사항 없음 | 
|  랜덤 샘플링을 위한 최소 샘플 크기 | 500 | 해당 사항 없음 | 해당 사항 없음 | 해당 사항 없음 | 
|  랜덤 샘플링을 위한 최대 샘플 크기 | 200,000 | 해당 사항 없음 | 해당 사항 없음 | 해당 사항 없음 | 
| 최대 레이블 수 |  2 범주: 2 3 이상 범주, 숫자, 시계열: 해당 사항 없음  | 1000 | 1000 | 해당 사항 없음 | 

\$1문서 데이터는 현재 문서 데이터를 수용하는 [즉시 사용 가능 모델](canvas-ready-to-use-models.md)에서만 지원됩니다. 문서 데이터로는 사용자 지정 모델을 만들 수 없습니다.

또한 다음과 같은 제한 사항이 있습니다.
+ Amazon S3 버킷에서 데이터를 가져올 때 Amazon S3 버킷 이름에 `.` 기호가 포함되어 있지 않아야 합니다. 버킷 이름에 `.` 기호가 포함된 경우 Canvas로 데이터를 가져오려고 할 때 오류가 발생할 수 있습니다.
+ 테이블 형식 데이터의 경우 Canvas는 로컬 업로드와 Amazon S3 가져오기 모두에 대해.csv, .parquet, .parq, .pqt 이외의 확장자를 가진 파일을 선택할 수 없습니다. CSV 파일에는 일반적인 구분 기호 또는 사용자 지정 구분 기호를 사용할 수 있으며 새 행을 나타내는 경우를 제외하고 줄 바꿈 문자가 없어야 합니다.
+ Parquet 파일을 사용하는 테이블 형식 데이터의 경우 다음 사항에 유의하세요.
  + Parquet 파일에는 지도 및 목록과 같은 복잡한 유형이 포함될 수 없습니다.
  + Parquet 파일의 열 이름에는 공백이 있어서는 안 됩니다.
  + 압축을 사용하는 경우 Parquet 파일은 gzip 또는 snappy 압축 유형을 사용해야 합니다. 이전 압축 유형에 대한 자세한 내용은 [gzip 설명서](https://www.gzip.org/) 및 [snappy 설명서](https://github.com/google/snappy)를 참조하세요.
+ 이미지 데이터의 경우 레이블이 지정되지 않은 이미지가 있으면 모델을 빌드하기 전에 이미지에 레이블을 지정해야 합니다. Canvas 애플리케이션 내에서 이미지에 레이블을 할당하는 방법에 대한 자세한 내용은 [이미지 데이터세트 편집](canvas-edit-image.md)을 참조하세요.
+ 자동 데이터세트 업데이트 또는 자동 배치 예측 구성을 설정하는 경우 Canvas 애플리케이션에서 총 20개의 구성만 생성할 수 있습니다. 자세한 내용은 [자동화를 관리하는 방법](canvas-manage-automations.md) 섹션을 참조하세요.

데이터세트를 가져온 후에는 언제든지 **데이터세트** 페이지에서 데이터세트를 볼 수 있습니다.

## 테이블 형식 데이터 가져오기
<a name="canvas-import-dataset-tabular"></a>

테이블 형식 데이터세트를 사용하여 범주형, 수치형, 시계열 예측, 텍스트 예측 모델을 구축할 수 있습니다. 이전 **데이터세트 가져오기** 섹션의 제한 사항 테이블을 검토하여 데이터가 테이블 형식 데이터에 대한 요구 사항을 충족하는지 확인하세요.

Canvas로 테이블 형식 데이터세트를 가져오려면 다음 절차를 따르세요.

1. SageMaker Canvas 애플리케이션을 엽니다.

1. 왼쪽 탐색 창에서 **데이터 세트**를 선택합니다.

1. **데이터 가져오기**를 선택합니다.

1. 드롭다운 메뉴에서 **테이블 형식**을 선택합니다.

1. 팝업 대화 상자의 **데이터 세트 이름** 필드에 데이터 세트 이름을 입력하고 **생성**을 선택합니다.

1. **테이블 형식 데이터세트 만들기** 페이지에서 **데이터 소스** 드롭다운 메뉴를 엽니다.

1. 데이터 원본을 선택합니다.
   + 컴퓨터에서 파일을 업로드하려면 **로컬 업로드**를 선택합니다.
   + Amazon S3 버킷 또는 Snowflake 데이터베이스와 같은 다른 소스에서 데이터를 가져오려면 **검색 데이터 원본 표시줄**에서 데이터 원본을 검색하세요. 그런 다음 원하는 데이터 원본의 타일을 선택합니다.
**참고**  
활성 연결이 있는 타일에서만 데이터를 가져올 수 있습니다. 사용할 수 없는 데이터 원본에 연결하려면 관리자에게 문의하세요. 관리자인 경우 [데이터 원본에 연결](canvas-connecting-external.md)을 참조하세요.

   다음 스크린샷은 **데이터 원본** 드롭다운 메뉴를 보여줍니다.  
![\[데이터 원본 드롭다운 메뉴와 검색 창에서 데이터 원본 검색을 보여주는 스크린샷입니다.\]](http://docs.aws.amazon.com/ko_kr/sagemaker/latest/dg/images/studio/canvas/import-data-choose-source.png)

1. (선택 사항) Amazon Redshift 또는 Snowflake 데이터베이스에 처음으로 연결하는 경우 연결을 생성하기 위한 대화 상자가 나타납니다. 대화 상자에 보안 인증 정보를 입력하고 **연결 생성**을 선택합니다. 이미 연결이 되어 있다면 연결을 선택하세요.

1. 데이터 원본에서 가져올 파일을 선택합니다. 로컬 업로드 및 Amazon S3에서 가져오기의 경우 파일을 선택할 수 있습니다. Amazon S3의 경우, **S3 엔드포인트 입력** 필드에 버킷 또는 S3 액세스 포인트의 S3 URI, 별칭 또는 ARN을 직접 입력한 다음 가져올 파일을 선택할 수 있는 옵션이 있습니다. 데이터베이스 소스의 경우 왼쪽 탐색 창에서 데이터 테이블을 끌어서 놓을 수 있습니다.

1. (선택 사항) SQL 쿼리를 지원하는 테이블 형식 데이터 소스(예: Amazon Redshift, Amazon Athena 또는 Snowflake)의 경우 **SQL에서 편집**을 선택하여 가져오기 전에 SQL 쿼리를 만들 수 있습니다.

   다음 스크린샷은 Amazon Athena 데이터 원본에 대한 **SQL 편집** 보기를 보여줍니다.  
![\[Amazon Athena 데이터에 대한 SQL 편집 보기의 SQL 쿼리를 보여주는 스크린샷입니다.\]](http://docs.aws.amazon.com/ko_kr/sagemaker/latest/dg/images/studio/canvas/import-data-edit-sql.png)

1. 가져오기 전에 데이터를 미리 보려면 **데이터세트 미리 보기**를 선택합니다.

1. **가져오기 설정**에서 **데이터세트 이름**을 입력하거나 기본 데이터세트 이름을 사용합니다.

1. (선택 사항) Amazon S3에서 가져오는 데이터의 경우 **고급** 설정이 표시되며 다음 필드를 입력할 수 있습니다.

   1. 데이터세트의 첫 번째 행을 열 이름으로 사용하려면 **첫 번째 행을 헤더로 사용** 옵션 토글을 켭니다. 여러 파일을 선택한 경우 이 옵션이 각 파일에 적용됩니다.

   1. CSV 파일을 가져오는 경우 **파일 인코딩(CSV)** 드롭다운에서 데이터세트 파일의 인코딩을 선택합니다. `UTF-8`이 기본값입니다.

   1. **구분 기호** 드롭다운에서 데이터의 각 셀을 구분하는 구분 기호를 선택합니다. 기본 구분 기호는 `,`입니다. 사용자 지정 구분 기호를 지정할 수도 있습니다.

   1. Canvas가 전체 데이터세트에서 다중 라인 셀을 수동으로 구문 분석하도록 하려면 **다중 라인 감지**를 선택합니다. 기본적으로 이 옵션은 선택되지 않으며 Canvas는 데이터 샘플을 가져와 다중 라인 지원을 사용할지를 결정합니다. 하지만 Canvas는 샘플에서 다중 라인 셀을 감지하지 못할 수 있습니다. 다중 라인 셀이 있는 경우 **다중 라인 감지** 옵션을 선택하여 Canvas가 전체 데이터세트에서 다중 라인 셀을 확인하도록 하는 것이 좋습니다.

1. 데이터를 가져올 준비가 되면 **데이터세트 만들기**를 선택합니다.

데이터 세트를 Canvas로 가져오는 동안 **데이터 세트** 페이지에 나열된 데이터 세트를 확인할 수 있습니다. 이 페이지에서 [데이터세트 세부 정보 보기](#canvas-view-dataset-details)을 수행할 수 있습니다.

데이터 세트 **상태**가 `Ready`로 표시되면 Canvas가 데이터를 성공적으로 가져온 것이며 [모델 구축](https://docs.aws.amazon.com/sagemaker/latest/dg/canvas-build-model.html)을 진행할 수 있습니다.

Amazon Redshift 데이터베이스 또는 SaaS 커넥터와 같은 데이터 원본에 연결되어 있는 경우 해당 연결로 돌아갈 수 있습니다. Amazon Redshift와 Snowflake의 경우 다른 데이터세트를 생성하고 **데이터 가져오기** 페이지로 돌아가서 해당 연결의 **데이터 원본** 타일을 선택하여 다른 연결을 추가할 수 있습니다. 드롭다운 메뉴에서 이전 연결을 열거나 **연결 추가**를 선택할 수 있습니다.

**참고**  
SaaS 플랫폼의 경우 데이터 원본당 하나의 연결만 가질 수 있습니다.

## 이미지 데이터 가져오기
<a name="canvas-import-dataset-image"></a>

이미지 데이터세트를 사용하면 이미지의 레이블을 예측하는 단일 레이블 이미지 예측 사용자 지정 모델을 만들 수 있습니다. 이전 **데이터세트 가져오기** 섹션의 제한 사항을 검토하여 이미지 데이터세트가 이미지 데이터에 대한 요구사항을 충족하는지 확인하세요.

**참고**  
로컬 파일 업로드 또는 Amazon S3 버킷에서만 이미지 데이터세트를 가져올 수 있습니다. 또한 이미지 데이터세트의 경우 라벨당 최소 25개의 이미지가 있어야 합니다.

다음 절차에 따라 Canvas로 이미지 데이터세트를 가져옵니다.

1. SageMaker Canvas 애플리케이션을 엽니다.

1. 왼쪽 탐색 창에서 **데이터 세트**를 선택합니다.

1. **데이터 가져오기**를 선택합니다.

1. 드롭다운 메뉴에서 **이미지**를 선택합니다.

1. 팝업 대화 상자의 **데이터 세트 이름** 필드에 데이터 세트 이름을 입력하고 **생성**을 선택합니다.

1. **가져오기** 페이지에서 **데이터 원본** 드롭다운 메뉴를 엽니다.

1. 데이터 원본을 선택합니다. 컴퓨터에서 파일을 업로드하려면 **로컬 업로드**를 선택합니다. Amazon S3에서 파일을 가져오려면 **Amazon S3**를 선택합니다.

1. 컴퓨터 또는 Amazon S3 버킷에서 업로드하려는 이미지 또는 이미지 폴더를 선택합니다.

1. 데이터를 가져올 준비가 되면 **데이터 가져오기**를 선택합니다.

데이터 세트를 Canvas로 가져오는 동안 **데이터 세트** 페이지에 나열된 데이터 세트를 확인할 수 있습니다. 이 페이지에서 [데이터세트 세부 정보 보기](#canvas-view-dataset-details)을 수행할 수 있습니다.

데이터 세트 **상태**가 `Ready`로 표시되면 Canvas가 데이터를 성공적으로 가져온 것이며 [모델 구축](https://docs.aws.amazon.com/sagemaker/latest/dg/canvas-build-model.html)을 진행할 수 있습니다.

모델을 만들 때 이미지 데이터세트를 편집하고, 라벨을 할당 또는 재할당하고, 이미지를 추가하거나, 데이터세트에서 이미지를 삭제할 수 있습니다. 이미지 데이터세트를 편집하는 방법에 대한 자세한 내용은 [이미지 데이터세트 편집](canvas-edit-image.md)을 참조하세요.

## 문서 데이터 가져오기
<a name="canvas-ready-to-use-import-document"></a>

비용 분석, 신원 증명서 분석, 문서 분석 및 문서 쿼리를 위한 즉시 사용 가능 모델은 문서 데이터를 지원합니다. 문서 데이터로는 사용자 지정 모델을 구축할 수 없습니다.

문서 데이터세트를 사용하여 비용 분석, 신원 증명서 분석, 문서 분석, 문서 쿼리에 대해 즉시 사용 가능 모델로 예측을 생성할 수 있습니다. [데이터세트 생성](#canvas-import-dataset) 섹션의 제한 테이블을 검토하여 문서 데이터세트가 문서 데이터에 대한 요구 사항을 충족하는지 확인하세요.

**참고**  
로컬 파일 업로드 또는 Amazon S3 버킷에서만 문서 데이터세트를 가져올 수 있습니다.

Canvas에 문서 데이터세트를 가져오려면 다음 절차를 따르세요.

1. SageMaker Canvas 애플리케이션을 엽니다.

1. 왼쪽 탐색 창에서 **데이터 세트**를 선택합니다.

1. **데이터 가져오기**를 선택합니다.

1. 드롭다운 메뉴에서 **문서**를 선택합니다.

1. 팝업 대화 상자의 **데이터 세트** 이름 필드에 데이터 세트 이름을 입력하고 **생성**을 선택합니다.

1. **가져오기** 페이지에서 **데이터 원본** 드롭다운 메뉴를 엽니다.

1. 데이터 원본을 선택합니다. 컴퓨터에서 파일을 업로드하려면 **로컬 업로드**를 선택합니다. Amazon S3에서 파일을 가져오려면 **Amazon S3**를 선택합니다.

1. 컴퓨터 또는 Amazon S3 버킷에서 업로드하려는 문서 파일을 선택합니다.

1. 데이터를 가져올 준비가 되면 **데이터 가져오기**를 선택합니다.

데이터 세트를 Canvas로 가져오는 동안 **데이터 세트** 페이지에 나열된 데이터 세트를 확인할 수 있습니다. 이 페이지에서 [데이터세트 세부 정보 보기](#canvas-view-dataset-details)을 수행할 수 있습니다.

데이터세트 **상태**가 `Ready`로 표시되면 Canvas가 데이터를 성공적으로 가져온 것입니다.

**데이터세트** 페이지에서 데이터세트를 선택하여 미리 볼 수 있으며, 데이터세트의 처음 100개 문서가 표시됩니다.

## 데이터세트 세부 정보 보기
<a name="canvas-view-dataset-details"></a>


각 데이터세트에 대해 데이터세트의 모든 파일, 데이터세트의 버전 기록, 데이터세트의 자동 업데이트 구성을 볼 수 있습니다. **데이터세트** 페이지에서 [데이터세트 업데이트](canvas-update-dataset.md)또는 [사용자 지정 모델 작동 방식](canvas-build-model.md)등의 작업을 시작할 수도 있습니다.

데이터세트의 세부정보를 보려면 다음 작업을 수행합니다.

1. SageMaker Canvas 애플리케이션을 엽니다.

1. 왼쪽 탐색 창에서 **데이터 세트**를 선택합니다.

1. 데이터세트 목록에서 데이터세트를 선택합니다.

**데이터** 탭에서 데이터 미리 보기를 볼 수 있습니다. **데이터세트** 세부 정보를 선택하면 데이터세트에 포함된 모든 파일을 볼 수 있습니다. 파일을 선택하면 미리 보기에서 해당 파일의 데이터만 볼 수 있습니다. 이미지 데이터세트의 경우 미리 보기에는 데이터세트의 처음 100개 이미지만 표시됩니다.

**버전 기록** 탭에서 데이터세트의 모든 버전 목록을 볼 수 있습니다. 데이터세트를 업데이트할 때마다 새 버전이 만들어집니다. 데이터세트 업데이트에 대한 자세한 내용은 [데이터세트 업데이트](canvas-update-dataset.md)을 참조하세요. 다음 스크린샷은 Canvas 애플리케이션의 **버전 기록** 탭을 보여줍니다.

![\[데이터세트 버전 목록이 있는 데이터세트의 버전 기록 탭 스크린샷입니다.\]](http://docs.aws.amazon.com/ko_kr/sagemaker/latest/dg/images/studio/canvas/canvas-version-history.png)


**자동 업데이트** 탭에서 데이터세트 자동 업데이트를 활성화하고 데이터세트를 정기적으로 업데이트하도록 구성을 설정할 수 있습니다. 데이터세트에 대한 자동 업데이트를 설정하는 방법에 대한 자세한 내용은 [데이터세트 자동 업데이트 구성](canvas-update-dataset-auto.md)을 참조하세요. 다음 스크린샷은 **자동 업데이트**가 켜진 자동 업데이트 탭과 데이터세트에서 수행된 자동 업데이트 작업 목록을 보여줍니다.

![\[활성화된 자동 업데이트 및 자동 업데이트 작업 목록을 보여 주는 데이터세트의 자동 업데이트 탭\]](http://docs.aws.amazon.com/ko_kr/sagemaker/latest/dg/images/studio/canvas/canvas-auto-updates.png)


# 데이터세트 업데이트
<a name="canvas-update-dataset"></a>

Amazon SageMaker Canvas로 초기 데이터 세트를 가져온 후, 데이터 세트에 추가하려는 추가 데이터가 있을 수 있습니다. 예를 들어, 매주 말에 데이터 세트에 추가하려는 인벤토리 데이터를 얻을 수 있습니다. 데이터를 여러 번 가져오는 대신 기존 데이터 세트를 업데이트하고 데이터 세트에 파일을 추가하거나 제거할 수 있습니다.

**참고**  
로컬 업로드 또는 Amazon S3를 통해 가져온 데이터 세트만 업데이트할 수 있습니다.

데이터세트를 수동 또는 자동으로 업데이트할 수 있습니다. 자동 데이터세트 업데이트에 대한 자세한 내용은 [데이터세트 자동 업데이트 구성](canvas-update-dataset-auto.md) 섹션을 참조하세요.

데이터 세트를 업데이트할 때마다 Canvas는 데이터 세트의 새 버전을 생성합니다. 모델을 구축하거나 예측을 생성하는 데에는 최신 버전의 데이터 세트만 사용할 수 있습니다. 데이터 세트의 버전 기록을 보는 방법에 대한 자세한 내용은 [데이터세트 세부 정보 보기](canvas-import-dataset.md#canvas-view-dataset-details)을 참조하세요.

자동화된 일괄 예측과 함께 데이터 세트 업데이트를 사용할 수도 있습니다.이렇게 하면 데이터 세트를 업데이트할 때마다 배치 예측 작업이 시작됩니다. 자세한 내용은 [SageMaker Canvas의 배치 예측](canvas-make-predictions-batch.md) 섹션을 참조하세요.

다음 섹션에서는 데이터세트를 수동으로 업데이트하는 방법을 설명합니다.

## 데이터세트 수동 업데이트
<a name="canvas-update-dataset-manual"></a>

수동 업데이트를 하려면 다음을 수행합니다.

1. SageMaker Canvas 애플리케이션을 엽니다.

1. 왼쪽 탐색 창에서 **데이터 세트**를 선택합니다.

1. 데이터 세트 목록에서 업데이트하려는 데이터 세트를 선택합니다.

1. **데이터세트 업데이트** 드롭다운 메뉴를 선택하고 **수동 업데이트**를 선택합니다. 이제 데이터 가져오기 워크플로로 이동하게 됩니다.

1. **데이터 원본** 드롭다운 메뉴에서 **로컬 업로드** 또는 **Amazon S3**를 선택합니다.

1. 페이지에는 데이터 미리보기가 표시됩니다. 여기에서 데이터세트에 파일을 추가하거나 제거할 수 있습니다. 테이블 형식 데이터를 가져오는 경우 새 파일의 스키마(열 이름 및 데이터 유형)가 기존 파일의 스키마와 일치해야 합니다. 또한 새 파일은 최대 데이터세트 크기 또는 파일 크기를 초과해서는 안 됩니다. 이러한 제한에 대한 자세한 내용은 [데이터세트 가져오기](https://docs.aws.amazon.com/sagemaker/latest/dg/canvas-import-dataset.html)를 참조하세요.
**참고**  
데이터세트에 있는 기존 파일과 이름이 같은 파일을 추가하면 새 파일이 파일의 이전 버전을 덮어씁니다.

1. 변경사항을 저장할 준비가 되면 **데이터세트 업데이트**를 선택합니다.

이제 데이터세트의 새 버전이 생겼을 것입니다.

**데이터세트** 페이지에서 **버전 기록** 탭을 선택하면 데이터세트의 모든 버전과 수동 및 자동 업데이트 기록을 모두 볼 수 있습니다.

# 데이터세트 자동 업데이트 구성
<a name="canvas-update-dataset-auto"></a>

Amazon SageMaker Canvas로 초기 데이터 세트를 가져온 후, 데이터 세트에 추가하려는 추가 데이터가 있을 수 있습니다. 예를 들어, 매주 말에 데이터 세트에 추가하려는 인벤토리 데이터를 얻을 수 있습니다. 데이터를 여러 번 가져오는 대신 기존 데이터 세트를 업데이트하고 데이터 세트에 파일을 추가하거나 제거할 수 있습니다.

**참고**  
로컬 업로드 또는 Amazon S3를 통해 가져온 데이터 세트만 업데이트할 수 있습니다.

데이터세트 자동 업데이트를 사용하면 Canvas가 사용자가 지정한 빈도로 파일을 확인하는 위치를 지정합니다. 업데이트 중에 새 파일을 가져오는 경우 파일의 스키마가 기존 데이터세트와 정확히 일치해야 합니다.

데이터 세트를 업데이트할 때마다 Canvas는 데이터 세트의 새 버전을 생성합니다. 모델을 구축하거나 예측을 생성하는 데에는 최신 버전의 데이터 세트만 사용할 수 있습니다. 데이터 세트의 버전 기록을 보는 방법에 대한 자세한 내용은 [데이터세트 세부 정보 보기](canvas-import-dataset.md#canvas-view-dataset-details)을 참조하세요.

자동화된 일괄 예측과 함께 데이터 세트 업데이트를 사용할 수도 있습니다.이렇게 하면 데이터 세트를 업데이트할 때마다 배치 예측 작업이 시작됩니다. 자세한 내용은 [SageMaker Canvas의 배치 예측](canvas-make-predictions-batch.md) 섹션을 참조하세요.

다음 섹션에서는 데이터세트를 자동으로 업데이트하는 방법을 설명합니다.

자동 업데이트는 지정된 빈도로 데이터세트를 업데이트하도록 Canvas의 구성을 설정하는 것입니다. 데이터세트에 추가하려는 새 데이터 파일을 정기적으로 받는 경우 이 옵션을 사용하는 것이 좋습니다.

자동 업데이트 구성을 설정할 때 파일을 업로드할 Amazon S3 위치와 Canvas가 위치를 확인하고 파일을 가져오는 빈도를 지정합니다. 데이터세트를 업데이트하는 Canvas의 각 인스턴스를 *작업*이라고 합니다. 각 작업에 대해 Canvas는 Amazon S3 위치에 있는 모든 파일을 가져옵니다. 데이터세트에 있는 기존 파일과 이름이 같은 새 파일이 있는 경우 Canvas는 이전 파일을 새 파일로 덮어씁니다.

자동 데이터세트 업데이트의 경우 Canvas는 스키마 검증을 수행하지 않습니다. 자동 업데이트 중에 가져온 파일의 스키마가 기존 파일의 스키마와 일치하지 않거나 크기 제한을 초과하는 경우(파일 크기 제한 테이블은 [데이터세트 가져오기](https://docs.aws.amazon.com/sagemaker/latest/dg/canvas-import-dataset.html) 참조) 작업을 실행할 때 오류가 발생합니다.

**참고**  
Canvas 애플리케이션에서는 최대 20개의 자동 구성만 설정할 수 있습니다. 또한 Canvas는 Canvas 애플리케이션에 로그인한 상태에서만 자동 업데이트를 수행합니다. Canvas 애플리케이션에서 로그아웃하면 다시 로그인할 때까지 자동 업데이트가 일시 중지됩니다.

데이터세트에 대한 자동 업데이트를 구성하려면 다음을 수행합니다.

1. SageMaker Canvas 애플리케이션을 엽니다.

1. 왼쪽 탐색 창에서 **데이터 세트**를 선택합니다.

1. 데이터 세트 목록에서 업데이트하려는 데이터 세트를 선택합니다.

1. **데이터세트 업데이트** 드롭다운 메뉴를 선택하고 **자동 업데이트**를 선택합니다. 데이터세트의 **자동 업데이트** 탭으로 이동합니다.

1. **자동 업데이트 활성화** 토글을 켭니다.

1. **데이터 원본 지정**에 파일을 정기적으로 업로드하려는 폴더의 Amazon S3 경로를 입력합니다.

1. **빈도 선택**에서 **시간별**, **주별** 또는 **일별**을 선택합니다.

1. **시작 시간 지정**의 경우 달력 및 시간 선택기를 사용하여 첫 번째 자동 업데이트 작업을 시작할 시간을 선택합니다.

1. 자동 업데이트 구성을 생성할 준비가 되면 **저장**을 선택합니다.

Canvas는 지정된 시작 시간에 자동 업데이트 주기의 첫 번째 작업을 시작합니다.

# 자동 데이터세트 업데이트 작업 보기
<a name="canvas-update-dataset-auto-view"></a>

Amazon SageMaker Canvas에서 데이터세트 자동 업데이트의 작업 기록을 보려면 데이터세트 세부 정보 페이지에서 **자동 업데이트** 탭을 선택합니다.

데이터세트에 대한 각 자동 업데이트는 **작업 기록** 섹션 아래의 **자동 업데이트** 탭에 작업으로 표시됩니다. 각 작업에 대해 다음을 볼 수 있습니다.
+ **작업 생성됨** - Canvas가 데이터세트 업데이트를 시작한 시점의 타임스탬프입니다.
+ **파일** - 데이터세트에 있는 파일 수입니다.
+ **셀(열x행)** - 데이터세트의 열과 행 수입니다.
+ **상태** - 업데이트 이후의 데이터세트 상태입니다. 상태가 **준비**이면 작업이 성공한 것입니다. 어떤 이유로든 작업이 실패하면 상태가 **실패**로 표시되며, 상태 위에 마우스를 올려 놓으면 자세한 내용을 볼 수 있습니다.

# 자동 데이터 세트 업데이트 구성 수정
<a name="canvas-update-dataset-auto-edit"></a>

업데이트 빈도 변경과 같이 데이터 세트의 자동 업데이트 구성을 변경하고자 할 수 있습니다. 자동 업데이트 구성을 꺼서 데이터 세트에 대한 업데이트를 일시 중지할 수도 있습니다.

데이터세트의 자동 업데이트 구성을 변경하려면 데이터세트의 **자동 업데이트** 탭으로 이동하고 **편집**을 선택하여 구성을 변경합니다.

데이터 세트 업데이트를 일시 중지하려면 자동 구성을 끄세요. 데이터세트의 **자동 업데이트** 탭으로 이동한 다음 **자동 업데이트 활성화** 토글을 끄면 자동 업데이트를 끌 수 있습니다. 언제든지 이 토글을 다시 켜서 업데이트 일정을 재개할 수 있습니다.

구성을 삭제하는 방법에 대해서는 [자동 구성 삭제](canvas-manage-automations-delete.md)을 참조하세요.

# 데이터 원본에 연결
<a name="canvas-connecting-external"></a>

Amazon SageMaker Canvas에서는 JDBC 커넥터를 사용하여 AWS 서비스, SaaS 플랫폼 또는 기타 데이터베이스를 통해 로컬 파일 시스템 외부의 위치에서 데이터를 가져올 수 있습니다. 예를 들어 Amazon Redshift의 데이터 웨어하우스에서 테이블을 가져오거나 Google Analytics 데이터를 가져오고 싶을 수 있습니다.

**가져오기** 워크플로를 통해 Canvas 애플리케이션에서 데이터를 가져오는 경우 데이터 원본을 선택한 다음 가져오려는 데이터를 선택할 수 있습니다. Snowflake 및 Amazon Redshift와 같은 특정 데이터 원본의 경우 자격 증명을 지정하고 데이터 원본에 대한 연결을 추가해야 합니다.

다음 스크린샷은 사용 가능한 모든 데이터 원본이 강조 표시된 **가져오기** 워크플로의 데이터 원본 도구 모음을 보여줍니다. 사용 가능한 데이터 원본에서만 데이터를 가져올 수 있습니다. 원하는 데이터 원본을 사용할 수 없는 경우 관리자에게 문의하세요.

![\[Canvas의 데이터 가져오기 페이지에 있는 데이터 원본 드롭다운 메뉴.\]](http://docs.aws.amazon.com/ko_kr/sagemaker/latest/dg/images/studio/canvas/data-sources.png)


다음 섹션에서는 외부 데이터 원본에 대한 연결을 설정하고 외부 데이터 원본에서 데이터를 가져오는 방법에 대한 정보를 제공합니다. 먼저 다음 섹션을 검토하여 데이터 원본에서 데이터를 가져오는 데 필요한 권한을 결정하세요.

## 권한
<a name="canvas-connecting-external-permissions"></a>

다음 정보를 검토하여 데이터 원본에서 데이터를 가져오는 데 필요한 권한이 있는지 확인하세요.
+ **Amazon S3:** 사용자에게 버킷에 액세스할 권한이 있으면 Amazon S3 버킷에서 데이터를 가져올 수 있습니다. AWS IAM을 사용하여 Amazon S3 버킷에 대한 액세스를 제어하는 방법에 대한 자세한 내용은 *Amazon S3 사용 설명서*의 [ Amazon S3의 자격 증명 및 액세스 관리를](https://docs.aws.amazon.com/AmazonS3/latest/userguide/s3-access-control.html) 참조하세요.
+ **Amazon Athena:** [AmazonSageMakerFullAccess](https://docs.aws.amazon.com/aws-managed-policy/latest/reference/AmazonSageMakerFullAccess.html) 정책과 [AmazonSageMakerCanvasFullAccess](https://docs.aws.amazon.com/aws-managed-policy/latest/reference/AmazonSageMakerCanvasFullAccess.html) 정책이 사용자의 실행 역할에 연결되어 있는 경우 Amazon Athena AWS Glue Data Catalog 를 사용하여를 쿼리할 수 있습니다. Athena 작업 그룹에 속해 있는 경우 Canvas 사용자에게 데이터에 대한 Athena 쿼리를 실행할 수 있는 권한이 있는지 확인하세요. 자세한 내용은 *Amazon Athena 사용 설명서*의 [작업 그룹을 사용하여 쿼리 실행](https://docs.aws.amazon.com/athena/latest/ug/workgroups.html)을 참조하세요.
+ **Amazon DocumentDB:** 데이터베이스에 연결할 자격 증명(사용자 이름 및 암호)이 있고 사용자의 실행 역할에 연결된 최소 기본 Canvas 권한이 있는 한 모든 Amazon DocumentDB 데이터베이스에서 데이터를 가져올 수 있습니다. Canvas 권한에 대한 자세한 내용은 [Amazon SageMaker Canvas를 설정하기 위한 사전 조건](canvas-getting-started.md#canvas-prerequisites) 섹션을 참조하세요.
+ **Amazon Redshift:** Amazon Redshift에서 데이터를 가져오는 데 필요한 권한을 자신에게 부여하려면 [사용자에게 Amazon Redshift 데이터를 가져올 수 있는 권한 부여](https://docs.aws.amazon.com/sagemaker/latest/dg/canvas-redshift-permissions.html)를 참조하세요.
+ **Amazon RDS:** 사용자의 실행 역할에 [AmazonSageMakerCanvasFullAccess](https://docs.aws.amazon.com/aws-managed-policy/latest/reference/AmazonSageMakerCanvasFullAccess.html) 정책이 연결되어 있으면 Canvas에서 Amazon RDS 데이터베이스에 액세스할 수 있습니다.
+ **SaaS 플랫폼:** [AmazonSageMakerFullAccess](https://docs.aws.amazon.com/aws-managed-policy/latest/reference/AmazonSageMakerFullAccess.html) 정책과 [AmazonSageMakerCanvasFullAccess](https://docs.aws.amazon.com/aws-managed-policy/latest/reference/AmazonSageMakerCanvasFullAccess.html) 정책이 사용자의 실행 역할에 연결되어 있는 경우 SaaS 플랫폼에서 데이터를 가져오는 데 필요한 권한을 갖게 됩니다. 특정 SaaS 커넥터 연결에 대한 자세한 내용은 [Canvas와 함께 SaaS 커넥터 사용](#canvas-connecting-external-appflow)을 참조하세요.
+ **JDBC 커넥터:** Databricks, MySQL 또는 MariaDB와 같은 데이터베이스 원본의 경우 Canvas에서 연결을 시도하기 전에 원본 데이터베이스에서 사용자 이름 및 암호 인증을 활성화해야 합니다. Databricks 데이터베이스에 연결하는 경우 필요한 자격 증명이 포함된 JDBC URL이 있어야 합니다.

## 에 저장된 데이터베이스에 연결 AWS
<a name="canvas-connecting-internal-database"></a>

저장한 데이터를 가져올 수 있습니다 AWS. Amazon S3에서 데이터를 가져오거나, Amazon Athena를 사용하여에서 데이터베이스를 쿼리하거나 AWS Glue Data Catalog, [Amazon RDS](https://docs.aws.amazon.com/AmazonRDS/latest/UserGuide/Welcome.html)에서 데이터를 가져오거나, 프로비저닝된 Amazon Redshift 데이터베이스(Redshift Serverless 아님)에 연결할 수 있습니다.

Amazon Redshift에 여러 개의 연결을 생성할 수 있습니다. Amazon Athena의 경우, [AWS Glue Data Catalog](https://docs.aws.amazon.com/prescriptive-guidance/latest/serverless-etl-aws-glue/aws-glue-data-catalog.html)에 보유하고 있는 모든 데이터베이스에 액세스할 수 있습니다. Amazon S3의 경우 필요한 권한이 있으면 버킷에서 데이터를 가져올 수 있습니다.

보다 자세한 내용은 다음 섹션을 검토하세요.

### Amazon S3, Amazon Athena 또는 Amazon RDS의 데이터에 연결
<a name="canvas-connecting-internal-database-s3-athena"></a>

Amazon S3의 경우 버킷에 액세스할 권한이 있으면 Amazon S3 버킷에서 데이터를 가져올 수 있습니다.

Amazon Athena의 경우 [Amazon Athena 작업 그룹을](https://docs.aws.amazon.com/athena/latest/ug/manage-queries-control-costs-with-workgroups.html) 통해 권한이 있는 AWS Glue Data Catalog 한의 데이터베이스에 액세스할 수 있습니다.

Amazon RDS의 경우 [Amazon SageMakerCanvasFullAccess](https://docs.aws.amazon.com/aws-managed-policy/latest/reference/AmazonSageMakerCanvasFullAccess.html) 정책이 사용자 역할에 연결되어 있으면 Amazon RDS 데이터베이스의 데이터를 Canvas로 가져올 수 있습니다.

Amazon S3 버킷에서 데이터를 가져오거나 Amazon Athena를 사용하여 쿼리를 실행하고 데이터 테이블을 가져오려면 [데이터세트 생성](canvas-import-dataset.md)을 참조하세요. Amazon Athena에서는 테이블 형식 데이터만 가져올 수 있으며, Amazon S3에서는 테이블 형식 및 이미지 데이터를 가져올 수 있습니다.

### Amazon DocumentDB 데이터베이스에 연결
<a name="canvas-connecting-docdb"></a>

Amazon DocumentDB는 완전관리형 서버리스 도큐먼트 데이터베이스 서비스입니다. Amazon DocumentDB 데이터베이스에 저장된 비정형 문서 데이터를 테이블 형식의 데이터세트로 SageMaker Canvas로 가져온 다음, 이 데이터를 사용하여 기계 학습 모델을 빌드할 수 있습니다.

**중요**  
Amazon DocumentDB에 연결을 추가하려면 SageMaker AI 도메인을 **VPC 전용** 모드로 구성해야 합니다. Canvas 애플리케이션과 동일한 Amazon VPC에서만 Amazon DocumentDB 클러스터에 액세스할 수 있습니다. 또한 Canvas는 TLS 지원 Amazon DocumentDB 클러스터에만 연결할 수 있습니다. **VPC 전용** 모드로 Canvas를 설정하는 방법에 대한 자세한 내용은 [인터넷 액세스 없이 VPC에서 Amazon SageMaker Canvas 구성](canvas-vpc.md) 섹션을 참조하세요.

Amazon DocumentDB 데이터베이스에서 데이터를 가져오려면 Amazon DocumentDB 데이터베이스에 액세스하고 데이터베이스 연결을 만들 때 사용자 이름과 암호를 지정하는 자격 증명이 있어야 합니다. Amazon DocumentDB 사용자 권한을 수정하여 더 세분화된 권한을 구성하고 액세스를 제한할 수 있습니다. Amazon DocumentDB에서의 액세스 제어에 대한 자세한 내용은 *Amazon DocumentDB 개발자 안내서*의 [Database Access Using Role-Based Access Control](https://docs.aws.amazon.com/documentdb/latest/developerguide/role_based_access_control.html)을 참조하세요.

Amazon DocumentDB에서 가져올 때 Canvas는 필드를 테이블의 열에 매핑하여 비정형 데이터를 테이블 형식의 데이터세트로 변환합니다. 데이터의 각 복합 필드(또는 중첩 구조)에 대해 추가 테이블이 만들어지며, 여기서 열은 복합 필드의 하위 필드에 상응합니다. 이 프로세스와 스키마 변환 예시에 대한 자세한 내용은 [Amazon DocumentDB JDBC Driver Schema Discovery](https://github.com/aws/amazon-documentdb-jdbc-driver/blob/develop/src/markdown/schema/schema-discovery.md) GitHub 페이지를 참조하세요.

Canvas는 Amazon DocumentDB 의 단일 데이터베이스에만 연결할 수 있습니다. 다른 데이터베이스에서 데이터를 가져오려면 새 연결을 만들어야 합니다.

다음 방법을 사용하여 Amazon DocumentDB에서 Canvas로 데이터를 가져올 수 있습니다.
+ [데이터세트 생성](canvas-import-dataset.md). Canvas에서 Amazon DocumentDB 데이터를 가져오고 테이블 형식의 데이터세트를 만들 수 있습니다. 이 방법을 선택하는 경우 [Import tabular data](https://docs.aws.amazon.com/sagemaker/latest/dg/canvas-import-dataset.html#canvas-import-dataset-tabular)의 절차를 따라야 합니다.
+ [데이터 흐름 만들기](canvas-data-flow.md). Canvas에서 데이터 준비 파이프라인을 만들고 Amazon DocumentDB 데이터베이스를 데이터 소스로 추가할 수 있습니다.

데이터 가져오기를 계속하려면 이전 목록에 링크로 연결된 방법 중 하나에 대한 절차를 따르세요.

워크플로 중 하나에서 데이터 소스를 선택하는 단계에 도달하면(데이터세트 만들기의 경우 6단계, 데이터 흐름 만들기의 경우 8단계) 다음을 수행합니다.

1. **데이터 소스**에서 드롭다운 메뉴를 열고 **DocumentDB**를 선택합니다.

1. **연결 추가**를 선택합니다.

1. 대화 상자에서 Amazon DocumentDB 자격 증명을 지정합니다.

   1. **연결 이름**을 입력합니다. Canvas에서 이 연결을 식별하는 데 사용하는 이름입니다.

   1. **클러스터**에서 데이터를 저장하는 Amazon DocumentDB의 클러스터를 선택합니다. Canvas는 Canvas 애플리케이션과 동일한 VPC에서 Amazon DocumentDB 클러스터로 드롭다운 메뉴를 자동으로 채웁니다.

   1. Amazon DocumentDB 클러스터의 **사용자 이름**을 입력합니다.

   1. Amazon DocumentDB 클러스터의 **암호**를 입력합니다.

   1. 연결할 **데이터베이스**의 이름을 입력합니다.

   1. **읽기 기본 설정** 옵션은 클러스터 Canvas에서 데이터를 읽는 인스턴스 유형을 결정합니다. 다음 중 하나 선택:
      + **보조 선호** - Canvas는 기본적으로 클러스터의 보조 인스턴스에서 읽지만 보조 인스턴스를 사용할 수 없는 경우 Canvas는 기본 인스턴스에서 읽습니다.
      + **보조** - Canvas는 클러스터의 보조 인스턴스에서만 읽기 때문에 읽기 작업이 클러스터의 일반 읽기 및 쓰기 작업을 방해하지 않습니다.

   1. **연결 추가**를 선택합니다. 다음 이미지는 Amazon DocumentDB 연결에 대한 이전 필드가 있는 대화 상자를 보여줍니다.  
![\[Canvas에서 새 DocumentDB 연결 추가 대화 상자의 스크린샷\]](http://docs.aws.amazon.com/ko_kr/sagemaker/latest/dg/images/studio/canvas/add-docdb-connection.png)

이제 Amazon DocumentDB에 연결되었을 것입니다. Canvas에서 Amazon DocumentDB 데이터를 사용하여 데이터세트 또는 데이터 흐름을 만들 수 있습니다.

### Amazon Redshift 데이터베이스에 연결
<a name="canvas-connecting-redshift"></a>

조직이 데이터를 보관하는 데이터 웨어하우스인 Amazon Redshift에서 데이터를 가져올 수 있습니다. Amazon Redshift에서 데이터를 가져오려면 먼저 사용하는 AWS IAM 역할에 `AmazonRedshiftFullAccess` 관리형 정책이 연결되어 있어야 합니다. 정책을 연결하는 방법에 대한 지침은 [사용자에게 Amazon Redshift 데이터를 가져올 수 있는 권한 부여](canvas-redshift-permissions.md)을 참조하세요.

Amazon Redshift에서 데이터를 가져오려면 다음 작업을 수행합니다.

1. Amazon Redshift 데이터베이스에 대한 연결을 생성합니다.

1. 가져오려는 데이터를 선택합니다.

1. 데이터를 가져옵니다.

Amazon Redshift 편집기를 사용하여 데이터세트를 가져오기 창으로 드래그하여 SageMaker Canvas로 가져올 수 있습니다. 데이터 세트에 반환된 값을 더 자세히 제어하려면 다음을 사용할 수 있습니다.
+ SQL 쿼리
+ 조인

SQL 쿼리를 사용하면 데이터세트의 값을 가져오는 방법을 사용자 지정할 수 있습니다. 예를 들어 데이터 세트에서 반환되는 열 또는 열의 값 범위를 지정할 수 있습니다.

조인을 사용하여 Amazon Redshift의 여러 데이터세트를 단일 데이터세트로 결합할 수 있습니다. Amazon Redshift에서 데이터세트를 조인할 수 있는 패널로 데이터세트를 드래그할 수 있습니다.

SQL 편집기를 사용하여 조인한 데이터세트를 편집하고 조인된 데이터세트를 단일 노드로 변환할 수 있습니다. 다른 데이터세트를 노드에 조인할 수 있습니다. 선택한 데이터를 SageMaker Canvas로 가져올 수 있습니다.

Amazon Redshift에서 데이터를 가져오려면 다음 절차를 따르세요.

1. SageMaker Canvas 애플리케이션에서 **데이터 세트** 페이지로 이동합니다.

1. **데이터 가져오기**를 선택하고 드롭다운 메뉴에서 **테이블 형식**을 선택합니다.

1. 데이터 세트 이름을 입력한 후 **생성**을 선택합니다.

1. **데이터 원본**의 경우 드롭다운 메뉴를 열고 **Redshift**를 선택합니다.

1. **연결 추가**를 선택합니다.

1. 대화 상자에서 Amazon Redshift 자격 증명을 지정합니다.

   1. **인증 방법**으로는 **IAM**을 선택합니다.

   1. **클러스터 식별자**를 입력하여 연결하려는 클러스터를 지정합니다. Amazon Redshift 클러스터의 전체 엔드포인트는 입력하지 않고 클러스터 식별자만 입력합니다.

   1. 연결할 데이터베이스의 **데이터베이스 이름**을 입력합니다.

   1. **데이터베이스 사용자**를 입력하여 데이터베이스에 연결하는 데 사용할 사용자를 식별합니다.

   1. **ARN**의 경우 Amazon Redshift 클러스터가 Amazon S3로 데이터를 이동하고 쓰기 위해 맡아야 하는 역할의 IAM 역할 ARN을 입력합니다. 이 역할에 대한 자세한 내용은 [ Amazon Redshift 관리 안내서의 Amazon Redshift가 사용자를 대신하여 다른 AWS 서비스에 액세스하도록 권한 부여](https://docs.aws.amazon.com/redshift/latest/mgmt/authorizing-redshift-service.html)를 참조하세요. ** 

   1. **연결 이름**을 입력합니다. Canvas에서 이 연결을 식별하는 데 사용하는 이름입니다.

1. 연결 이름이 표시된 탭에서 가져오려는 .csv 파일을 **가져올 테이블 드래그 앤 드롭** 창으로 끌어다 놓습니다.

1. 선택 사항: 추가 테이블을 가져오기 패널로 드래그합니다. GUI를 사용하여 테이블을 조인할 수 있습니다. 조인의 구체성을 높이려면 **SQL에서 편집**을 선택합니다.

1. 선택 사항: SQL을 사용하여 데이터를 쿼리하는 경우 **컨텍스트**를 선택하여 다음 값을 지정하여 연결에 컨텍스트를 추가할 수 있습니다.
   + **웨어하우스**
   + **데이터베이스**
   + **스키마**

1. **데이터 가져오기**를 선택합니다.

다음 이미지는 Amazon Redshift 연결에 지정된 필드의 예를 보여줍니다.

![\[Canvas에서 새 Redshift 연결 추가 대화 상자의 스크린샷\]](http://docs.aws.amazon.com/ko_kr/sagemaker/latest/dg/images/studio/canvas/canvas-redshift-add-connection.png)


다음 이미지는 Amazon Redshift에서 데이터세트를 조인하는 데 사용되는 페이지를 보여줍니다.

![\[조인 중인 두 데이터세트를 보여주는 Canvas의 가져오기 페이지 스크린샷\]](http://docs.aws.amazon.com/ko_kr/sagemaker/latest/dg/images/studio/canvas/canvas-redshift-join.png)


다음 이미지는 Amazon Redshift에서 조인을 편집하는 데 사용되는 SQL 쿼리를 보여줍니다.

![\[Canvas의 가져오기 페이지에 있는 SQL 편집 편집기의 SQL 쿼리 스크린샷\]](http://docs.aws.amazon.com/ko_kr/sagemaker/latest/dg/images/studio/canvas/canvas-redshift-edit-sql.png)


## JDBC 커넥터로 데이터에 연결
<a name="canvas-connecting-jdbc"></a>

JDBC를 사용하면 Databricks, SQLServer, MySQL, PostgreSQL, MariaDB, Amazon RDS 및 Amazon Aurora와 같은 소스에서 데이터베이스에 연결할 수 있습니다.

Canvas에서 연결을 생성하는 데 필요한 자격 증명과 권한이 있는지 확인해야 합니다.
+ Databricks의 경우 JDBC URL을 제공해야 합니다. URL 형식은 Databricks 인스턴스마다 다를 수 있습니다. URL을 찾고 그 내부에서 파라미터를 지정하는 방법은 Databricks 설명서의 [JDBC 구성 및 연결 파라미터](https://docs.databricks.com/integrations/bi/jdbc-odbc-bi.html#jdbc-configuration-and-connection-parameters)에서 확인하세요. `jdbc:spark://aws-sagemaker-datawrangler.cloud.databricks.com:443/default;transportMode=http;ssl=1;httpPath=sql/protocolv1/o/3122619508517275/0909-200301-cut318;AuthMech=3;UID=token;PWD=personal-access-token`은 URL 형식을 지정하는 방법의 예입니다.
+ 다른 데이터베이스 소스의 경우 사용자 이름 및 암호 인증을 설정한 다음 Canvas에서 데이터베이스에 연결할 때 해당 자격 증명을 지정해야 합니다.

또한 퍼블릭 인터넷을 통해 데이터 소스에 액세스할 수 있어야 합니다.또는 Canvas 애플리케이션이 **VPC 전용** 모드에서 실행되는 경우 데이터 소스가 동일한 VPC에서 실행되어야 합니다. VPC에서 Amazon RDS 데이터베이스를 구성하는 방법에 대한 자세한 내용은 *Amazon RDS 사용 설명서*의 [Amazon VPC 및 Amazon RDS](https://docs.aws.amazon.com/AmazonRDS/latest/UserGuide/USER_VPC.html)를 참조하세요.

데이터 원본 자격 증명을 구성한 후 Canvas 애플리케이션에 로그인하여 데이터 원본에 대한 연결을 생성할 수 있습니다. 연결을 만들 때 자격 증명(또는 Databricks의 경우 URL)을 지정하세요.

## OAuth를 사용하여 데이터 원본에 연결
<a name="canvas-connecting-oauth"></a>

Canvas는 Snowflake 및 Salesforce Data Cloud의 데이터에 연결하기 위한 인증 방법으로 OAuth 사용을 지원합니다. [OAuth](https://oauth.net/2/)는 비밀번호를 공유하지 않고도 리소스에 대한 액세스 권한을 부여하는 일반적인 인증 플랫폼입니다.

**참고**  
각 데이터 원본에 대해 하나의 OAuth 연결만 설정할 수 있습니다.

연결을 승인하려면 [OAuth를 사용하여 데이터 원본에 대한 연결 설정](canvas-setting-up-oauth.md)에 설명된 초기 설정을 따라야 합니다.

OAuth 자격 증명을 설정한 후 다음을 수행하여 OAuth를 통한 Snowflake 또는 Salesforce Data Cloud 연결을 추가할 수 있습니다.

1. Canvas 애플리케이션에 로그인합니다.

1. 테이블 형식의 데이터세트를 생성합니다. 데이터를 업로드하라는 메시지가 표시되면 Snowflake 또는 Salesforce Data Cloud를 데이터 원본으로 선택합니다.

1. Snowflake 또는 Salesforce Data Cloud 데이터 원본에 대한 새 연결을 생성합니다. OAuth를 인증 방법으로 지정하고 연결 세부 정보를 입력합니다.

이제 Snowflake 또는 Salesforce Data Cloud의 데이터베이스에서 데이터를 가져올 수 있을 것입니다.

## SaaS 플랫폼에 연결
<a name="canvas-connecting-saas"></a>

Snowflake 및 40개 이상의 기타 외부 SaaS 플랫폼에서 데이터를 가져올 수 있습니다. 커넥터의 전체 목록은 [데이터 가져오기](canvas-importing-data.md)의 테이블을 참조하세요.

**참고**  
SaaS 플랫폼에서는 데이터 테이블과 같은 테이블 형식 데이터만 가져올 수 있습니다.

### Snowflake를 Canvas와 함께 사용
<a name="canvas-using-snowflake"></a>

Snowflake는 데이터 저장 및 분석 서비스이며, Snowflake에서 SageMaker Canvas로 데이터를 가져올 수 있습니다. Snowflake에 대한 자세한 내용은 [Snowflake 설명서](https://www.snowflake.com/en/)를 참조하세요.

다음을 수행하여 Snowflake 계정에서 데이터를 가져올 수 있습니다.

1. Snowflake 데이터베이스에 대한 연결을 생성합니다.

1. 왼쪽 탐색 메뉴에서 테이블을 편집기로 드래그 앤 드롭하여 가져오려는 데이터를 선택합니다.

1. 데이터를 가져옵니다.

Snowflake 편집기를 사용하여 데이터세트를 가져오기 패널로 드래그하고 SageMaker Canvas로 가져올 수 있습니다. 데이터 세트에 반환된 값을 더 자세히 제어하려면 다음을 사용할 수 있습니다.
+ SQL 쿼리
+ 조인

SQL 쿼리를 사용하면 데이터세트의 값을 가져오는 방법을 사용자 지정할 수 있습니다. 예를 들어 데이터 세트에서 반환되는 열 또는 열의 값 범위를 지정할 수 있습니다.

SQL 또는 Canvas 인터페이스를 사용하여 Canvas로 가져오기 전에 여러 Snowflake 데이터세트를 단일 데이터세트로 조인할 수 있습니다. 데이터세트를 조인할 수 있는 패널로 Snowflake의 데이터세트를 드래그하거나, SQL에서 조인을 편집하고 SQL을 단일 노드로 변환할 수 있습니다. 변환한 노드에 다른 노드를 조인할 수 있습니다. 그런 다음 조안한 데이터세트를 단일 노드로 결합하고 노드를 다른 Snowflake 데이터세트에 조인할 수 있습니다. 마지막으로, 선택한 데이터를 Canvas로 가져올 수 있습니다.

다음 절차를 사용하여 Snowflake에서 Amazon SageMaker Canvas로 데이터를 가져올 수 있습니다.

1. SageMaker Canvas 애플리케이션에서 **데이터 세트** 페이지로 이동합니다.

1. **데이터 가져오기**를 선택하고 드롭다운 메뉴에서 **테이블 형식**을 선택합니다.

1. 데이터 세트 이름을 입력한 후 **생성**을 선택합니다.

1. **데이터 원본**의 경우 드롭다운 메뉴를 열고 **Snowflake**를 선택합니다.

1. **연결 추가**를 선택합니다.

1. **새 Snowflake 연결 추가** 대화 상자에서 Snowflake 자격 증명을 지정합니다. **인증 방법**에서 다음 중 하나를 선택합니다.
   + **기본 - 사용자 이름 암호** - Snowflake 계정 ID, 사용자 이름 및 암호를 입력합니다.
   + **ARN** - Snowflake 자격 증명의 보호를 개선하려면 자격 증명이 포함된 AWS Secrets Manager 보안 암호의 ARN을 제공합니다. 자세한 내용은 *AWS Secrets Manager 사용 설명서*의 [AWS Secrets Manager 보안 암호 생성을](https://docs.aws.amazon.com/secretsmanager/latest/userguide/create_secret.html) 참조하세요.

     보안 암호에는 Snowflake 자격 증명이 다음 JSON 형식으로 저장되어 있어야 합니다.

     ```
     {"accountid": "ID",
     "username": "username",
     "password": "password"}
     ```
   + **OAuth** - OAuth를 사용하면 암호를 제공하지 않고도 인증할 수 있지만 추가 설정이 필요합니다. Snowflake용 OAuth 자격 증명 설정에 대한 자세한 내용은 [OAuth를 사용하여 데이터 원본에 대한 연결 설정](canvas-setting-up-oauth.md)을 참조하세요.

1. **연결 추가**를 선택합니다.

1. 연결 이름이 표시된 탭에서 가져오려는 .csv 파일을 **가져올 테이블 드래그 앤 드롭** 창으로 끌어다 놓습니다.

1. 선택 사항: 추가 테이블을 가져오기 패널로 드래그합니다. 사용자 인터페이스를 사용하여 테이블을 조인할 수 있습니다. 조인을 좀 더 구체적으로 지정하려면 **SQL에서 편집**을 선택합니다.

1. 선택 사항: SQL을 사용하여 데이터를 쿼리하는 경우 **컨텍스트**를 선택하여 다음 값을 지정하여 연결에 컨텍스트를 추가할 수 있습니다.
   + **웨어하우스**
   + **데이터베이스**
   + **스키마**

   연결에 컨텍스트를 추가하면 향후 쿼리를 더 쉽게 지정할 수 있습니다.

1. **데이터 가져오기**를 선택합니다.

다음 이미지는 Snowflake 연결에 지정된 필드의 예를 보여 줍니다.

![\[Canvas에서 새 Snowflake 연결 추가 대화 상자의 스크린\]](http://docs.aws.amazon.com/ko_kr/sagemaker/latest/dg/images/studio/canvas/canvas-snowflake-connection.png)


다음 이미지는 연결에 컨텍스트를 추가하는 데 사용되는 페이지를 보여줍니다.

![\[컨텍스트 대화 상자를 보여주는 Canvas의 가져오기 페이지 스크린샷\]](http://docs.aws.amazon.com/ko_kr/sagemaker/latest/dg/images/studio/canvas/canvas-connection-context.png)


다음 이미지는 Snowflake에서 데이터세트를 조인하는 데 사용되는 페이지를 보여줍니다.

![\[조인 중인 데이터세트를 보여주는 Canvas의 가져오기 페이지 스크린샷\]](http://docs.aws.amazon.com/ko_kr/sagemaker/latest/dg/images/studio/canvas/canvas-snowflake-join.png)


다음 이미지는 Snowflake에서 조인을 편집하는 데 사용되는 SQL 쿼리를 보여줍니다.

![\[Canvas의 가져오기 페이지에 있는 SQL 편집 편집기의 SQL 쿼리 스크린샷\]](http://docs.aws.amazon.com/ko_kr/sagemaker/latest/dg/images/studio/canvas/canvas-snowflake-edit-sql.png)


### Canvas와 함께 SaaS 커넥터 사용
<a name="canvas-connecting-external-appflow"></a>

**참고**  
Snowflake를 제외한 SaaS 플랫폼의 경우 데이터 원본당 하나의 연결만 사용할 수 있습니다.

SaaS 플랫폼에서 데이터를 가져오려면 먼저 관리자가 인증하고 데이터 원본에 대한 연결을 생성해야 합니다. 관리자가 SaaS 플랫폼과의 연결을 생성하는 방법에 대한 자세한 내용은 [Amazon AppFlow 사용 설명서](https://docs.aws.amazon.com/appflow/latest/userguide/connections.html)의 *Amazon AppFlow 연결 관리*를 참조하세요.

Amazon AppFlow를 처음 시작하는 관리자인 경우 *Amazon AppFlow 사용 설명서*의 [시작하기](https://docs.aws.amazon.com/appflow/latest/userguide/getting-started.html)를 참조하세요.

SaaS 플랫폼에서 데이터를 가져오려면 테이블 형식 데이터세트를 Canvas로 가져오는 방법을 보여주는 표준 [테이블 형식 데이터 가져오기](canvas-import-dataset.md#canvas-import-dataset-tabular)절차를 따를 수 있습니다.

# Canvas의 샘플 데이터세트
<a name="canvas-sample-datasets"></a>

SageMaker Canvas는 코드를 작성하지 않고도 모델 구축, 훈련 및 검증을 빠르게 시작할 수 있도록 고유한 사용 사례를 다루는 샘플 데이터세트를 제공합니다. 이러한 데이터세트와 관련된 사용 사례는 SageMaker Canvas의 기능을 강조하며, 이러한 데이터세트를 활용하여 모델 구축을 시작할 수 있습니다. SageMaker Canvas 애플리케이션의 **데이터세트** 페이지에서 샘플 데이터세트를 찾을 수 있습니다.

다음 데이터세트는 SageMaker Canvas에서 기본적으로 제공하는 샘플입니다. 이 데이터세트는 주택 가격, 대출 채무 불이행 및 당뇨병 환자의 재입원 예측, 판매 예측, 제조 단위의 예측 유지보수를 간소화하기 위한 기계 고장 예측, 운송 및 물류를 위한 공급망 예측 생성 등의 사용 사례를 다룹니다. 데이터세트는 SageMaker AI가 리전 내 사용자 계정에 대해 생성하는 기본 Amazon S3 버킷의 `sample_dataset` 폴더에 저장됩니다.
+ **canvas-sample-diabetic-readmission.csv:** 이 데이터세트에는 환자 및 병원 결과와 관련된 15개 이상의 기능을 포함한 과거 데이터가 포함되어 있습니다. 이 데이터세트를 사용하여 고위험 당뇨병 환자가 퇴원 후 30일 이내에 병원에 재입원할 가능성이 있는지, 30일 후 또는 전혀 재입원할 가능성이 있는지 예측할 수 있습니다. **재입원** 열을 대상 열로 사용하고, 이 데이터세트에는 3개 이상의 범주 예측 모델 유형을 사용하세요. 이 데이터 세트를 사용하여 모델을 구축하는 방법에 대해 자세히 알아보려면 [SageMaker Canvas 워크숍 페이지](https://catalog.us-east-1.prod.workshops.aws/workshops/80ba0ea5-7cf9-4b8c-9d3f-1cd988b6c071/en-US/zzz-legacy/1-use-cases/5-hcls)를 참조하세요. 이 데이터 세트는 [UCI 기계 학습 리포지토리](https://archive.ics.uci.edu/ml/datasets/diabetes+130-us+hospitals+for+years+1999-2008)에서 가져온 것입니다.
+ **canvas-sample-housing.csv:** 이 데이터세트에는 특정 주택 가격과 관련된 특성에 대한 데이터가 포함되어 있습니다. 이 데이터세트를 사용하여 주택 가격을 예측할 수 있습니다. **median\$1house\$1value** 열을 대상 열로 사용하고 이 데이터세트에는 수치 예측 모델 유형을 사용하세요. 이 데이터세트로 모델을 구축하는 방법에 대해 자세히 알아보려면 [SageMaker Canvas 워크숍 페이지](https://catalog.us-east-1.prod.workshops.aws/workshops/80ba0ea5-7cf9-4b8c-9d3f-1cd988b6c071/en-US/zzz-legacy/1-use-cases/2-real-estate)를 참조하세요. 이는 [StatLib 리포지토리](https://www.dcc.fc.up.pt/~ltorgo/Regression/cal_housing.html)에서 가져온 캘리포니아 주택 데이터세트입니다.
+ **canvas-sample-loans.csv:** 이 데이터세트에는 현재 대출 상태 및 최근 결제 정보를 포함하여 2007년부터 2011년까지 발행된 모든 대출에 대한 전체 대출 데이터가 포함되어 있습니다. 이 데이터세트를 사용하여 고객의 대출금 상환 여부를 예측할 수 있습니다. **loan\$1status** 열을 대상 열로 사용하고, 이 데이터세트에는 3개 이상의 범주 예측 모델 유형을 사용하세요. 이 데이터 세트를 사용하여 모델을 구축하는 방법에 대해 자세히 알아보려면 [SageMaker Canvas 워크숍 페이지](https://catalog.us-east-1.prod.workshops.aws/workshops/80ba0ea5-7cf9-4b8c-9d3f-1cd988b6c071/en-US/zzz-legacy/1-use-cases/4-finserv)를 참조하세요. 이 데이터는 [Kaggle](https://www.kaggle.com/datasets/wordsforthewise/lending-club)에서 얻은 LendingClub 데이터를 사용합니다.
+ **canvas-sample-maintenance.csv:** 이 데이터세트에는 특정 유지보수 실패 유형과 관련된 특성에 대한 데이터가 포함되어 있습니다. 이 데이터세트를 사용하여 미래에 어떤 장애가 발생할지 예측할 수 있습니다. **실패 유형** 열을 대상 열로 사용하고 이 데이터세트에는 3개 이상의 범주 예측 모델 유형을 사용하세요. 이 데이터 세트를 사용하여 모델을 구축하는 방법에 대해 자세히 알아보려면 [SageMaker Canvas 워크숍 페이지](https://catalog.us-east-1.prod.workshops.aws/workshops/80ba0ea5-7cf9-4b8c-9d3f-1cd988b6c071/en-US/zzz-legacy/1-use-cases/6-manufacturing)를 참조하세요. 이 데이터 세트는 [UCI 기계 학습 리포지토리](https://archive.ics.uci.edu/ml/datasets/AI4I+2020+Predictive+Maintenance+Dataset)에서 가져온 것입니다.
+ **canvas-sample-shipping-logs.csv:** 이 데이터세트에는 예상 배송 시간, 배송 우선순위, 배송사, 출발지를 포함하여 배송된 모든 제품에 대한 전체 배송 데이터가 포함되어 있습니다. 이 데이터세트를 사용하여 배송 예상 도착 시간(일수)을 예측할 수 있습니다. **ActualShippingDays** 열을 대상 열로 사용하고 이 데이터세트에는 수치 예측 모델 유형을 사용하세요. 이 데이터를 사용하여 모델을 구축하는 방법에 대해 자세히 알아보려면 [SageMaker Canvas 워크숍 페이지](https://catalog.us-east-1.prod.workshops.aws/workshops/80ba0ea5-7cf9-4b8c-9d3f-1cd988b6c071/en-US/zzz-legacy/1-use-cases/7-supply-chain)를 참조하세요. 이것은 Amazon에서 만든 합성 데이터 세트입니다.
+ **canvas-sample-sales-forecasting.csv:** 이 데이터세트에는 소매점의 과거 시계열 판매 데이터가 포함되어 있습니다. 이 데이터세트를 사용하여 특정 소매점의 매출을 예측할 수 있습니다. **판매** 열을 대상 열로 사용하고 이 데이터세트에는 시계열 예측 모델 유형을 사용합니다. 이 데이터 세트를 사용하여 모델을 구축하는 방법에 대해 자세히 알아보려면 [SageMaker Canvas 워크숍 페이지](https://catalog.us-east-1.prod.workshops.aws/workshops/80ba0ea5-7cf9-4b8c-9d3f-1cd988b6c071/en-US/zzz-legacy/1-use-cases/3-retail)를 참조하세요. 이것은 Amazon에서 만든 합성 데이터 세트입니다.

# 삭제된 샘플 데이터세트를 다시 가져옵니다.
<a name="canvas-sample-datasets-reimport"></a>

Amazon SageMaker Canvas는 Canvas의 기능을 강조하는 다양한 사용 사례에 대한 샘플 데이터세트를 제공합니다. 사용 가능한 샘플 데이터세트에 대한 자세한 내용은 [Canvas의 샘플 데이터세트](canvas-sample-datasets.md) 섹션을 참조하세요. 샘플 데이터세트를 더 이상 사용하지 않으려면 SageMaker Canvas 애플리케이션의 **데이터세트** 페이지에서 삭제할 수 있습니다. 하지만 이러한 데이터세트는 사용자가 [Canvas 스토리지 위치](https://docs.aws.amazon.com/sagemaker/latest/dg/canvas-storage-configuration.html)로 지정한 Amazon S3 버킷에 계속 저장되므로 나중에 언제든지 액세스할 수 있습니다.

기본 Amazon S3 버킷을 사용한 경우 버킷 이름은 패턴 `sagemaker-{region}-{account ID}`을 따릅니다. `Canvas/sample_dataset` 디렉터리 경로에서 샘플 데이터세트를 찾을 수 있습니다.

SageMaker Canvas 애플리케이션에서 샘플 데이터세트를 삭제한 후 샘플 데이터세트에 다시 접근하려면 다음 절차를 사용하세요.

1. SageMaker Canvas 애플리케이션에서 **데이터세트** 페이지로 이동합니다.

1. **데이터 가져오기**를 선택합니다.

1. Amazon S3 버킷 목록에서 Canvas 스토리지 위치인 버킷을 선택합니다. SageMaker AI에서 생성한 기본 Amazon S3 버킷을 사용하는 경우 `sagemaker-{region}-{account ID}` 이름 지정 패턴을 따릅니다.

1. **Canvas** 폴더를 선택합니다.

1. SageMaker Canvas의 모든 샘플 데이터세트가 들어 있는 **sample\$1dataset** 폴더를 선택합니다.

1. 가져오려는 데이터세트를 선택한 다음 **데이터 가져오기**를 선택합니다.