

기계 번역으로 제공되는 번역입니다. 제공된 번역과 원본 영어의 내용이 상충하는 경우에는 영어 버전이 우선합니다.

# 데이터 흐름 만들기
<a name="canvas-data-flow"></a>

SageMaker Canvas에서 Data Wrangler 흐름 또는 *데이터 흐름*을 사용하여 데이터 준비 파이프라인을 만들고 수정합니다. 5GB보다 큰 데이터세트에는 Data Wrangler를 사용하는 것이 좋습니다.

시작하려면 다음 절차에 따라 데이터를 데이터 흐름으로 가져옵니다.

1. SageMaker Canvas를 엽니다.

1. 왼쪽 탐색 메뉴에서 **Data Wrangler**를 선택합니다.

1. **가져오기 및 준비**를 선택합니다.

1. 드롭다운 메뉴에서 **테이블 형식** 또는 **이미지**를 선택합니다.

1. **데이터 소스 선택**에서 데이터 소스를 선택하고 가져올 데이터를 선택합니다. 최대 30개의 파일 또는 하나의 폴더를 선택할 수 있습니다. Canvas로 이미 가져온 데이터세트가 있는 경우 소스로 **Canvas 데이터세트**를 선택합니다. 그렇지 않으면 Amazon S3 또는 Snowflake와 같은 데이터 소스에 연결하고 데이터를 탐색합니다. 데이터 소스에 연결하거나 데이터를 가져오는 방법에 대한 자세한 내용은 다음 페이지를 참조하세요.
   + [데이터 가져오기](canvas-importing-data.md)
   + [데이터 원본에 연결](canvas-connecting-external.md)

1. 가져올 데이터를 선택한 후 **다음**을 선택합니다.

1. (선택 사항) 테이블 형식의 데이터세트를 가져올 때 **가져오기 설정** 섹션에서 **고급** 드롭다운 메뉴를 확장합니다. 데이터 흐름 가져오기에 대해 다음과 같은 고급 설정을 지정할 수 있습니다.
   + **샘플링 방법** - 사용하려는 샘플링 방법과 샘플 크기를 선택합니다. 샘플을 변경하는 방법에 대한 자세한 내용은 [데이터 흐름 샘플링 구성 편집](canvas-data-flow-edit-sampling.md) 섹션을 참조하세요.
   + **파일 인코딩(CSV)** - 데이터세트 파일의 인코딩을 선택합니다. 기본값은 `UTF-8`입니다.
   + **첫 번째 행 건너뛰기** - 데이터세트 시작 부분에 중복 행이 있는 경우 가져오기를 건너뛰려는 행 수를 입력합니다.
   + **구분 기호** - 데이터의 각 항목을 구분하는 구분 기호를 선택합니다. 사용자 지정 구분 기호를 지정할 수도 있습니다.
   + **다중 라인 감지 -** Canvas가 전체 데이터세트에서 다중 라인 셀을 수동으로 구문 분석하도록 하려면 이 옵션을 선택합니다. Canvas는 데이터 샘플을 수집하여 다중 라인 지원을 사용할지를 결정하지만 Canvas는 샘플에서 다중 라인 셀을 감지하지 못할 수 있습니다. 이 경우 **다중 라인 감지** 옵션을 선택하여 Canvas가 전체 데이터세트에서 다중 라인 셀을 확인하도록 강제하는 것이 좋습니다.

1. **가져오기**를 선택합니다.

이제 새 데이터 흐름이 만들어졌으며 변환 단계 및 분석 추가를 시작할 수 있습니다.