

기계 번역으로 제공되는 번역입니다. 제공된 번역과 원본 영어의 내용이 상충하는 경우에는 영어 버전이 우선합니다.

# Data Wrangler에서 데이터 처리 작동 방식
<a name="canvas-data-processing"></a>

Amazon SageMaker Data Wrangler 데이터 흐름에서 대화형으로 데이터를 사용하는 동안 Amazon SageMaker Canvas는 미리 볼 수 있도록 샘플 데이터세트에만 변환을 적용합니다. SageMaker Canvas에서 데이터 흐름을 완료한 후 모든 데이터를 처리하고 기계 학습 워크플로의 적합한 위치에 저장할 수 있습니다.

Data Wrangler에서 데이터 변환을 완료한 후 진행하는 방법에는 몇 가지 옵션이 있습니다.
+ [모델 만들기](canvas-processing-export-model.md) Canvas 모델을 만들어 준비된 데이터를 사용해 모델 만들기를 직접 시작할 수 있습니다. 전체 데이터세트를 처리한 후 또는 Data Wrangler에서 작업한 샘플 데이터만 내보내서 모델을 만들 수 있습니다. Canvas는 처리된 데이터(전체 데이터세트 또는 샘플 데이터)를 Canvas 데이터세트로 저장합니다.

  빠른 반복을 위해 샘플 데이터를 사용하되 최종 모델을 훈련시키려면 전체 데이터를 사용하는 것이 좋습니다. 테이블 형식 모델을 빌드할 때 5GB보다 큰 데이터세트는 자동으로 5GB로 다운샘플링되고 시계열 예측 모델의 경우 30GB보다 큰 데이터세트는 30GB로 다운샘플링됩니다.

  모델을 만드는 방법에 대한 자세한 내용은 [사용자 지정 모델 작동 방식](canvas-build-model.md) 섹션을 참조하세요.
+ [데이터를 내보냅니다](canvas-export-data.md). 기계 학습 워크플로에 사용할 데이터를 내보낼 수 있습니다. 데이터를 내보낼 때 몇 가지 옵션이 있습니다.
  + Canvas 애플리케이션에 데이터를 데이터세트로 저장할 수 있습니다. Canvas 데이터세트에 지원되는 파일 유형과 Canvas로 데이터를 가져올 때 필요한 추가 요구 사항에 대한 자세한 내용은 [데이터세트 생성](canvas-import-dataset.md) 섹션을 참조하세요.
  + Amazon S3에 데이터를 저장할 수 있습니다. Canvas 메모리 가용성에 따라 데이터는 애플리케이션에서 처리된 다음 Amazon S3로 내보내집니다. 데이터세트의 크기가 Canvas가 처리할 수 있는 크기를 초과하는 경우 Canvas는 기본적으로 EMR Serverless 작업을 사용하여 여러 컴퓨팅 인스턴스로 확장하고 전체 데이터세트를 처리하고 Amazon S3로 내보냅니다. 또한 SageMaker Processing 작업을 수동으로 구성하여 데이터를 처리하는 데 사용되는 컴퓨팅 리소스를 보다 세밀하게 제어할 수 있습니다.
+ [데이터 흐름을 내보냅니다](canvas-export-data-flow.md). Canvas 외부에서 변환을 수정하거나 실행할 수 있도록 데이터 흐름에 대한 코드를 저장하고 싶을 수 있습니다. Canvas는 데이터 흐름 변환을 Jupyter Notebook의 Python 코드로 저장하는 옵션을 제공합니다. 사용자는 기계 학습 워크플로의 다른 곳에서 이 코드를 사용할 수 있도록 Amazon S3로 내보낼 수 있습니다.

데이터 흐름에서 데이터를 내보내 Canvas 데이터세트로 저장하거나 Amazon S3에 저장할 때 Canvas는 데이터 흐름에 처리된 데이터가 저장되는 위치를 보여주는 최종 노드인 새 대상 노드를 만듭니다. 여러 내보내기 작업을 수행하려는 경우 흐름에 대상 노드를 추가할 수 있습니다. 예를 들어 데이터 흐름의 여러 지점에서 데이터를 내보내 변환 중 일부만 적용하거나 변환된 데이터를 다른 Amazon S3 위치로 내보낼 수 있습니다. 대상 노드를 추가하거나 편집하는 방법에 대한 자세한 내용은 [대상 노드 추가](canvas-destination-nodes-add.md) 및 [대상 노드 편집](canvas-destination-nodes-edit.md) 섹션을 참조하세요.

Amazon EventBridge를 사용하여 일정에 따라 데이터를 자동으로 처리하고 내보내는 일정을 설정하는 방법에 대한 자세한 내용은 [새 데이터를 자동으로 처리하는 일정 만들기](canvas-data-export-schedule-job.md) 섹션을 참조하세요.

# 모델 만들기를 위해 내보내기
<a name="canvas-processing-export-model"></a>

데이터 흐름에서 몇 번의 클릭만으로 변환된 데이터를 내보내고 Canvas에서 ML 모델 만들기를 시작할 수 있습니다. Canvas는 데이터를 Canvas 데이터세트로 저장하며 사용자는 새 모델의 모델 빌드 구성 페이지로 이동합니다.

변환된 데이터를 사용하여 Canvas 모델을 만드는 방법:

1. 데이터 흐름으로 이동합니다.

1. 내보내려는 노드 옆에 있는 줄임표 아이콘을 선택합니다.

1. 컨텍스트 메뉴에서 **모델 만들기**를 선택합니다.

1. **모델 만들기를 위해 내보내기** 사이드 패널에 새 데이터세트의 **데이터세트 이름**을 입력합니다.

1. 모델 빌드를 진행하기 전에 전체 데이터세트를 처리하고 내보내려면 **전체 데이터세트 처리** 옵션을 선택한 상태로 둡니다. 데이터 흐름에서 작업 중인 대화형 샘플 데이터를 사용하여 모델을 훈련하려면 이 옵션을 끕니다.

1. **모델 이름**을 입력하여 새 모델의 이름을 지정합니다.

1. **문제 유형** 또는 빌드하려는 모델 유형을 선택합니다. SageMaker Canvas에서 지원되는 모델 유형에 대한 자세한 내용은 [사용자 지정 모델 작동 방식](canvas-build-model.md) 섹션을 참조하세요.

1. **대상 열** 또는 모델이 예측할 값을 선택합니다.

1. **모델 내보내기 및 만들기**를 선택합니다.

새 Canvas 모델의 **빌드** 탭이 열리고 모델 구성 및 훈련을 완료할 수 있습니다. 모델 빌드에 대한 자세한 내용은 [모델 빌드](canvas-build-model-how-to.md) 섹션을 참조하세요.

# 데이터 내보내기
<a name="canvas-export-data"></a>

데이터를 내보내 데이터 흐름의 변환을 가져온 전체 데이터세트에 적용합니다. 데이터 흐름의 원하는 노드를 다음 위치로 내보낼 수 있습니다.
+ SageMaker Canvas 데이터세트
+ Amazon S3

Canvas에서 모델을 훈련하려면 변환된 전체 데이터세트를 Canvas 데이터세트로 내보낼 수 있습니다. SageMaker Canvas 외부의 기계 학습 워크플로에서 변환된 데이터를 사용하려면 데이터세트를 Amazon S3로 내보낼 수 있습니다.

## Canvas 데이터세트로 내보내기
<a name="canvas-export-data-canvas"></a>

다음 절차에 따라 데이터 흐름의 노드에서 SageMaker Canvas 데이터세트를 내보냅니다.

**흐름의 노드를 SageMaker Canvas 데이터세트로 내보내는 방법**

1. 데이터 흐름으로 이동합니다.

1. 내보내려는 노드 옆에 있는 줄임표 아이콘을 선택합니다.

1. 컨텍스트 메뉴에서 **내보내기** 에 마우스를 올려 놓고 **Canvas 데이터세트로 데이터 내보내기**를 선택합니다.

1. **Canvas 데이터세트로 내보내기** 사이드 패널에 새 데이터세트의 **데이터세트 이름**을 입력합니다.

1. SageMaker Canvas가 전체 데이터세트를 처리하고 저장하도록 하려면 **전체 데이터세트 처리** 옵션을 선택한 상태로 둡니다. 데이터 흐름에서 작업 중인 샘플 데이터에만 변환을 적용하려면 이 옵션을 끕니다.

1. **내보내기**를 선택합니다.

이제 Canvas 애플리케이션의 **데이터세트** 페이지로 이동하여 새 데이터세트를 볼 수 있습니다.

## Amazon S3로 내보내기
<a name="canvas-export-data-s3"></a>

데이터를 Amazon S3로 내보낼 때 원하는 크기의 데이터를 변환하고 처리하도록 확장할 수 있습니다. Canvas는 애플리케이션의 메모리가 데이터세트 크기를 처리할 수 있는 경우 데이터를 로컬에서 자동으로 처리합니다. 데이터세트 크기가 로컬 메모리 용량인 5GB를 초과하는 경우 Canvas는 사용자를 대신하여 원격 작업을 시작하여 추가 컴퓨팅 리소스를 프로비저닝하고 데이터를 더 빠르게 처리합니다. 기본적으로 Canvas는 Amazon EMR Serverless를 사용하여 이러한 원격 작업을 실행합니다. 그러나 자체 설정으로 EMR Serverless 또는 SageMaker 처리 작업을 사용하도록 Canvas를 수동으로 구성할 수 있습니다.

**참고**  
EMR Serverless 작업을 실행할 때 기본적으로 작업은 Canvas 애플리케이션의 IAM 역할, KMS 키 설정 및 태그를 상속합니다.

다음은 Canvas의 원격 작업에 대한 옵션을 요약한 것입니다.
+ **EMR Serverless**: Canvas가 원격 작업에 사용하는 기본 옵션입니다. EMR Serverless는 컴퓨팅 리소스를 자동으로 프로비저닝하고 크기를 조정하여 데이터를 처리하므로 워크로드에 적합한 컴퓨팅 리소스를 선택할 필요가 없습니다. EMR Serverless에 대한 자세한 내용은 [EMR Serverless 사용 설명서](https://docs.aws.amazon.com/emr/latest/EMR-Serverless-UserGuide/emr-serverless.html)를 참조하세요.
+ **SageMaker Processing**: SageMaker Processing 작업은 데이터를 처리하는 데 사용되는 컴퓨팅 리소스에 대한 보다 고급 옵션과 세분화된 제어를 제공합니다. 예를 들어 컴퓨팅 인스턴스의 유형과 수를 지정하고, 자체 VPC에서 작업을 구성하고, 네트워크 액세스를 제어하고, 처리 작업을 자동화하는 등의 작업을 수행할 수 있습니다. 처리 작업 자동화에 대한 자세한 내용은 [새 데이터를 자동으로 처리하는 일정 만들기](canvas-data-export-schedule-job.md) 섹션을 참조하세요. SageMaker Processing 작업에 대한 보다 일반적인 정보는 [SageMaker Processing을 사용한 데이터 변환 워크로드](processing-job.md) 섹션을 참조하세요.

Amazon S3로 내보낼 때 다음 파일 유형이 지원됩니다.
+ CSV
+ PARQUET

시작하려면 다음 필수 조건을 확인하세요.

### EMR Serverless 작업을 위한 사전 조건
<a name="canvas-export-data-emr-prereqs"></a>

EMR Serverless 리소스를 사용하는 원격 작업을 만들려면 필요한 권한이 있어야 합니다. Amazon SageMaker AI 도메인 또는 사용자 프로필 설정을 통해 권한을 부여하거나 사용자의 AWS IAM 역할을 수동으로 구성할 수 있습니다. 사용자에게 대규모 데이터 처리를 수행할 수 있는 권한을 부여하는 방법에 대한 지침은 [ML 수명 주기 전체에서 대규모 데이터를 사용할 수 있는 권한을 사용자에게 부여](canvas-large-data-permissions.md) 섹션을 참조하세요.

이러한 정책을 구성하지 않지만 Data Wrangler를 통해 대규모 데이터세트를 처리해야 하는 경우 SageMaker Processing 작업을 사용할 수도 있습니다.

데이터를 Amazon S3로 내보내려면 다음 절차를 따르세요. 원격 작업을 구성하려면 선택적 고급 단계를 따릅니다.

**흐름의 노드를 Amazon S3로 내보내는 방법**

1. 데이터 흐름으로 이동합니다.

1. 내보내려는 노드 옆에 있는 줄임표 아이콘을 선택합니다.

1. 컨텍스트 메뉴에서 **내보내기** 에 마우스를 올려 놓고 **Amazon S3로 데이터 내보내기**를 선택합니다.

1. **Amazon S3로 내보내기** 사이드 패널에서 새 데이터세트의 **데이터세트 이름**을 변경할 수 있습니다.

1. **S3 위치**에 데이터세트를 내보낼 Amazon S3 위치를 입력합니다. S3 위치 또는 S3 액세스 포인트의 S3 URI, 별칭 또는 ARN을 입력할 수 있습니다. 자세한 내용은 *Amazon S3 사용 설명서*에서 [Managing data access with Amazon S3 access points](https://docs.aws.amazon.com/AmazonS3/latest/userguide/access-points.html)를 참조하세요.

1. (선택 사항) **고급 설정**에서 다음 필드의 값을 지정합니다.

   1. **파일 유형** - 내보낸 데이터의 파일 형식입니다.

   1. **구분 기호** - 파일의 값을 구분하는 데 사용되는 구분 기호입니다.

   1. **압축** – 파일 크기를 줄이는 데 사용되는 압축 방법입니다.

   1. **파티션 수** - Canvas가 작업의 출력으로 작성하는 데이터세트 파일의 수입니다.

   1. **열 선택** - 데이터에서 파티션에 포함할 열의 하위 집합을 선택할 수 있습니다.

1. Canvas가 데이터 흐름 변환을 전체 데이터세트에 적용하고 결과를 내보내도록 하려면 **전체 데이터세트 처리** 옵션을 선택한 상태로 둡니다. 이 옵션을 선택 취소하면 Canvas는 대화형 Data Wrangler 데이터 흐름에 사용되는 데이터세트의 샘플에만 변환을 적용합니다.
**참고**  
데이터의 샘플만 내보내면 Canvas는 애플리케이션에서 데이터를 처리하고 사용자 대신 원격 작업을 만들지 않습니다.

1. Canvas가 Canvas 애플리케이션 메모리를 사용하여 작업을 실행할지 EMR 서버리스 작업을 실행할지를 자동으로 결정하도록 하려면 **자동 작업 구성** 옵션을 선택한 상태로 둡니다. 이 옵션을 선택 취소하고 작업을 수동으로 구성하는 경우 EMR Serverless 또는 SageMaker Processing 작업을 사용할 수 있습니다. EMR Serverless 또는 SageMaker Processing 작업을 구성하는 방법에 대한 지침은 데이터를 내보내기 전에 이 절차의 다음 섹션을 참조하세요.

1. **내보내기**를 선택합니다.

다음 절차에서는 전체 데이터세트를 Amazon S3로 내보낼 때 EMR Serverless 또는 SageMaker Processing에 대한 원격 작업 설정을 수동으로 구성하는 방법을 보여줍니다.

------
#### [ EMR Serverless ]

Amazon S3로 내보내는 동안 EMR Serverless 작업을 구성하려면 다음을 수행합니다.

1. Amazon S3로 내보내기 사이드 패널에서 **자동 작업 구성** 옵션을 끕니다.

1. **EMR Serverless**를 선택합니다.

1. **작업 이름**에 EMR Serverless 작업의 이름을 입력합니다. 이름에는 문자, 숫자, 하이픈 및 밑줄만 포함해야 합니다.

1. **IAM 역할**에 사용자의 IAM 실행 역할을 입력합니다. 이 역할에는 EMR Serverless 애플리케이션을 실행하는 데 필요한 권한이 있어야 합니다. 자세한 내용은 [ML 수명 주기 전체에서 대규모 데이터를 사용할 수 있는 권한을 사용자에게 부여](canvas-large-data-permissions.md) 단원을 참조하십시오.

1. (선택 사항) **KMS 키**에서 작업 로그를 암호화 AWS KMS key 할의 키 ID 또는 ARN을 지정합니다. 키를 입력하지 않으면 Canvas는 EMR Serverless에 기본 키를 사용합니다.

1. (선택 사항) **구성 모니터링**에 로그를 게시할 Amazon CloudWatch Logs 로그 그룹의 이름을 입력합니다.

1. (선택 사항) **태그**의 경우 키-값 페어로 구성된 EMR Serverless 작업에 메타데이터 태그를 추가합니다. 이러한 태그를 사용하여 작업을 분류하고 검색할 수 있습니다.

1. [**Export**]를 선택해 작업을 시작합니다.

------
#### [ SageMaker Processing ]

Amazon S3로 내보내는 동안 SageMaker Processing 작업을 구성하려면 다음을 수행합니다.

1. **Amazon S3로 내보내기** 사이드 패널에서 **자동 작업 구성** 옵션을 끕니다.

1. **SageMaker Processing**를 선택합니다.

1. **작업 이름**에 SageMaker AI Processing 작업의 이름을 입력합니다.

1. **인스턴스 유형**에서 처리 작업을 실행할 컴퓨팅 인스턴스 유형을 선택합니다.

1. **인스턴스 수**에서 시작할 컴퓨팅 인스턴스의 수를 지정합니다.

1. **IAM 역할**에 사용자의 IAM 실행 역할을 입력합니다. 이 역할에는 SageMaker AI가 사용자를 대신하여 처리 작업을 만들고 실행하는 데 필요한 권한이 있어야 합니다. 이러한 권한은 [AmazonSageMakerFullAccess](https://docs.aws.amazon.com/aws-managed-policy/latest/reference/AmazonSageMakerFullAccess.html) 정책이 IAM 역할에 연결된 경우 부여됩니다.

1. **볼륨 크기**에 각 처리 인스턴스에 연결된 ML 스토리지 볼륨의 스토리지 크기를 GB 단위로 입력합니다. 예상 입력 및 출력 데이터 크기를 기준으로 크기를 선택합니다.

1. (선택 사항) **볼륨 KMS 키**에서 스토리지 볼륨을 암호화하는 KMS 키를 지정합니다. 키를 지정하지 않으면 기본 Amazon EBS 암호화 키가 사용됩니다.

1. (선택 사항) **KMS 키**에서 Amazon S3 데이터 소스가 처리 작업에서 사용한 입력 및 출력을 암호화할 KMS 키를 지정합니다.

1. (선택 사항) **Spark 메모리 구성**에서 다음을 수행합니다.

   1. 작업 조정 및 예약을 처리하는 Spark 드라이버 노드에 **드라이버 메모리를 MB 단위**로 입력합니다.

   1. 작업에서 개별 작업을 실행하는 Spark 실행기 노드에 대해 **실행기 메모리를 MB 단위**로 입력합니다.

1. (선택 사항) **네트워크 구성**에서 다음을 수행합니다.

   1. **서브넷 구성**에 처리 인스턴스가 시작될 VPC 서브넷 ID를 입력합니다. 기본적으로 작업은 기본 VPC의 설정을 사용합니다.

   1. **보안 그룹 구성**에 보안 그룹의 ID를 입력하여 인바운드 및 아웃바운드 연결 규칙을 제어합니다.

   1. **컨테이너 간 트래픽 암호화 활성화** 옵션을 켜서 작업 중에 처리 컨테이너 간 네트워크 통신을 암호화합니다.

1. (선택 사항) **일정 연결**의 경우 Amazon EventBridge 일정 만들기를 선택하여 처리 작업을 반복적인 간격으로 실행할 수 있습니다. **새 일정 만들기**를 선택하고 대화 상자를 채웁니다. 이 섹션을 작성하고 일정에 따라 처리 작업을 실행하는 방법에 대한 자세한 내용은 [새 데이터를 자동으로 처리하는 일정 만들기](canvas-data-export-schedule-job.md) 섹션을 참조하세요.

1. (선택 사항) 처리 작업을 분류하고 검색할 수 있도록 **태그**를 키-값 페어로 추가합니다.

1. **내보내기**를 선택해 처리 작업을 시작합니다.

------

데이터를 내보낸 후에는 지정된 Amazon S3 위치에서 완전히 처리된 데이터세트를 찾아야 합니다.

# 데이터 흐름 내보내기
<a name="canvas-export-data-flow"></a>

데이터 흐름을 내보내면 Data Wrangler에서 수행한 작업이 변환되고 수정 및 실행할 수 있는 Python 코드의 Jupyter Notebook으로 내보내집니다. 이는 데이터 변환을 위한 코드를 기계 학습 파이프라인에 통합하는 데 도움이 될 수 있습니다.

데이터 흐름에서 원하는 데이터 노드를 선택하여 내보낼 수 있습니다. 데이터 노드를 내보내면 노드가 나타내는 변환과 그 이전의 변환이 내보내집니다.

**데이터 흐름을 Jupyter Notebook으로 내보내는 방법**

1. 데이터 흐름으로 이동합니다.

1. 내보내려는 노드 옆에 있는 줄임표 아이콘을 선택합니다.

1. 컨텍스트 메뉴에서 **내보내기** 위에 마우스를 올려 놓은 다음 **Jupyter Notebook을 통해 내보내기** 위에 마우스를 올려 놓습니다.

1. 다음 중 하나를 선택합니다.
   + **SageMaker Pipelines**
   + **Amazon S3**
   + **SageMaker AI 추론 파이프라인**
   + **SageMaker AI Feature Store**
   + **Python 코드**

1. **노트북으로 데이터 흐름 내보내기** 대화 상자가 열립니다. 다음 중 하나 선택:
   + **로컬 복사본 다운로드**
   + **S3 위치로 내보내기**

1. **S3 위치로 내보내기**를 선택한 경우 노트북을 내보낼 Amazon S3 위치를 입력합니다.

1. **내보내기**를 선택합니다.

Jupyter Notebook은 로컬 머신에 다운로드하거나 지정한 Amazon S3 위치에 저장됩니다.

# 대상 노드 추가
<a name="canvas-destination-nodes-add"></a>

SageMaker Canvas의 대상 노드는 처리 및 변환된 데이터를 저장할 위치를 지정합니다. 변환된 데이터를 Amazon S3로 내보내도록 선택하면 Canvas는 지정된 대상 노드 위치를 사용하여 데이터 흐름에 구성한 모든 변환을 적용합니다. Amazon S3로 작업 내보내기에 대한 자세한 내용은 이전 섹션([Amazon S3로 내보내기](canvas-export-data.md#canvas-export-data-s3))을 참조하세요.

기본적으로 데이터를 Amazon S3로 내보내도록 선택하면 데이터 흐름에 대상 노드가 추가됩니다. 그러나 흐름에 여러 대상 노드를 추가할 수 있으므로 데이터의 다양한 변환 또는 변형 세트를 서로 다른 Amazon S3 위치로 동시에 내보낼 수 있습니다. 예를 들어 모든 변환을 적용한 후 데이터를 내보내는 대상 노드 하나와 조인 작업과 같은 특정 초기 변환 후에만 데이터를 내보내는 대상 노드 하나를 만들 수 있습니다. 이러한 유연성을 통해 변환된 데이터의 다양한 버전 또는 하위 집합을 내보내고 사용 사례별로 별도의 S3 위치에 저장할 수 있습니다.

다음 절차에 따라 데이터 흐름에 대상 노드를 추가합니다.

**새 대상 노드를 추가하는 방법**

1. 데이터 흐름으로 이동합니다.

1. 대상 노드를 배치하려는 노드 옆에 있는 줄임표 아이콘을 선택합니다.

1. 컨텍스트 메뉴에서 **내보내기** 위에 마우스를 올려 놓고 **대상 추가**를 선택합니다.

1. **내보내기 대상** 사이드 패널에 **데이터세트 이름**을 입력하여 출력의 이름을 지정합니다.

1. **Amazon S3 위치**에 출력을 내보낼 Amazon S3 위치를 입력합니다. S3 위치 또는 S3 액세스 포인트의 S3 URI, 별칭 또는 ARN을 입력할 수 있습니다. 자세한 내용은 *Amazon S3 사용 설명서*에서 [Managing data access with Amazon S3 access points](https://docs.aws.amazon.com/AmazonS3/latest/userguide/access-points.html)를 참조하세요.

1. **내보내기 설정**에서 다음 필드를 지정합니다.

   1. **파일 유형** - 내보낸 데이터의 파일 형식입니다.

   1. **구분 기호** - 파일의 값을 구분하는 데 사용되는 구분 기호입니다.

   1. **압축** – 파일 크기를 줄이는 데 사용되는 압축 방법입니다.

1. **파티셔닝**에서 다음 필드를 지정합니다.

   1. **파티션 수** - SageMaker Canvas가 작업의 출력으로 작성하는 데이터세트 파일의 수입니다.

   1. **열 선택** - 데이터에서 파티션에 포함할 열의 하위 집합을 선택할 수 있습니다.

1. 데이터 흐름에 대상 노드를 추가하려면 **추가**를 선택하고, 노드를 추가하고 내보내기 작업을 시작하려면 **추가**를 선택한 다음 **내보내기**를 선택합니다.

이제 흐름에 새 대상 노드가 표시됩니다.

# 대상 노드 편집
<a name="canvas-destination-nodes-edit"></a>

Amazon SageMaker Canvas 데이터 흐름의 *대상 노드*는 처리 및 변환된 데이터가 저장되는 Amazon S3 위치를 지정하여 데이터 흐름에 구성된 모든 변환을 적용합니다. 기존 대상 노드의 구성을 편집한 다음 작업을 다시 실행하여 지정된 Amazon S3 위치의 데이터를 덮어쓰도록 선택할 수 있습니다. 새 대상 노드 추가에 대한 자세한 내용은 [대상 노드 추가](canvas-destination-nodes-add.md) 섹션을 참조하세요.

다음 절차에 따라 데이터 흐름에서 대상 노드를 편집하고 내보내기 작업을 시작합니다.

**대상 노드를 편집하는 방법**

1. 데이터 흐름으로 이동합니다.

1. 편집하려는 대상 노드 옆에 있는 줄임표 아이콘을 선택합니다.

1. 컨텍스트 메뉴에서 **편집**을 선택합니다.

1. **대상 편집** 사이드 패널이 열립니다. 이 패널에서 데이터세트 이름, Amazon S3 위치, 내보내기 및 파티셔닝 설정과 같은 세부 정보를 편집할 수 있습니다.

1. (선택 사항) **내보낼 추가 노드**에서 내보내기 작업을 실행할 때 처리할 대상 노드를 더 선택할 수 있습니다.

1. Canvas가 데이터 흐름 변환을 전체 데이터세트에 적용하고 결과를 내보내도록 하려면 **전체 데이터세트 처리** 옵션을 선택한 상태로 둡니다. 이 옵션을 선택 취소하면 Canvas는 대화형 Data Wrangler 데이터 흐름에 사용되는 데이터세트의 샘플에만 변환을 적용합니다.

1. Canvas가 Canvas 애플리케이션 메모리를 사용하여 작업을 실행할지 EMR 서버리스 작업을 실행할지를 자동으로 결정하도록 하려면 **자동 작업 구성** 옵션을 선택한 상태로 둡니다. 이 옵션을 선택 취소하고 작업을 수동으로 구성하는 경우 EMR Serverless 또는 SageMaker Processing 작업을 사용할 수 있습니다. EMR Serverless 또는 SageMaker Processing 작업을 구성하는 방법에 대한 지침은 이전 섹션([Amazon S3로 내보내기](canvas-export-data.md#canvas-export-data-s3))을 참조하세요.

1. 변경을 마치면 **업데이트**를 선택합니다.

대상 노드 구성에 대한 변경 사항을 저장해도 작업을 자동으로 다시 실행하거나 이미 처리 및 내보낸 데이터를 덮어쓰지 않습니다. 데이터를 다시 내보내 새 구성으로 작업을 실행합니다. 작업으로 데이터를 다시 내보내기로 결정한 경우 Canvas는 업데이트된 대상 노드 구성을 사용하여 데이터를 변환하고 지정된 위치로 출력하여 기존 데이터를 덮어씁니다.

# 새 데이터를 자동으로 처리하는 일정 만들기
<a name="canvas-data-export-schedule-job"></a>

**참고**  
다음 섹션은 SageMaker Processing 작업에만 적용됩니다. 기본 Canvas 설정 또는 EMR Serverless를 사용하여 원격 작업을 만들어 전체 데이터세트에 변환을 적용하는 경우 이 섹션은 적용되지 않습니다.

데이터를 주기적으로 처리하는 경우 처리 작업을 자동으로 실행하는 일정을 생성할 수 있습니다. 예를 들어 새 데이터를 받을 때 처리 작업을 자동으로 실행하는 일정을 생성할 수 있습니다. 처리 작업에 대한 자세한 내용은 [Amazon S3로 내보내기](canvas-export-data.md#canvas-export-data-s3) 섹션을 참조하세요.

작업을 만들 때는 작업을 만들 권한이 있는 IAM 역할을 지정해야 합니다. [AmazonSageMakerCanvasDataPrepFullAccess](https://docs.aws.amazon.com/aws-managed-policy/latest/reference/AmazonSageMakerCanvasDataPrepFullAccess.html) 정책을 사용하여 권한을 추가할 수 있습니다.

다음 신뢰 정책을 이 역할에 추가하여 EventBridge가 신뢰 정책을 받아들이도록 합니다.

```
{
    "Effect": "Allow",
    "Principal": {
        "Service": "events.amazonaws.com"
    },
    "Action": "sts:AssumeRole"
}
```

**중요**  
일정을 생성하면 Data Wrangler는 EventBridge에 `eventRule`을 생성합니다. 생성한 이벤트 규칙과 처리 작업 실행에 사용되는 인스턴스에 모두 요금이 부과됩니다.  
EventBridge 요금에 대한 자세한 내용은 [Amazon EventBridge 요금](https://aws.amazon.com/eventbridge/pricing/)을 참조하세요. 처리 작업 요금에 대한 자세한 내용은 [Amazon SageMaker 요금](https://aws.amazon.com/sagemaker/pricing/)을 참조하세요.

다음 방법 중 하나를 사용하여 일정을 설정할 수 있습니다.
+ [CRON 표현식](https://docs.aws.amazon.com/eventbridge/latest/userguide/eb-create-rule-schedule.html)
**참고**  
Data Wrangler는 다음 표현식을 지원하지 않습니다.  
LW\$1
요일 약어
월 약어
+ [RATE 표현식](https://docs.aws.amazon.com/eventbridge/latest/userguide/eb-create-rule-schedule.html#eb-rate-expressions)
+ 반복 – 작업을 실행할 시간당 또는 일별 간격을 설정합니다.
+ 특정 시간 – 작업을 실행할 특정한 날과 시간을 설정합니다.

다음 섹션에서는 [데이터를 Amazon S3로 내보내는](canvas-export-data.md#canvas-export-data-s3) 동안 SageMaker AI Processing 작업 설정을 작성할 때 작업 예약 절차를 설명합니다. 다음 지침은 모두 SageMaker Processing 작업 설정의 **일정 연결** 섹션에서 시작됩니다.

------
#### [ CRON ]

다음 절차에 따라 CRON 표현식으로 일정을 생성합니다.

1. **Amazon S3로 내보내기** 사이드 패널에서 **자동 작업 구성** 토글을 끄고 **SageMaker Processing** 옵션을 선택했는지 확인합니다.

1. **SageMaker Processing** 작업 설정에서 **일정 연결** 섹션을 열고 **새 일정 만들기**를 선택합니다.

1. **새 일정 만들기** 대화 상자가 열립니다. **일정 이름**에는 일정의 이름을 지정합니다.

1. **실행 빈도**에는 **CRON**을 선택합니다.

1. 각 **분**, **시간**, **일자**, **월**, **요일** 필드에 유효한 cron 표현식 값을 입력합니다.

1. **생성(Create)**을 선택합니다.

1. (선택 사항) 추가 일정에 따라 작업을 실행하려면 **다른 일정 추가**를 선택합니다.
**참고**  
최대 두 개의 일정을 연결할 수 있습니다. 일정은 독립적이며 시간이 겹치지 않는 한 서로 영향을 주지 않습니다.

1. 다음 중 하나를 선택합니다.
   + **예약 및 지금 실행** – 작업이 즉시 실행되고 이후에 일정에 따라 실행됩니다.
   + **예약만** – 지정한 일정에 따라서만 작업이 실행됩니다.

1. 나머지 내보내기 작업 설정을 입력한 후 **내보내기**를 선택합니다.

------
#### [ RATE ]

다음 절차에 따라 RATE 표현식으로 일정을 생성합니다.

1. **Amazon S3로 내보내기** 사이드 패널에서 **자동 작업 구성** 토글을 끄고 **SageMaker Processing** 옵션을 선택했는지 확인합니다.

1. **SageMaker Processing** 작업 설정에서 **일정 연결** 섹션을 열고 **새 일정 만들기**를 선택합니다.

1. **새 일정 만들기** 대화 상자가 열립니다. **일정 이름**에는 일정의 이름을 지정합니다.

1. **실행 빈도**에는 **속도**를 선택합니다.

1. **값**에는 정수를 지정합니다.

1. **단위**에는 다음 중 하나를 선택합니다.
   + **분**
   + **시간**
   + **일**

1. **생성(Create)**을 선택합니다.

1. (선택 사항) 추가 일정에 따라 작업을 실행하려면 **다른 일정 추가**를 선택합니다.
**참고**  
최대 두 개의 일정을 연결할 수 있습니다. 일정은 독립적이며 시간이 겹치지 않는 한 서로 영향을 주지 않습니다.

1. 다음 중 하나를 선택합니다.
   + **예약 및 지금 실행** – 작업이 즉시 실행되고 이후에 일정에 따라 실행됩니다.
   + **예약만** – 지정한 일정에 따라서만 작업이 실행됩니다.

1. 나머지 내보내기 작업 설정을 입력한 후 **내보내기**를 선택합니다.

------
#### [ Recurring ]

작업을 반복적으로 실행하는 일정을 만들려면 다음 절차에 따르세요.

1. **Amazon S3로 내보내기** 사이드 패널에서 **자동 작업 구성** 토글을 끄고 **SageMaker Processing** 옵션을 선택했는지 확인합니다.

1. **SageMaker Processing** 작업 설정에서 **일정 연결** 섹션을 열고 **새 일정 만들기**를 선택합니다.

1. **새 일정 만들기** 대화 상자가 열립니다. **일정 이름**에는 일정의 이름을 지정합니다.

1. **실행 빈도 **에서 **반복**을 선택합니다.

1. **x시간마다** 하루 동안 작업이 실행되는 시간당 빈도를 지정합니다. 유효한 값은 **1** 및 **23**을 포함한 범위의 정수입니다.

1. **지정일**에는 다음 옵션 중 하나를 선택합니다.
   + **매일**
   + **주말**
   + **평일**
   + **요일 선택**

   1. (선택 사항) **요일 선택**을 선택한 경우 작업을 실행할 요일을 선택합니다.
**참고**  
일정이 매일 재설정됩니다. 작업이 5시간마다 실행되도록 예약하면 하루 중 다음 시간에 작업이 실행됩니다.  
00:00
05:00
10:00
15:00
20:00

1. **생성(Create)**을 선택합니다.

1. (선택 사항) 추가 일정에 따라 작업을 실행하려면 **다른 일정 추가**를 선택합니다.
**참고**  
최대 두 개의 일정을 연결할 수 있습니다. 일정은 독립적이며 시간이 겹치지 않는 한 서로 영향을 주지 않습니다.

1. 다음 중 하나를 선택합니다.
   + **예약 및 지금 실행** – 작업이 즉시 실행되고 이후에 일정에 따라 실행됩니다.
   + **예약만** – 지정한 일정에 따라서만 작업이 실행됩니다.

1. 나머지 내보내기 작업 설정을 입력한 후 **내보내기**를 선택합니다.

------
#### [ Specific time ]

특정 시간에 작업을 실행하는 일정을 생성하려면 다음 절차에 따르세요.

1. **Amazon S3로 내보내기** 사이드 패널에서 **자동 작업 구성** 토글을 끄고 **SageMaker Processing** 옵션을 선택했는지 확인합니다.

1. **SageMaker Processing** 작업 설정에서 **일정 연결** 섹션을 열고 **새 일정 만들기**를 선택합니다.

1. **새 일정 만들기** 대화 상자가 열립니다. **일정 이름**에는 일정의 이름을 지정합니다.

1. **실행 빈도**에서 **시작 시간**을 선택합니다.

1. **시작 시간**에 UTC 형식(예: **09:00**)으로 시간을 입력합니다. 시작 시간은 기본적으로 사용자가 위치한 시간대로 설정됩니다.

1. **지정일**에는 다음 옵션 중 하나를 선택합니다.
   + **매일**
   + **주말**
   + **평일**
   + **요일 선택**

   1. (선택 사항) **요일 선택**을 선택한 경우 작업을 실행할 요일을 선택합니다.

1. **생성(Create)**을 선택합니다.

1. (선택 사항) 추가 일정에 따라 작업을 실행하려면 **다른 일정 추가**를 선택합니다.
**참고**  
최대 두 개의 일정을 연결할 수 있습니다. 일정은 독립적이며 시간이 겹치지 않는 한 서로 영향을 주지 않습니다.

1. 다음 중 하나를 선택합니다.
   + **예약 및 지금 실행** – 작업이 즉시 실행되고 이후에 일정에 따라 실행됩니다.
   + **예약만** – 지정한 일정에 따라서만 작업이 실행됩니다.

1. 나머지 내보내기 작업 설정을 입력한 후 **내보내기**를 선택합니다.

------

SageMaker AI를 사용하여 실행 예약된 작업을 AWS Management Console 볼 수 있습니다. 처리 작업은 Pipelines 내에서 실행됩니다. 각 처리 작업에는 자체적인 파이프라인이 있습니다. 파이프라인 내에서 처리 단계로 실행됩니다. 파이프라인 내에서 생성한 일정을 볼 수 있습니다. 파이프라인을 보는 방법에 대한 자세한 내용은 [파이프라인 세부 정보 보기](pipelines-studio-list.md) 섹션을 참조하세요.

예약한 작업을 보려면 다음 절차를 따르세요.

예약한 작업을 보려면 다음을 수행하세요.

1. Amazon SageMaker Studio Classic을 엽니다.

1. Pipelines 열기

1. 생성한 작업의 파이프라인을 확인합니다.

   작업을 실행 중인 파이프라인은 작업 이름을 접두사로 사용합니다. 예를 들어 `housing-data-feature-enginnering`이라는 작업을 생성한 경우 파이프라인의 이름은 `canvas-data-prep-housing-data-feature-engineering`입니다.

1. 작업이 포함된 파이프라인을 선택합니다.

1. 파이프라인의 상태를 확인합니다. **성공** **상태**인 파이프라인이 처리 작업을 성공적으로 실행했습니다.

처리 작업의 실행을 중지하려면 다음을 수행하세요.

처리 작업의 실행을 중지하려면 일정을 지정하는 이벤트 규칙을 삭제하세요. 이벤트 규칙을 삭제하면 일정과 관련된 모든 작업의 실행이 중지됩니다. 규칙 삭제에 대한 자세한 내용은 [Amazon EventBridge 규칙 비활성화 또는 삭제](https://docs.aws.amazon.com/eventbridge/latest/userguide/eb-delete-rule.html)를 참조하세요.

일정과 관련된 파이프라인도 중지하고 삭제할 수 있습니다. 파이프라인 중지에 대한 자세한 내용은 [StopPipelineExecution](https://docs.aws.amazon.com/sagemaker/latest/APIReference/API_StopPipelineExecution.html)을 참조하세요. 파이프라인 삭제에 대한 자세한 내용은 [DeletePipeline](https://docs.aws.amazon.com/sagemaker/latest/APIReference/API_DeletePipeline.html#API_DeletePipeline_RequestSyntax)을 참조하세요.