dataprocessing 명령을 사용한 데이터 처리
Neptune ML dataprocessing 명령을 사용하여 데이터 처리 작업을 만들거나, 작업 상태를 확인하거나, 중지하거나, 모든 활성 데이터 처리 작업을 나열할 수 있습니다.
Neptune ML dataprocessing 명령을 사용하여 데이터 처리 작업 생성
새 작업을 생성하기 위한 일반적인 Neptune ML dataprocessing 명령은 다음과 같습니다.
curl \ -X POST https://(your Neptune endpoint)/ml/dataprocessing \ -H 'Content-Type: application/json' \ -d '{ "inputDataS3Location" : "s3://(Amazon S3 bucket name)/(path to your input folder)", "id" : "(a job ID for the new job)", "processedDataS3Location" : "s3://(S3 bucket name)/(path to your output folder)" }'
증분 재처리를 시작하는 명령은 다음과 같습니다.
curl \ -X POST https://(your Neptune endpoint)/ml/dataprocessing \ -H 'Content-Type: application/json' \ -d '{ "inputDataS3Location" : "s3://(Amazon S3 bucket name)/(path to your input folder)", "id" : "(a job ID for this job)", "processedDataS3Location" : "s3://(S3 bucket name)/(path to your output folder)" "previousDataProcessingJobId" : "(the job ID of a previously completed job to update)" }'
작업을 생성하는 dataprocessing 파라미터
-
id– (선택 사항) 새 작업의 고유 식별자입니다.유형: 문자열. 기본값: 자동 생성된 UUID.
-
previousDataProcessingJobId– (선택 사항) 이전 버전의 데이터에서 실행된 완료 데이터 처리 작업의 작업 ID입니다.유형: 문자열. 기본값: 없음.
참고: 증분 데이터 처리에 사용하면 그래프 데이터가 변경될 때 모델을 업데이트할 수 있지만, 데이터가 삭제된 경우에는 모델을 업데이트할 수 없습니다.
-
inputDataS3Location– (필수) SageMaker AI가 데이터 처리 작업을 실행하는 데 필요한 데이터를 다운로드하도록 하려는 Amazon S3 위치의 URI입니다.유형: 문자열.
-
processedDataS3Location– (필수) SageMaker AI가 데이터 처리 작업의 결과를 저장하게 하려는 Amazon S3 위치의 URI입니다.유형: 문자열.
-
sagemakerIamRoleArn– (선택 사항) SageMaker AI를 실행하기 위한 IAM 역할의 ARN입니다.유형: 문자열. 참고: 이는 DB 클러스터 파라미터 그룹에 나열되어 있어야 합니다. 그렇지 않으면 오류가 발생합니다.
-
neptuneIamRoleArn– (선택 사항) SageMaker AI가 사용자를 대신하여 작업을 수행하도록 수임할 수 있는 IAM 역할의 Amazon 리소스 이름(ARN)입니다.유형: 문자열. 참고: 이는 DB 클러스터 파라미터 그룹에 나열되어 있어야 합니다. 그렇지 않으면 오류가 발생합니다.
-
processingInstanceType– (선택 사항) 데이터 처리 중에 사용되는 ML 인스턴스의 유형입니다. 메모리는 처리된 데이터 세트를 담을 수 있을 만큼 커야 합니다.유형: 문자열. 기본값: 디스크에서 내보낸 그래프 데이터 크기보다 10배 큰 메모리가 있는 가장 작은
ml.r5유형입니다.참고: Neptune ML은 인스턴스 유형을 자동으로 선택할 수 있습니다. 데이터 처리를 위한 인스턴스 선택을(를) 참조하세요.
-
processingInstanceVolumeSizeInGB– (선택 사항) 처리 인스턴스의 디스크 볼륨 크기입니다. 입력 데이터와 처리된 데이터 모두 디스크에 저장되므로, 볼륨 크기는 두 데이터 세트를 모두 담을 수 있을 만큼 커야 합니다.유형: 정수. 기본값:
0.참고: 지정하지 않거나 0으로 지정하면 Neptune ML은 데이터 크기를 기준으로 볼륨 크기를 자동으로 선택합니다.
-
processingTimeOutInSeconds– (선택 사항) 데이터 처리 작업의 제한 시간(초)입니다.유형: 정수. 기본값:
86,400(1일). -
modelType– (선택 사항) Neptune ML이 현재 지원하는 두 모델 유형인 이기종 그래프 모델(heterogeneous)과 지식 그래프(kge) 중 하나입니다.유형: 문자열. 기본값: 없음.
참고: 지정하지 않으면 Neptune ML은 데이터를 기반으로 모델 유형을 자동으로 선택합니다.
-
configFileName– (선택 사항) 훈련용으로 내보낸 그래프 데이터를 로드하는 방법을 설명하는 데이터 사양 파일입니다. 파일은 Neptune 내보내기 도구 키트에 의해 자동으로 생성됩니다.유형: 문자열. 기본값:
training-data-configuration.json. -
subnets– (선택 사항) Neptune VPC의 서브넷 ID입니다.유형: 문자열 목록. 기본값: 없음.
-
securityGroupIds– (선택 사항) VPC 보안 그룹 ID입니다.유형: 문자열 목록. 기본값: 없음.
-
volumeEncryptionKMSKey– (선택 사항) SageMaker AI가 처리 작업을 실행하는 ML 컴퓨팅 인스턴스에 연결된 스토리지 볼륨에서 데이터를 암호화하는 데 사용하는 AWS Key Management Service(AWS KMS) 키입니다.유형: 문자열. 기본값: 없음.
-
enableInterContainerTrafficEncryption– (선택 사항) 훈련 또는 하이퍼 파라미터 조정 작업에서 컨테이너 간 트래픽 암호화를 활성화하거나 비활성화합니다.유형: 부울. 기본값: True.
참고
이
enableInterContainerTrafficEncryption파라미터는 엔진 릴리스 1.2.0.2.R3에서만 사용할 수 있습니다. -
s3OutputEncryptionKMSKey– (선택 사항) SageMaker AI가 훈련 작업의 출력을 암호화하는 데 사용하는 AWS Key Management Service(AWS KMS) 키입니다.유형: 문자열. 기본값: 없음.
Neptune ML dataprocessing 명령을 사용하여 데이터 처리 작업의 상태 가져오기
작업 상태를 나타내는 샘플 Neptune ML dataprocessing 명령은 다음과 같습니다.
curl -s \ "https://(your Neptune endpoint)/ml/dataprocessing/(the job ID)" \ | python -m json.tool
작업 상태를 나타내는 dataprocessing 파라미터
-
id– (필수) 데이터 처리 작업의 고유 식별자입니다.유형: 문자열.
-
neptuneIamRoleArn– (선택 사항) SageMaker AI와 Amazon S3 리소스에 대한 Neptune의 액세스 권한을 제공하는 IAM 역할의 ARN입니다.유형: 문자열. 참고: 이는 DB 클러스터 파라미터 그룹에 나열되어 있어야 합니다. 그렇지 않으면 오류가 발생합니다.
Neptune ML dataprocessing 명령을 사용하여 데이터 처리 작업 중지
작업 중지를 위한 샘플 Neptune ML dataprocessing 명령은 다음과 같습니다.
curl -s \ -X DELETE "https://(your Neptune endpoint)/ml/dataprocessing/(the job ID)"
아니면 다음을 사용해도 됩니다.
curl -s \ -X DELETE "https://(your Neptune endpoint)/ml/dataprocessing/(the job ID)?clean=true"
작업을 중지하는 dataprocessing 파라미터
-
id– (필수) 데이터 처리 작업의 고유 식별자입니다.유형: 문자열.
-
neptuneIamRoleArn– (선택 사항) SageMaker AI와 Amazon S3 리소스에 대한 Neptune의 액세스 권한을 제공하는 IAM 역할의 ARN입니다.유형: 문자열. 참고: 이는 DB 클러스터 파라미터 그룹에 나열되어 있어야 합니다. 그렇지 않으면 오류가 발생합니다.
-
clean– (선택 사항) 이 플래그는 작업이 중지될 때 모든 Amazon S3 아티팩트를 삭제하도록 지정합니다.유형: 부울. 기본값:
FALSE.
Neptune ML dataprocessing 명령을 사용하여 활성 데이터 처리 작업 나열
활성 작업을 나열하기 위한 샘플 Neptune ML dataprocessing 명령은 다음과 같습니다.
curl -s "https://(your Neptune endpoint)/ml/dataprocessing"
아니면 다음을 사용해도 됩니다.
curl -s "https://(your Neptune endpoint)/ml/dataprocessing?maxItems=3"
작업을 나열하는 dataprocessing 파라미터
-
maxItems– (선택 사항) 반환할 최대 항목 수입니다.유형: 정수. 기본값:
10. 최대 허용 값:1024. -
neptuneIamRoleArn– (선택 사항) SageMaker AI와 Amazon S3 리소스에 대한 Neptune의 액세스 권한을 제공하는 IAM 역할의 ARN입니다.유형: 문자열. 참고: 이는 DB 클러스터 파라미터 그룹에 나열되어 있어야 합니다. 그렇지 않으면 오류가 발생합니다.