AWS Clean Rooms ML에서 ML 입력 채널 생성

사전 조건:

에 액세스할 수 AWS 계정 있는 AWS Clean Rooms
ML 입력 채널을 생성하려는 AWS Clean Rooms 에 설정된 공동 작업
공동 작업에서 데이터를 쿼리하고 ML 입력 채널을 생성할 수 있는 권한.
(선택 사항) ML 입력 채널과 연결할 기존 모델 알고리즘 또는 새 입력 채널을 생성할 수 있는 권한
(선택 사항) 지정된 모델에 대해 실행할 수 있는 분석 규칙이 있는 테이블입니다.
(선택 사항) 데이터 세트를 생성하는 데 사용할 기존 SQL 쿼리 또는 분석 템플릿
(선택 사항) 적절한 권한이 있는 기존 서비스 역할 또는 새 서비스 역할을 생성할 수 있는 권한
(선택 사항) 자체 암호화 AWS KMS 키를 사용하려는 경우의 사용자 지정 키
공동 작업에서 ML 모델을 생성하고 관리할 수 있는 적절한 권한

ML 입력 채널은 특정 데이터 쿼리에서 생성되는 데이터 세트입니다. 데이터를 쿼리할 수 있는 구성원은 ML 입력 채널을 생성하여 훈련 및 추론을 위해 데이터를 준비할 수 있습니다. ML 입력 채널을 생성하면 동일한 공동 작업 내의 다양한 훈련 모델에서 데이터를 사용할 수 있습니다. 훈련 및 추론을 위해 별도의 ML 입력 채널을 생성해야 합니다.

ML 입력 채널을 생성하려면 입력 데이터를 쿼리하고 ML 입력 채널을 생성하는 데 사용되는 SQL 쿼리를 지정해야 합니다. 이 쿼리의 결과는 멤버와 공유되지 않으며 Clean Rooms ML의 경계 내에 유지됩니다. 참조 Amazon 리소스 이름(ARN)은 다음 단계에서 모델을 훈련하거나 추론을 실행하는 데 사용됩니다.

Console

ML 입력 채널을 생성하려면(콘솔)

에 로그인 AWS Management Console 하고 https://console.aws.amazon.com/cleanrooms AWS Clean Rooms 콘솔을 엽니다.
왼쪽 탐색 창에서 공동 작업을 선택합니다.
공동 작업 페이지에서 ML 입력 채널을 생성할 공동 작업을 선택합니다.
공동 작업이 열리면 ML 모델 탭을 선택합니다.
사용자 지정 ML 모델의 ML 입력 채널 섹션에서 ML 입력 채널 생성을 선택합니다.
ML 입력 채널 생성 페이지의 ML 입력 채널 세부 정보에서 다음을 수행합니다.
1. 이름에 채널의 고유한 이름을 입력합니다.
2. (선택 사항) 설명에 채널에 대한 설명을 입력합니다.
3. 연결된 모델 알고리즘에서 사용할 알고리즘을 선택합니다.
  
  모델 알고리즘 연결을 선택하여 새 알고리즘을 추가합니다.

데이터 세트에서 훈련 데이터 세트를 생성할 메서드를 선택합니다.

SQL 쿼리의 결과를 훈련 데이터 세트로 사용하려면 SQL 쿼리를 선택합니다.

SQL 쿼리를 선택한 경우 SQL 쿼리 필드에 쿼리를 입력합니다.

(선택 사항) 최근에 사용한 쿼리를 가져오려면 최근 쿼리에서 가져오기를 선택합니다.
분석 템플릿을 선택하여 분석 템플릿의 결과를 훈련 데이터 세트로 사용합니다.

주의
합성 데이터 생성은 특정 개인이 원래 데이터 세트에 있는지 또는 해당 개인의 학습 속성이 있는지 여부에 관계없이 개별 속성을 유추하지 못하도록 보호합니다. 그러나 개인 식별 정보(PII)를 포함하여 원래 데이터 세트의 리터럴 값이 합성 데이터 세트에 나타나는 것을 방지하지는 않습니다.
데이터 주체를 다시 식별할 수 있으므로 하나의 데이터 주체에만 연결된 입력 데이터 세트의 값을 사용하지 않는 것이 좋습니다. 예를 들어 한 명의 사용자만 우편번호에 거주하는 경우 합성 데이터 세트에 해당 우편번호가 있으면 사용자가 원래 데이터 세트에 있음을 확인할 수 있습니다. 고정밀 값을 잘라내거나 흔하지 않은 카탈로그를 다른 카탈로그로 대체하는 등의 기법을 사용하여이 위험을 완화할 수 있습니다. 이러한 변환은 ML 입력 채널을 생성하는 데 사용되는 쿼리의 일부일 수 있습니다.

연결된 테이블이 없는 경우 테이블 연결을 선택하여 지정된 모델에 대해 실행할 수 있는 분석 규칙이 있는 테이블을 추가합니다.

이 데이터 채널을 생성할 때 사용할 작업자 유형을 선택합니다. 기본 작업자 유형은 CR.1X입니다. 사용할 작업자 수를 지정합니다. 기본 작업자 번호는 16입니다. Spark 속성을 지정하려면:

Spark 속성을 확장합니다.
Spark 속성 추가를 선택합니다.
Spark 속성 대화 상자의 드롭다운 목록에서 속성 이름을 선택하고 값을 입력합니다.

다음 표는 각 속성에 대한 정의를 제공합니다.

Spark 속성에 대한 자세한 내용은 Apache Spark 설명서의 Spark 속성을 참조하세요.

참고

최대 50개의 Spark 속성을 구성할 수 있습니다. 각 속성 값은 최대 500자일 수 있습니다.

속성 이름	설명	기본 값
spark.task.maxFailures	작업이 실패하기 전에 작업이 실패할 수 있는 연속 횟수를 제어합니다. 1보다 크거나 같은 값이 필요합니다. 허용되는 재시도 횟수는이 값에서 1을 뺀 값과 같습니다. 시도가 성공하면 실패 횟수가 재설정됩니다. 여러 태스크의 장애는이 제한에 누적되지 않습니다.	4
spark.sql.files.maxPartitionBytes	Parquet, JSON 및 ORC와 같은 파일 기반 소스에서 읽을 때 단일 파티션으로 압축할 최대 바이트 수를 설정합니다.	128MB
spark.hadoop.fs.s3.maxRetries	Amazon S3 파일 작업에 대한 최대 재시도 횟수를 설정합니다.	(none)
spark.network.timeout	모든 네트워크 상호 작용의 기본 제한 시간을 설정합니다. 구성되지 않은 경우 다음 제한 시간 설정을 재정의합니다. spark.storage.blockManagerHeartbeatTimeoutMs spark.shuffle.io.connectionTimeout spark.rpc.askTimeout spark.rpc.lookupTimeout	120초
spark.rdd.compress	spark.io.compression.codec를 사용하여 직렬화된 RDD 파티션을 압축할지 여부를 지정합니다. Java 및 Scala의 StorageLevel.MEMORY_ONLY_SER 또는 Python의 StorageLevel.MEMORY_ONLY에 적용됩니다. 스토리지 공간을 줄이지만 추가 CPU 처리 시간이 필요합니다.	false
spark.shuffle.spill.compress	spark.io.compression.codec를 사용하여 셔플 유출 데이터를 압축할지 여부를 지정합니다.	true
spark.shuffle.compress	맵 출력 파일을 압축할지 여부를 지정합니다. 압축은 spark.io.compression.codec를 사용합니다.	true
spark.shuffle.service.index.cache.size	달리 지정하지 않는 한 캐시 크기 제한을 바이트 단위로 설정합니다.	1억
spark.shuffle.io.maxRetries	IO 관련 예외로 인해 실패한 가져오기에 대한 최대 재시도 횟수를 설정합니다.	3
spark.shuffle.io.retryWait	가져오기 재시도 간의 대기 시간을 설정합니다. 재시도로 인한 최대 지연은 기본적으로 15초이며, maxRetries * retryWait로 계산됩니다.	5s
spark.shuffle.io.connectionTimeout	아직 미해결 가져오기 요청이 있지만 채널에 트래픽이 없는 경우 셔플 서버와 클라이언트 간에 설정된 연결의 제한 시간을 유휴로 표시하고 닫을 수 있도록 설정합니다.	( spark.network.timeout의 값)
spark.driver.maxResultSize	각 Spark 작업에 대한 모든 파티션의 직렬화된 결과의 총 크기 제한을 바이트 단위로 설정합니다. 최소 1M 또는 무제한의 경우 0이어야 합니다.	1g
spark.memory.fraction	실행 및 스토리지에 사용되는 (힙 공간 - 300MB)의 비율을 설정합니다. 이 값이 낮을수록 유출 및 캐시된 데이터 제거가 더 자주 발생합니다. 이를 기본값으로 두는 것이 좋습니다.	0.6
spark.scheduler.mode	동일한 SparkContext에 제출된 작업 간의 예약 모드를 설정합니다. 작업을 차례로 대기열에 넣는 대신 공정 공유를 사용하도록 FAIR로 설정할 수 있습니다. 지원되는 값: FAIR, FIFO.	FIFO
spark.sql.adaptive.advisoryPartitionSizeInBytes	spark.sql.adaptive.enabled가 true일 때 적응형 최적화 중에 셔플 파티션의 대상 크기를 바이트 단위로 설정합니다. 작은 파티션을 병합하거나 왜곡된 파티션을 분할할 때 파티션 크기를 제어합니다.	( spark.sql.adaptive.shuffle.targetPostShuffleInputSize의 값)
spark.sql.adaptive.autoBroadcastJoinThreshold	조인 중에 작업자 노드로 브로드캐스트하기 위한 최대 테이블 크기를 바이트 단위로 설정합니다. 적응형 프레임워크에만 적용됩니다. spark.sql.autoBroadcastJoinThreshold와 동일한 기본값을 사용합니다. 브로드캐스팅을 비활성화하려면 -1로 설정합니다.	(none)
spark.sql.adaptive.coalescePartitions.enabled	작업 크기를 최적화하기 위해 spark.sql.adaptive.advisoryPartitionSizeInBytes를 기반으로 연속 셔플 파티션을 병합할지 여부를 지정합니다. spark.sql.adaptive.enabled가 true여야 합니다.	true
spark.sql.adaptive.coalescePartitions.initialPartitionNum	병합 전 셔플 파티션의 초기 수를 정의합니다. spark.sql.adaptive.enabled 및 spark.sql.adaptive.coalescePartitions.enabled가 모두 true여야 합니다. 기본값은 spark.sql.shuffle.partitions입니다.	(none)
spark.sql.adaptive.coalescePartitions.minPartitionSize	적응형 최적화 중에 파티션이 너무 작아지지 않도록 병합된 셔플 파티션의 최소 크기를 설정합니다.	1MB
spark.sql.adaptive.coalescePartitions.parallelismFirst	파티션 병합 중에 spark.sql.adaptive.advisoryPartitionSizeInBytes 대신 클러스터 병렬 처리를 기반으로 파티션 크기를 계산할지 여부를 지정합니다. 병렬 처리를 극대화하기 위해 구성된 대상 크기보다 작은 파티션 크기를 생성합니다. 과도한 소규모 작업을 방지하여 리소스 사용률을 높이려면 사용량이 많은 클러스터에서이 값을 false로 설정하는 것이 좋습니다.	true
spark.sql.adaptive.enabled	정확한 런타임 통계를 기반으로 쿼리 실행 중에 조정 쿼리 실행을 활성화하여 쿼리 계획을 다시 최적화할지 여부를 지정합니다.	true
spark.sql.adaptive.forceOptimizeSkewedJoin	추가 셔플을 도입하더라도 OptimizeSkewedJoin을 강제로 활성화할지 여부를 지정합니다.	false
spark.sql.adaptive.localShuffleReader.enabled	정렬 병합 조인에서 브로드캐스트 해시 조인으로 변환한 후와 같이 셔플 파티셔닝이 필요하지 않은 경우 로컬 셔플 리더를 사용할지 여부를 지정합니다. spark.sql.adaptive.enabled가 true여야 합니다.	true
spark.sql.adaptive.maxShuffledHashJoinLocalMapThreshold	로컬 해시 맵을 빌드하기 위한 최대 파티션 크기를 바이트 단위로 설정합니다. 다음과 같은 경우 정렬 병합 조인보다 셔플 해시 조인의 우선순위를 지정합니다. 이 값은 spark.sql.adaptive.advisoryPartitionSizeInBytes와 같거나 초과합니다. 모든 파티션 크기가이 한도 내에 있습니다. spark.sql.join.preferSortMergeJoin 설정을 재정의합니다.	0바이트
spark.sql.adaptive.optimizeSkewsInRebalancePartitions.enabled	spark.sql.adaptive.advisoryPartitionSizeInBytes를 기반으로 왜곡된 셔플 파티션을 더 작은 파티션으로 분할하여 최적화할지 여부를 지정합니다. spark.sql.adaptive.enabled가 true여야 합니다.	true
spark.sql.adaptive.rebalancePartitionsSmallPartitionFactor	분할 중에 파티션을 병합하기 위한 크기 임계값 팩터를 정의합니다. 이 인수보다 작은 파티션에 spark.sql.adaptive.advisoryPartitionSizeInBytes를 곱하면 병합됩니다.	0.2
spark.sql.adaptive.skewJoin.enabled	스큐 파티션을 분할하고 선택적으로 복제하여 셔플 조인에서 데이터 스큐를 처리할지 여부를 지정합니다. 정렬 병합 및 셔플 해시 조인에 적용됩니다. spark.sql.adaptive.enabled가 true여야 합니다.	true
spark.sql.adaptive.skewJoin.skewedPartitionFactor	파티션 스큐를 결정하는 크기 인수를 결정합니다. 파티션의 크기가 둘 다를 초과하면 파티션이 왜곡됩니다. 이 인수에 파티션 크기 중앙값을 곱합니다. spark.sql.adaptive.skewJoin.skewedPartitionThresholdInBytes의 값입니다.	5
spark.sql.adaptive.skewJoin.skewedPartitionThresholdInBytes	왜곡된 파티션을 식별하기 위한 크기 임계값을 바이트 단위로 설정합니다. 파티션의 크기가 둘 다를 초과하면 파티션이 왜곡됩니다. 이 임계값 파티션 크기 중앙값에 spark.sql.adaptive.skewJoin.skewedPartitionFactor를 곱합니다. 이 값을 spark.sql.adaptive.advisoryPartitionSizeInBytes보다 크게 설정하는 것이 좋습니다.	256MB
spark.sql.broadcastTimeout	브로드캐스트 조인 중 브로드캐스트 작업에 대한 제한 시간을 초 단위로 제어합니다.	300초
spark.sql.cbo.enabled	계획 통계 추정을 위해 비용 기반 최적화(CBO)를 활성화할지 여부를 지정합니다.	false
spark.sql.cbo.joinReorder.dp.star.filter	비용 기반 조인 열거 중에 스타 조인 필터 휴리스틱을 적용할지 여부를 지정합니다.	false
spark.sql.cbo.joinReorder.dp.threshold	동적 프로그래밍 알고리즘에 허용되는 조인된 노드의 최대 수를 설정합니다.	12
spark.sql.cbo.joinReorder.enabled	비용 기반 최적화(CBO)에서 조인 재정렬을 활성화할지 여부를 지정합니다.	false
spark.sql.cbo.planStats.enabled	논리적 계획 생성 중에 카탈로그에서 행 수 및 열 통계를 가져올지 여부를 지정합니다.	false
spark.sql.cbo.starSchemaDetection	스타 스키마 감지를 기반으로 조인 재정렬을 활성화할지 여부를 지정합니다.	false
spark.sql.files.maxPartitionNum	파일 기반 소스(Parquet, JSON 및 ORC)에 대한 분할 파일 파티션의 대상 최대 수를 설정합니다. 초기 수가이 값을 초과할 때 파티션의 크기를 조정합니다. 이는 제안된 대상이며 보장된 제한이 아닙니다.	(none)
spark.sql.files.maxRecordsPerFile	단일 파일에 쓸 최대 레코드 수를 설정합니다. 0 또는 음수 값으로 설정하면 제한이 적용되지 않습니다.	0
spark.sql.files.minPartitionNum	파일 기반 소스(Parquet, JSON 및 ORC)에 대한 분할 파일 파티션의 목표 최소 수를 설정합니다. 기본값은 spark.sql.leafNodeDefaultParallelism입니다. 이는 제안된 대상이며 보장된 제한이 아닙니다.	(none)
spark.sql.inMemoryColumnarStorage.batchSize	열 기반 캐싱의 배치 크기를 제어합니다. 크기를 늘리면 메모리 사용률과 압축이 향상되지만 out-of-memory 오류의 위험이 증가합니다.	10000
spark.sql.inMemoryColumnarStorage.compressed	데이터 통계를 기반으로 열에 대한 압축 코덱을 자동으로 선택할지 여부를 지정합니다.	true
spark.sql.inMemoryColumnarStorage.enableVectorizedReader	열 기반 캐싱에 벡터화된 읽기를 활성화할지 여부를 지정합니다.	true
spark.sql.legacy.allowHashOnMapType	맵 유형 데이터 구조에서 해시 작업을 허용할지 여부를 지정합니다. 이 레거시 설정은 이전 Spark 버전의 맵 유형 처리와의 호환성을 유지합니다.	(none)
spark.sql.legacy.allowNegativeScaleOfDecimal	10진수 유형 정의에서 음수 스케일 값을 허용할지 여부를 지정합니다. 이 레거시 설정은 음수 십진수 스케일을 지원하는 이전 Spark 버전과의 호환성을 유지합니다.	(none)
spark.sql.legacy.castComplexTypesToString.enabled	복잡한 유형을 문자열로 캐스팅하기 위해 레거시 동작을 활성화할지 여부를 지정합니다. 이전 Spark 버전의 유형 변환 규칙과의 호환성을 유지합니다.	(none)
spark.sql.legacy.charVarcharAsString	CHAR 및 VARCHAR 유형을 STRING 유형으로 처리할지 여부를 지정합니다. 이 레거시 설정은 이전 Spark 버전의 문자열 유형 처리와 호환됩니다.	(none)
spark.sql.legacy.createEmptyCollectionUsingStringType	문자열 유형 요소를 사용하여 빈 컬렉션을 생성할지 여부를 지정합니다. 이 레거시 설정은 이전 Spark 버전의 컬렉션 초기화 동작과의 호환성을 유지합니다.	(none)
spark.sql.legacy.exponentLiteralAsDecimal.enabled	지수 리터럴을 십진수 유형으로 해석할지 여부를 지정합니다. 이 레거시 설정은 이전 Spark 버전의 숫자 리터럴 처리와의 호환성을 유지합니다.	(none)
spark.sql.legacy.json.allowEmptyString.enabled	JSON 처리에서 빈 문자열을 허용할지 여부를 지정합니다. 이 레거시 설정은 이전 Spark 버전의 JSON 구문 분석 동작과의 호환성을 유지합니다.	(none)
spark.sql.legacy.parquet.int96RebaseModelRead	Parquet 파일을 읽을 때 레거시 INT96 타임스탬프 리베이스 모드를 사용할지 여부를 지정합니다. 이 레거시 설정은 이전 Spark 버전의 타임스탬프 처리와의 호환성을 유지합니다.	(none)
spark.sql.legacy.timeParserPolicy	이전 버전과의 호환성을 위해 시간 구문 분석 동작을 제어합니다. 이 레거시 설정은 문자열에서 타임스탬프와 날짜를 구문 분석하는 방법을 결정합니다.	(none)
spark.sql.legacy.typeCoercion.datetimeToString.enabled	날짜/시간 값을 문자열로 변환할 때 레거시 유형 강제 동작을 활성화할지 여부를 지정합니다. 이전 Spark 버전의 날짜/시간 변환 규칙과의 호환성을 유지합니다.	(none)
spark.sql.maxSinglePartitionBytes	최대 파티션 크기를 바이트 단위로 설정합니다. 플래너는 병렬 처리를 개선하기 위해 더 큰 파티션에 대한 셔플 작업을 도입합니다.	128분
spark.sql.metadataCacheTTLSeconds	메타데이터 캐시의 TTL(time-to-live)을 제어합니다. 파티션 파일 메타데이터 및 세션 카탈로그 캐시에 적용됩니다. 다음이 필요합니다. 0보다 큰 양수 값 spark.sql.catalogImplementation spark.sql.hive.filesourcePartitionFileCacheSize가 0보다 큼 spark.sql.hive.manageFilesourcePartitions가 true로 설정됨	-1000ms
spark.sql.optimizer.collapseProjectAlwaysInline	중복이 발생하더라도 인접한 프로젝션과 인라인 표현식을 축소할지 여부를 지정합니다.	false
spark.sql.optimizer.dynamicPartitionPruning.enabled	조인 키로 사용되는 파티션 열에 대한 조건자를 생성할지 여부를 지정합니다.	true
spark.sql.optimizer.enableCsvExpressionOptimization	from_csv 작업에서 불필요한 열을 정리하여 SQL 옵티마이저에서 CSV 표현식을 최적화할지 여부를 지정합니다.	true
spark.sql.optimizer.enableJsonExpressionOptimization	다음을 통해 SQL 옵티마이저에서 JSON 표현식을 최적화할지 여부를 지정합니다. from_json 작업에서 불필요한 열 정리 from_json 및 to_json 조합 간소화 named_struct 작업 최적화	true
spark.sql.optimizer.excludedRules	쉼표로 구분된 규칙 이름으로 식별되는 비활성화할 옵티마이저 규칙을 정의합니다. 일부 규칙은 정확성을 위해 필요하므로 비활성화할 수 없습니다. 최적화 프로그램은 성공적으로 비활성화된 규칙을 기록합니다.	(none)
spark.sql.optimizer.runtime.bloomFilter.applicationSideScanSizeThreshold	애플리케이션 측에 블룸 필터를 주입하는 데 필요한 최소 집계 스캔 크기를 바이트 단위로 설정합니다.	10GB
spark.sql.optimizer.runtime.bloomFilter.creationSideThreshold	생성 측에 블룸 필터를 주입하기 위한 최대 크기 임계값을 정의합니다.	10MB
spark.sql.optimizer.runtime.bloomFilter.enabled	셔플 조인의 한쪽에 선택적 조건자가 있을 때 셔플 데이터를 줄이기 위해 블룸 필터를 삽입할지 여부를 지정합니다.	true
spark.sql.optimizer.runtime.bloomFilter.expectedNumItems	런타임 블룸 필터의 기본 예상 항목 수를 정의합니다.	1000000
spark.sql.optimizer.runtime.bloomFilter.maxNumBits	런타임 블룸 필터에 허용되는 최대 비트 수를 설정합니다.	67108864
spark.sql.optimizer.runtime.bloomFilter.maxNumItems	런타임 블룸 필터에 허용되는 예상 항목의 최대 수를 설정합니다.	4000000
spark.sql.optimizer.runtime.bloomFilter.numBits	런타임 블룸 필터에 사용되는 기본 비트 수를 정의합니다.	8388608
spark.sql.optimizer.runtime.rowlevelOperationGroupFilter.enabled	행 수준 작업에 대해 런타임 그룹 필터링을 활성화할지 여부를 지정합니다. 데이터 소스가 다음을 수행할 수 있도록 허용합니다. 데이터 소스 필터를 사용하여 전체 데이터 그룹(예: 파일 또는 파티션) 정리 런타임 쿼리를 실행하여 일치하는 레코드 식별 비용이 많이 드는 재작성을 방지하기 위해 불필요한 그룹을 삭제합니다. 제한 사항: 모든 표현식이 데이터 소스 필터로 변환할 수 있는 것은 아닙니다. 일부 표현식에는 Spark 평가가 필요합니다(예: 하위 쿼리).	true
spark.sql.optimizer.runtimeFilter.number.threshold	주입된 런타임 필터(비 DPP)의 총 수를 설정합니다. 이는 블룸 필터가 너무 많은 드라이버 OOMs을 방지하기 위한 것입니다.	10
spark.sql.optimizer.runtimeFilter.semiJoinReduction.enabled	셔플 조인의 한쪽에 선택적 조건자가 있는 경우 셔플 데이터를 줄이기 위해 세미 조인을 삽입할지 여부를 지정합니다.	false
spark.sql.parquet.aggregatePushdown	최적화를 위해 집계를 Parquet으로 푸시다운할지 여부를 지정합니다. 지원: 부울, 정수, 부동 소수점 및 날짜 유형의 경우 MIN 및 MAX 모든 데이터 유형에 대한 COUNT Parquet 파일 바닥글에서 통계가 누락된 경우 예외가 발생합니다.	false
spark.sql.parquet.columnarReaderBatchSize	각 Parquet 벡터화된 리더 배치의 행 수를 제어합니다. out-of-memory 오류를 방지하기 위해 성능 오버헤드와 메모리 사용량의 균형을 맞추는 값을 선택합니다.	4096
spark.sql.parquet.enableVectorizedReader	벡터화된 Parquet 디코딩을 활성화할지 여부를 지정합니다.	true
spark.sql.shuffle.partitions	조인 또는 집계 중에 데이터 셔플링을 위한 기본 파티션 수를 설정합니다. 동일한 체크포인트 위치에서 구조화된 스트리밍 쿼리 재시작 간에는 수정할 수 없습니다.	200
spark.sql.shuffledHashJoinFactor	셔플 해시 조인 자격을 결정하는 데 사용되는 곱셈 인수를 정의합니다. 작은 쪽 데이터 크기에이 인수를 곱한 값이 큰 쪽 데이터 크기보다 작으면 셔플 해시 조인이 선택됩니다.	3
spark.sql.sources.parallelPartitionDiscovery.threshold	파일 기반 소스(Parquet, JSON 및 ORC)가 있는 드라이버 측 파일 목록의 최대 경로 수를 설정합니다. 파티션 검색 중에 초과하면 별도의 Spark 분산 작업을 사용하여 파일이 나열됩니다.	32
spark.sql.statistics.histogram.enabled	열 통계 계산 중에 등높이 히스토그램을 생성하여 추정 정확도를 개선할지 여부를 지정합니다. 기본 열 통계에 필요한 것 이상의 추가 테이블 스캔이 필요합니다.	false
spark.dynamicAllocation.executorIdleTimeout	동적 할당이 활성화된 경우 실행기가 제거되기 전에 유휴 상태여야 하는 기간을 설정합니다.	60초
spark.dynamicAllocation.schedulerBacklogTimeout	동적 할당이 활성화된 경우 새 실행기를 요청하기 전에 보류 중인 작업을 백로깅해야 하는 기간을 설정합니다.	1초
spark.dynamicAllocation.sustainedSchedulerBacklogTimeout	spark.dynamicAllocation.schedulerBacklogTimeout,과 동일하지만 후속 실행기 요청에만 사용됩니다.	( spark.dynamicAllocation.schedulerBacklogTimeout)
spark.scheduler.minRegisteredResourcesRatio	예약이 시작되기 전에 대기할 등록된 리소스(등록된 리소스/총 예상 리소스)의 최소 비율을 설정합니다. 0.0에서 1.0 사이의 두 배로 지정됩니다. 리소스의 최소 비율에 도달했는지 여부에 관계없이 예약이 시작되기 전에 대기하는 최대 시간은 spark.scheduler.maxRegisteredResourcesWaitingTime에 의해 제어됩니다.	0.8
spark.scheduler.maxRegisteredResourcesWaitingTime	예약이 시작되기 전에 리소스 등록을 기다리는 최대 시간을 설정합니다.	30초
spark.sql.hive.metastorePartitionPruningFallbackOnException	Hive 메타스토어에서 모든 파티션을 가져오고 메타스토어에서 MetaException이 발생할 때 Spark 클라이언트 측에서 파티션 정리를 수행할지 여부를 지정합니다.	false

속성 이름	설명	기본 값
spark.sql.autoBroadcastJoinThreshold	조인 중에 작업자 노드로 브로드캐스트하기 위한 최대 테이블 크기를 바이트 단위로 설정합니다. 브로드캐스팅을 비활성화하려면 -1로 설정합니다.	10MB(CR.4X의 경우 -1, 작업자 32명)
spark.dynamicAllocation.enabled	워크로드에 따라이 애플리케이션에 등록된 실행기 수를 확장 및 축소하는 동적 리소스 할당을 사용할지 여부를 지정합니다.	true
spark.io.compression.codec	RDD 파티션, 이벤트 로그, 브로드캐스트 변수 및 셔플 출력과 같은 내부 데이터를 압축하는 데 사용되는 코덱을 설정합니다. 지원되는 값: lz4, snappy, zstd, gzip.	gzip
spark.sql.session.timeZone	문자열 리터럴 및 Java 객체 변환에서 타임스탬프를 처리하기 위한 세션 시간대를 정의합니다. 다음을 허용합니다. 영역/도시 형식의 리전 기반 IDs(예: America/Los_Angeles) 영역 오프셋(예: -08 또는 +01:00) +00:00에 대한 별칭으로 UTC 또는 Z	UTC

일 단위의 데이터 보존에 데이터를 유지할 일 수를 입력합니다.
결과 형식에서 ML 입력 채널이 사용해야 하는 데이터 형식으로 CSV 또는 Parquet을 선택합니다.

서비스 액세스에서이 테이블에 액세스하는 데 사용할 기존 서비스 역할 이름을 선택하거나 새 서비스 역할 생성 및 사용을 선택합니다.
암호화에서 사용자 지정 KMS 키로 보안 암호 암호화를 선택하여 자체 KMS 키 및 관련 정보를 지정합니다. 그렇지 않으면 Clean Rooms ML이 암호화를 관리합니다.
(선택 사항) 컴퓨팅 지급인에서 쿼리 컴퓨팅 비용을 지불하는 공동 작업 구성원을 선택합니다.

참고
공동 작업에 쿼리 컴퓨팅을 위한 지급인 후보가 하나만 있는 경우 기본적으로 해당 지급인으로 설정됩니다.
(선택 사항) 합성 데이터 생성 지급인에서 합성 데이터 생성 비용을 지불하는 공동 작업 구성원을 선택합니다.

참고
이 옵션은 ML 입력 채널이 합성 데이터 출력에 대해 구성된 분석 템플릿을 사용할 때 나타납니다. 공동 작업에서 합성 데이터 생성을 위한 지급인 후보가 하나뿐인 경우 기본적으로 해당 지급인으로 설정됩니다.
ML 입력 채널 생성을 선택합니다.

ML 입력 채널을 생성하는 데 몇 분 정도 걸립니다. ML 모델 탭에서 ML 입력 채널 목록을 볼 수 있습니다.

참고

ML 입력 채널이 생성된 후에는 편집할 수 없습니다.

API

ML 입력 채널(API)을 생성하려면

특정 파라미터로 다음 코드를 실행합니다.


import boto3 
acr_client = boto3.client('cleanroomsml')

acr_client.create_ml_input_channel(
    name="ml_input_channel_name",
    membershipIdentifier='membership_id',
    configuredModelAlgorithmAssociations=[configured_model_algorithm_association_arn],
    retentionInDays=1,
    inputChannel={
        "dataSource": {
            "protectedQueryInputParameters": {
                "sqlParameters": {
                    "queryString": "select * from table",
                    "computeConfiguration": {
                        "worker": {
                            "type": "CR.1X",
                            "number": 16,
                            "properties": {
                                "spark": {
                                    "spark configuration key": "spark configuration value",
                                }
                            }   
                        }
                    },
                    "resultFormat": "PARQUET"
                }
            }
        },
        "roleArn": "arn:aws:iam::111122223333:role/role_name"
    }
)
channel_arn = resp['ML Input Channel ARN']

javascript가 브라우저에서 비활성화되거나 사용이 불가합니다.

AWS 설명서를 사용하려면 Javascript가 활성화되어야 합니다. 지침을 보려면 브라우저의 도움말 페이지를 참조하십시오.

문서 규칙

구성된 모델 알고리즘 연결

훈련된 모델 생성

AWS Clean Rooms ML에서 ML 입력 채널 생성

ML 입력 채널을 생성하려면(콘솔)

주의

참고

참고

참고

참고