프라이버시 강화 합성 데이터 세트 생성 - AWS Clean Rooms

기계 번역으로 제공되는 번역입니다. 제공된 번역과 원본 영어의 내용이 상충하는 경우에는 영어 버전이 우선합니다.

프라이버시 강화 합성 데이터 세트 생성

합성 데이터 세트는 기반이 되는 원래 데이터 세트와 유사한 통계 속성을 갖지만 원래 데이터 세트에 있는 실제 관측치를 포함하지 않습니다. 개인 정보 강화 합성 데이터 세트를 사용하면 데이터 개인 정보 보호 문제가 이전에 방지한 새로운 기계 학습(ML) 모델 훈련 사용 사례를 잠금 해제할 수 있습니다. ML 입력 채널을 생성할 때 ML 모델을 훈련하는 동안 합성 데이터를 생성하여 민감한 정보를 보호할 수 있습니다.

합성 데이터로 템플릿을 생성할 때 다음을 수행해야 합니다.

  • 템플릿 출력이 합성되어야 함

  • 출력 스키마 열을 숫자 또는 범주형으로 분류

  • 조직의 요구 사항에 따라 합성 데이터 사용자 지정

  • 개인 정보 보호 설정 조정:

    • 프라이버시 수준 설정(엡실론)

    • 프라이버시 임계값 구성

주의

합성 데이터 생성은 특정 개인이 원래 데이터세트에 있는지 또는 해당 개인의 학습 속성이 있는지 여부에 관계없이 개별 속성을 유추하지 못하도록 보호합니다. 그러나 개인 식별 정보(PII)를 포함하여 원래 데이터 세트의 리터럴 값이 합성 데이터 세트에 나타나는 것을 방지하지는 않습니다.

데이터 주체를 다시 식별할 수 있으므로 하나의 데이터 주체에만 연결된 입력 데이터 세트의 값을 사용하지 않는 것이 좋습니다. 예를 들어 한 명의 사용자만 우편번호에 거주하는 경우 합성 데이터 세트에 해당 우편번호가 있으면 사용자가 원래 데이터 세트에 있음을 확인할 수 있습니다. 고정밀 값을 잘라내거나 흔하지 않은 카탈로그를 다른 카탈로그로 대체하는 등의 기법을 사용하여 이러한 위험을 완화할 수 있습니다. 이러한 변환은 ML 입력 채널을 생성하는 데 사용되는 쿼리의 일부일 수 있습니다.

사용자 지정 모델 훈련을 위한 합성 데이터를 생성하는 방법에 대한 자세한 내용은 섹션을 참조하세요SQL 분석 템플릿 생성.

합성 출력이 있는 분석 템플릿은 ML 입력 채널을 생성하는 데만 사용할 수 있습니다. 자세한 내용은 AWS Clean Rooms ML에서 ML 입력 채널 생성 단원을 참조하십시오.