합성 데이터 생성 시 고려 사항 - AWS Clean Rooms

기계 번역으로 제공되는 번역입니다. 제공된 번역과 원본 영어의 내용이 상충하는 경우에는 영어 버전이 우선합니다.

합성 데이터 생성 시 고려 사항

AWS Clean Rooms ML을 사용하면 공동 작업 구성원이 집합 데이터 세트에서 원래 데이터 세트의 주체를 비가역적으로 비식별화하는 합성 데이터 세트를 생성하여 사용자 지정 기계 학습 모델을 훈련할 수 있습니다. 공동 작업을 생성할 때 누가 합성 데이터 생성 비용을 지불하는지 지정하도록 결제 정보를 구성해야 합니다. 다음은 합성 데이터 세트를 생성하고 사용자 지정 기계 학습 모델을 훈련하는 상위 수준 단계입니다.

  1. 공동 작업 구성원은 다음을 포함하는 분석 템플릿을 생성합니다.

    • 합성할 데이터 세트를 정의하는 데 필요한 SQL입니다.

    • 합성 데이터가 데이터 공급자의 규정 준수 요구 사항을 충족하는지 확인하는 데 사용되는 개인 정보 보호 관련 구성입니다.

  2. 모든 데이터 공급자가 분석 템플릿을 승인하면 공동 작업 쿼리 실행기는 템플릿을 사용하여 기계 학습(ML) 입력 채널을 생성합니다.

  3. Clean Rooms ML은 합성 데이터 세트를 생성하고 분석 템플릿에 지정된 개인 정보 임계값을 충족하는지 확인합니다.

  4. 모든 임계값이 충족되면 ML 입력 채널이 합성 데이터 세트로 채워집니다.

  5. 그런 다음 고객은이 ML 입력 채널을 사용하여 공동 작업과 연결된 사용자 지정 ML 모델을 훈련할 수 있습니다.

중요 고려 사항:

  • Clean Rooms ML에서 생성된 합성 데이터는 원래 데이터 세트에 있는 개인 식별 정보(PII)를 포함하여 개별 값을 제거, 수정, 난독화 또는 삭제하지 않습니다. 합성 데이터 세트는 원본 데이터 세트에서 전체 레코드가 아닌 샘플링 값으로 생성됩니다.

  • 원본 데이터 세트에 유사한 행이 포함된 경우 합성 데이터에는 원본 데이터 세트의 행과 동일한 행이 포함될 수 있습니다.

데이터 세트 준비:

  • 클래스 분포가 상당히 불균형한 열은 피하십시오. 이는 예측 값 또는 “Y” 열에 특히 중요합니다. 불균형이 심하면 합성 데이터 세트의 전반적인 프라이버시가 줄어듭니다.

  • Clean Rooms ML은 순차 레코드 간 상관관계를 유지하는 것이 중요한 시계열 데이터에서 합성 데이터 생성을 지원하지 않습니다.

  • Clean Rooms ML은 텍스트 또는 비정형 데이터에서 합성 데이터 생성을 지원하지 않습니다.

  • 다음 데이터 타입이 지원됩니다.

    데이터 형식 이름
    BIGINT
    BOOLEAN
    CHAR
    DATE
    DECIMAL
    FLOAT
    INTEGER
    LONG
    REAL
    SHORT
    SMALLINT
    TIME
    TIMESTAMP_LTZ
    TIMESTAMP_NTZ
    TINYINT
    VARCHAR

제한 사항:

  • 합성 데이터 생성의 경우 최대 예측 열 수는 1개입니다.

  • 대상 열이 범주형인 경우 서수 데이터 세트의 최대 범주 수는 100개입니다.

  • 원래 데이터 세트에서 행 수는 1,500~250만 개여야 하며 최대 열 수는 1,000개입니다. 대상 열의 null이 아닌 값의 경우 최소 행 수는 1,000개입니다.

개인 정보 지표:

  • Clean Rooms ML은 생성된 합성 데이터가 멤버십 추론 공격(MIAs)으로부터 보호되는 정도를 측정하는 개인 정보 보호 점수를 제공합니다. 서비스는이 점수를 계산하기 위해 합성 프로세스에서 원본 데이터의 5%를 보관합니다.

  • 점수가 50%에 가까우면 양호한 것으로 간주됩니다. 점수가 높을수록 MIAs에 대한 보호가 적음을 나타냅니다. 점수가 50%보다 크게 낮은 경우는 드물며 합성된 데이터의 원본 데이터에서 패턴을 표현하지 않았기 때문일 수 있습니다.

다운스트림 사용자 지정 모델:

  • Clean Rooms ML에서 생성된 합성 데이터는 최대 5개의 클래스로 바이너리 분류 모델 및 멀티클래스 분류 모델을 훈련하는 데 가장 적합합니다.

  • Clean Rooms ML에서 생성된 합성 데이터를 사용하여 회귀 모델을 훈련하면 평균 제곱근 오차(RMSE)로 측정했을 때 모델 정확도가 낮아질 수 있습니다.