Amazon Athena Amazon Bedrock AWS Clean Rooms Amazon CloudWatch Logs Amazon CodeGuru Reviewer Amazon Comprehend Amazon Data Firehose Amazon DataZone AWS Glue AWS Key Management Service AWS Lake Formation AWS 로컬 영역 AWS Nitro Enclaves AWS PrivateLink AWS Resource Access Manager Amazon SageMaker AI 데이터 수명 주기를 관리하는 데 도움이 되는 AWS 기능 데이터를 세분화하는 데 도움이 되는 AWS 서비스 및 기능 데이터 검색, 분류 또는 카탈로그 작성에 도움이 되는 AWS 서비스 및 기능

개인 데이터 OU - PD 애플리케이션 계정

설문 조사

여러분의 의견을 듣고 싶습니다. 간단한 설문 조사에 참여하여 AWS PRA에 대한 피드백을 제공해 주세요.

개인 데이터(PD) 애플리케이션 계정은 조직에서 개인 데이터를 수집하고 처리하는 서비스를 호스팅하는 위치입니다. 특히 이 계정에서 개인 데이터로 정의한 내용을 저장할 수 있습니다. AWS PRA는 다중 계층 서버리스 웹 아키텍처를 통해 여러 개인 정보 보호 구성 예제를 보여줍니다. AWS 랜딩 존에서 워크로드를 운영하는 경우 개인 정보 보호 구성을 획일적 솔루션으로 간주해서는 안 됩니다. 예를 들어 기본 개념, 개인 정보 보호를 강화하는 방법, 조직에서 특정 사용 사례 및 아키텍처에 솔루션을 적용하는 방법을 이해하는 것이 목표일 수 있습니다.

개인 데이터를 수집, 저장 또는 처리하는 조직의 AWS 계정에서 AWS Organizations 및 AWS Control Tower를 사용하여 기본적이고 반복 가능한 가드레일을 배포할 수 있습니다. 이러한 계정에 대한 전용 조직 단위(OU)를 설정하는 것이 중요합니다. 예를 들어 데이터 레지던시가 핵심 설계 고려 사항인 계정의 하위 세트에만 데이터 레지던시 가드레일을 적용할 수 있습니다. 많은 조직의 경우 개인 데이터를 저장하고 처리하는 계정이 이에 해당됩니다.

조직은 개인 데이터세트의 신뢰할 수 있는 소스를 저장하는 위치인 전용 데이터 계정을 지원하는 것을 고려할 수 있습니다. 신뢰할 수 있는 데이터 소스는 가장 신뢰할 수 있고 정확한 버전의 데이터로 간주될 수 있는 기본 버전의 데이터를 저장하는 위치입니다. 예를 들어 신뢰할 수 있는 데이터 소스의 데이터를 훈련 데이터, 고객 데이터의 하위 세트 및 수정된 데이터를 저장하는 데 사용되는 PD 애플리케이션 계정의 Amazon Simple Storage Service(Amazon S3) 버킷과 같은 다른 위치로 복사할 수 있습니다. 이 다중 계정 접근 방식을 사용하여 데이터 계정의 완전하고 확정적인 개인 데이터세트를 PD 애플리케이션 계정의 다운스트림 소비자 워크로드와 분리하면 계정에 대한 무단 액세스가 발생할 경우 영향 범위를 줄일 수 있습니다.

다음 다이어그램에서는 PD 애플리케이션 및 데이터 계정에 구성된 AWS 보안 및 개인 정보 보호 서비스를 보여줍니다.

개인 데이터 OU의 개인 데이터 애플리케이션 및 데이터 계정에 배포된 AWS 서비스.

이 섹션에서는 이 계정에서 사용되는 다음 AWS 서비스에 대한 자세한 정보를 제공합니다.

Amazon Athena
Amazon Bedrock
AWS Clean Rooms
Amazon CloudWatch Logs
Amazon CodeGuru Reviewer
Amazon Comprehend
Amazon Data Firehose
Amazon DataZone
AWS Glue
AWS Key Management Service
AWS Lake Formation
AWS 로컬 영역
AWS Nitro Enclaves
AWS PrivateLink
AWS Resource Access Manager
Amazon SageMaker AI
데이터 수명 주기를 관리하는 데 도움이 되는 AWS 기능
데이터를 세분화하는 데 도움이 되는 AWS 서비스 및 기능
데이터 검색, 분류 또는 카탈로그 작성에 도움이 되는 AWS 서비스 및 기능

Amazon Athena

개인 정보 보호 목표를 충족하기 위해 데이터 쿼리 제한 제어를 고려할 수 있습니다. Amazon Athena는 표준 SQL을 사용하여 Amazon S3에 있는 데이터를 직접 분석할 수 있는 대화형 쿼리 서비스입니다. 데이터를 Athena에 로드할 필요가 없습니다. S3 버킷에 저장된 데이터를 직접 사용합니다.

Athena의 일반적인 사용 사례는 데이터 분석 팀에 맞춤형 데이터세트와 보안 삭제 처리된 데이터세트를 제공하는 것입니다. 데이터세트에 개인 데이터가 포함된 경우 데이터 분석 팀에 거의 가치를 제공하지 않는 개인 데이터의 전체 열을 마스킹하여 데이터세트를 보안 삭제 처리할 수 있습니다. 자세한 내용은 Anonymize and manage data in your data lake with Amazon Athena and AWS Lake Formation(AWS 블로그 게시물)을 참조하세요.

데이터 변환 접근 방식에 Athena에서 지원되는 함수 이외의 추가 유연성이 필요한 경우 사용자 정의 함수(UDF)라고 하는 사용자 지정 함수를 정의할 수 있습니다. Athena에 제출된 SQL 쿼리에서 UDF를 간접 호출할 수 있으며 AWS Lambda에서 실행됩니다. SELECT 및 FILTER SQL 쿼리에서 UDF를 사용할 수 있으며 동일한 쿼리에서 여러 UDF를 간접 호출할 수 있습니다. 개인 정보 보호를 위해 열의 모든 값에서 마지막 4자만 표시하는 등 특정 유형의 데이터 마스킹을 수행하는 UDF를 생성할 수 있습니다.

Amazon Bedrock

Amazon Bedrock은 AI21 Labs, Anthropic, Meta, Mistral AI, Amazon과 같은 선도적인 AI 회사의 파운데이션 모델에 대한 액세스를 제공하는 완전관리형 서비스입니다. 이를 통해 조직은 생성형 AI 애플리케이션을 빌드하고 규모를 조정할 수 있습니다. 어떤 플랫폼을 사용하든 생성형 AI를 사용하는 경우 조직은 개인 데이터의 잠재적 노출, 무단 데이터 액세스 및 기타 규정 준수 위반을 포함한 개인 정보 보호 위험에 직면할 수 있습니다.

Amazon Bedrock Guardrails는 Amazon Bedrock의 생성형 AI 워크로드에서 보안 및 규정 준수 모범 사례를 적용하여 이러한 위험을 완화하도록 설계되었습니다. AI 리소스의 배포 및 사용이 조직의 개인 정보 보호 및 규정 준수 요구 사항에 항상 부합되는 것은 아닙니다. 조직은 생성형 AI 모델을 사용하는 경우 데이터 개인 정보 보호를 유지 관리하는 데 어려움을 겪을 수 있습니다. 이러한 모델은 잠재적으로 민감한 정보를 기억하거나 재현할 수 있기 때문입니다. Amazon Bedrock Guardrails는 사용자 입력 및 모델 응답을 평가하여 개인 정보를 보호하는 데 도움이 됩니다. 전반적으로 입력 데이터에 개인 데이터가 포함된 경우 이 정보가 모델의 출력에 노출될 위험이 있습니다.

Amazon Bedrock Guardrails는 데이터 보호 정책을 적용하고 무단 데이터 노출을 방지하기 위한 메커니즘을 제공합니다. 여기에서는 입력에서 개인 데이터를 감지하고 차단하는 콘텐츠 필터링 기능, 부적절하거나 위험한 주제에 대한 액세스를 방지하는 데 도움이 되는 주제 제한, 모델 프롬프트 및 응답에서 민감한 용어를 마스킹하거나 수정하는 단어 필터를 제공합니다. 이러한 기능은 편향된 응답 또는 고객 신뢰 저하와 같이 개인 정보 보호 위반으로 이어질 수 있는 이벤트를 방지하는 데 도움이 됩니다. 이러한 기능을 사용하면 AI 모델에서 개인 데이터가 실수로 처리되거나 공개되지 않도록 할 수 있습니다. Amazon Bedrock Guardrails는 Amazon Bedrock 외부의 입력 및 응답 평가도 지원합니다. 자세한 내용은 Implement model-independent safety measures with Amazon Bedrock Guardrails(AWS 블로그 게시물)를 참조하세요.

Amazon Bedrock Guardrails를 사용하면 사실적 근거와 응답의 관련성을 평가하는 컨텍스트 근거 검사를 사용하여 모델 할루시네이션의 위험을 제한할 수 있습니다. 검색 증강 생성(RAG) 애플리케이션에서 서드 파티 데이터 소스를 사용하는 생성형 AI 고객 대면 애플리케이션을 배포하는 경우를 예로 들 수 있습니다. 컨텍스트 근거 검사를 사용하여 이러한 데이터 소스에 대한 모델 응답을 검증하고 부정확한 응답을 필터링할 수 있습니다. AWS PRA의 컨텍스트에서는 여러 워크로드 계정에서 Amazon Bedrock 가드레일을 구현하여 각 워크로드의 요구 사항에 맞는 특정 개인 정보 보호 가드레일을 적용할 수 있습니다.

AWS Clean Rooms

조직은 교차하거나 중첩되는 민감한 데이터세트를 분석하여 서로 협업할 방법을 찾고 있으므로 해당 공유 데이터의 보안 및 개인 정보 보호를 유지 관리하는 것이 중요합니다. AWS Clean Rooms는 조직이 원시 데이터 자체를 공유하지 않고 결합된 데이터세트를 분석할 수 있는 안전한 중립 환경인 데이터 클린 룸을 배포하는 데 도움이 됩니다. 또한 자신의 계정에서 데이터를 이동하거나 복사하지 않고 기본 데이터세트를 공개하지 않고도 AWS의 다른 조직에 대한 액세스를 제공하여 고유한 인사이트를 생성할 수도 있습니다. 모든 데이터는 소스 위치에 남아 있습니다. 기본 제공 분석 규칙은 출력을 제한하고 SQL 쿼리를 제한합니다. 모든 쿼리가 로깅되고 협업 멤버는 데이터가 쿼리되는 방식을 볼 수 있습니다.

AWS Clean Rooms 협업을 생성하고 다른 AWS 고객을 해당 협업의 멤버로 초대할 수 있습니다. 한 멤버에게 멤버 데이터세트를 쿼리할 수 있는 권한을 부여하고 추가 멤버를 선택하여 해당 쿼리의 결과를 받도록 선택할 수 있습니다. 둘 이상의 멤버가 데이터세트를 쿼리해야 하는 경우 동일한 데이터 소스와 다른 멤버 설정으로 추가 협업을 생성할 수 있습니다. 각 멤버는 협업 멤버와 공유되는 데이터를 필터링할 수 있으며, 사용자 지정 분석 규칙을 사용하여 협업에 제공하는 데이터를 분석할 수 있는 방법에 대한 제한을 설정할 수 있습니다.

협업에 제시된 데이터와 다른 멤버가 해당 데이터를 사용할 수 있는 방법을 제한하는 것 외에도 AWS Clean Rooms에서는 개인 정보 보호를 위해 도움이 되는 다음과 같은 기능을 제공합니다.

차등 프라이버시는 데이터에 신중하게 보정된 양의 노이즈를 추가하여 사용자 개인 정보 보호를 개선하는 수학 기법입니다. 이를 통해 관심 값을 가리지 않고 데이터세트 내에서 개별 사용자 재식별 위험을 줄일 수 있습니다. AWS Clean Rooms 차등 프라이버시를 사용하는 경우 차등 프라이버시에 대한 전문 지식은 필요하지 않습니다.
AWS Clean Rooms ML을 사용하면 둘 이상의 당사자가 데이터를 직접 서로 공유할 필요 없이 데이터에서 유사한 사용자를 식별할 수 있습니다. 이렇게 하면 협업 멤버가 다른 멤버의 데이터세트에서 개인을 식별할 수 있는 멤버십 추론 공격의 위험이 줄어듭니다. AWS Clean Rooms ML은 유사 모델을 만들고 유사 세그먼트를 생성하여 원본 데이터를 노출하지 않고 데이터세트를 비교하는 데 도움이 됩니다. 이 방식에서는 멤버가 ML 전문 지식을 보유하거나 AWS Clean Rooms 외부에서 작업을 수행할 필요가 없습니다. 훈련된 모델의 전체 제어 및 소유권을 유지합니다.
Cryptographic Computing for Clean Rooms(C3R)를 분석 규칙과 함께 사용하여 민감한 데이터에서 인사이트를 도출할 수 있습니다. 협업의 다른 당사자가 학습할 수 있는 내용을 암호화된 방식으로 제한합니다. C3R 암호화 클라이언트를 사용하면 AWS Clean Rooms에 제공되기 전에 클라이언트에서 데이터가 암호화됩니다. 데이터 테이블은 Amazon S3에 업로드되기 전에 클라이언트 측 암호화 도구를 사용하여 암호화되므로 데이터는 암호화된 상태로 유지되며 처리 과정에서 해당 상태가 유지됩니다.

AWS PRA에서는 데이터 계정에서 AWS Clean Rooms 협업을 생성하는 것이 좋습니다. 이를 사용하여 암호화된 고객 데이터를 서드 파티와 공유할 수 있습니다. 제공된 데이터세트에 중복이 있는 경우에만 사용합니다. 중복을 확인하는 방법에 대한 자세한 내용은 AWS Clean Rooms 설명서의 List analysis rule을 참조하세요.

Amazon CloudWatch Logs

Amazon CloudWatch Logs는 모든 시스템, 애플리케이션 및 AWS 서비스의 로그를 중앙 집중화하여 모니터링하고 안전하게 보관할 수 있도록 도와줍니다. CloudWatch Logs에서는 신규 또는 기존 로그 그룹에 대한 데이터 보호 정책을 사용하여 개인 데이터의 공개 위험을 최소화할 수 있습니다. 데이터 보호 정책은 로그에서 개인 데이터와 같은 민감한 데이터를 감지할 수 있습니다. 데이터 보호 정책은 사용자가 AWS Management 콘솔을 통해 로그에 액세스할 때 해당 데이터를 마스킹할 수 있습니다. 사용자가 워크로드의 전반적인 용도 사양에 따라 개인 데이터에 직접 액세스해야 하는 경우 해당 사용자에게 logs:Unmask 권한을 할당할 수 있습니다. 또한 계정 전체의 데이터 보호 정책을 생성하고 조직의 모든 계정에 이 정책을 일관되게 적용할 수 있습니다. 이 경우 CloudWatch Logs의 모든 현재 및 미래 로그 그룹에 대해 마스킹이 기본적으로 구성됩니다. 또한 감사 보고서를 활성화하고 다른 로그 그룹, Amazon S3 버킷 또는 Amazon Data Firehose로 전송하는 것이 좋습니다. 이러한 보고서에는 각 로그 그룹의 데이터 보호 조사 결과에 대한 자세한 레코드가 포함되어 있습니다.

Amazon CodeGuru Reviewer

개인 정보 보호와 보안 모두의 차원에서 많은 조직이 배포 및 배포 후 단계 모두에서 지속적인 규정 준수를 지원하는 것이 중요합니다. AWS PRA에는 개인 데이터를 처리하는 애플리케이션의 배포 파이프라인에 선제적 제어가 포함되어 있습니다. Amazon CodeGuru Reviewer는 Java, JavaScript 및 Python 코드에서 개인 데이터를 노출할 수 있는 잠재적 결함을 감지할 수 있습니다. 그리고 개발자에게 코드 개선을 위한 제안을 제공합니다. CodeGuru Reviewer는 광범위한 보안, 개인 정보 보호 및 일반적인 권장 사례에서 결함을 식별할 수 있습니다. 이 기능은 AWS CodeCommit, Bitbucket, GitHub 및 Amazon S3를 비롯한 여러 소스 제공업체와 함께 작동하도록 설계되었습니다. CodeGuru Reviewer가 감지할 수 있는 일부 개인 정보 보호 관련 결함은 다음과 같습니다.

SQL 인젝션
보안되지 않은 쿠키
누락된 권한 부여
클라이언트 측 AWS KMS 재암호화

CodeGuru Reviewer가 감지할 수 있는 항목의 전체 목록은 Amazon CodeGuru Detector Library를 참조하세요.

Amazon Comprehend

Amazon Comprehend는 영어 텍스트 문서에서 인사이트 및 관계를 찾기 위해 기계 학습을 사용하는 자연어 처리(NLP) 서비스입니다. Amazon Comprehend는 정형, 반정형 또는 비정형 텍스트 문서에서 개인 데이터를 감지하고 수정할 수 있습니다. 자세한 내용은 Amazon Comprehend 설명서의 Personally identifiable information (PII)을 참조하세요.

AWS SDK 및 Amazon Comprehend API를 사용하여 Amazon Comprehend를 여러 애플리케이션에 통합할 수 있습니다. 예를 들어 Amazon Comprehend를 사용하여 Amazon S3 Object Lambda에서 개인 데이터를 감지하고 수정할 수 있습니다. 조직은 S3 Object Lambda를 사용하여 사용자 지정 코드를 Amazon S3 GET 요청에 추가해 애플리케이션으로 데이터가 반환될 때 데이터를 수정 및 처리할 수 있습니다. S3 Object Lambda는 행을 필터링하고, 이미지 크기를 동적으로 조정하며, 개인 데이터를 수정하는 등의 작업을 수행할 수 있습니다. AWS Lambda 함수에서 지원하는 이 코드는 AWS의 완전관리형 인프라에서 실행되므로 데이터의 파생 사본을 생성 및 저장하거나 프록시를 실행하지 않아도 됩니다. S3 Object Lambda에서 객체를 변환하기 위해 애플리케이션을 변경하지 않아도 됩니다. AWS Serverless Application Repository에서 ComprehendPiiRedactionS3Object Lambda 함수를 사용하여 개인 데이터를 수정할 수 있습니다. 이 함수는 Amazon Comprehend를 사용하여 개인 데이터 엔터티를 감지하고 해당 엔터티를 별표로 대체하여 수정합니다. 자세한 내용은 Amazon S3 설명서의 S3 객체 Lambda 및 Amazon Comprehend를 사용하여 PII 데이터 감지 및 수정을 참조하세요.

Amazon Comprehend에는 AWS SDK를 통한 애플리케이션 통합을 위한 다양한 옵션이 있으므로 Amazon Comprehend를 사용하여 데이터를 수집, 저장 및 처리하는 다양한 위치에서 개인 데이터를 식별할 수 있습니다. Amazon Comprehend ML 기능을 사용하여 애플리케이션 로그(AWS 블로그 게시물), 고객 이메일, 지원 티켓 등에서 개인 데이터를 감지하고 수정할 수 있습니다. PD 애플리케이션 계정의 아키텍처 다이어그램에서는 Amazon EC2의 애플리케이션 로그에 대해 이 함수를 수행하는 방법을 보여줍니다. Amazon Comprehend는 다음과 같은 두 가지 수정 모드를 제공합니다.

REPLACE_WITH_PII_ENTITY_TYPE은 각 PII 엔터티를 해당 유형으로 바꿉니다. 예를 들어 Jane Doe는 NAME으로 대체됩니다.
MASK는 PII 엔터티의 문자를 원하는 문자(!, #, $, %, &, 또는 @)로 바꿉니다. 예를 들어 Jane Doe를 **** ***로 바꿀 수 있습니다.

Amazon Data Firehose

Amazon Data Firehose는 스트리밍 데이터를 캡처 및 변환하고 Amazon Managed Service for Apache Flink 또는 Amazon S3와 같은 다운스트림 서비스로 로드하는 데 사용할 수 있습니다. Firehose는 처음부터 처리 파이프라인을 빌드할 필요 없이 애플리케이션 로그와 같은 대량의 스트리밍 데이터를 전송하는 데 자주 사용됩니다.

Lambda 함수를 사용하여 데이터를 다운스트림으로 전송하기 전에 사용자 지정 또는 기본 제공 처리를 수행할 수 있습니다. 개인 정보 보호를 위해 이 기능은 데이터 최소화 및 국가 간 데이터 전송 요구 사항을 지원합니다. 예를 들어 Lambda 및 Firehose를 사용하여 로그 아카이브 계정에서 중앙 집중화하기 전에 다중 리전 로그 데이터를 변환할 수 있습니다. 자세한 내용은 Biogen: Centralized Logging Solution for Multi Accounts(YouTube 비디오)를 시청하세요. PD 애플리케이션 계정에서 Firehose 전송 스트림으로 로그를 푸시하도록 Amazon CloudWatch 및 AWS CloudTrail를 구성합니다. Lambda 함수는 로그를 변환하여 로그 아카이브 계정의 중앙 S3 버킷으로 전송합니다. 개인 데이터가 포함된 특정 필드를 마스킹하도록 Lambda 함수를 구성할 수 있습니다. 그러면 AWS 리전에서 개인 데이터의 전송을 방지할 수 있습니다. 이 접근 방식을 사용하면 사후가 아니라 전송 및 중앙 집중화 이전에 개인 데이터가 마스킹됩니다. 국가 간 전송 요구 사항이 적용되지 않는 관할 구역의 애플리케이션의 경우 일반적으로 CloudTrail의 조직 추적을 통해 로그를 집계하는 것이 더 운영 효율적이고 비용 효율적입니다. 자세한 내용은 이 가이드의 보안 OU - 보안 도구 계정 섹션에서 AWS CloudTrail을 참조하세요.

Amazon DataZone

조직은 AWS Lake Formation과 같은 AWS 서비스를 통해 데이터를 공유하는 접근 방식의 규모를 조정함에 따라 데이터 소유자라는 데이터에 가장 익숙한 사람이 차등 액세스를 제어하도록 하려고 합니다. 그러나 이러한 데이터 소유자는 동의 또는 국가 간 데이터 전송 고려 사항과 같은 개인 정보 보호 요구 사항을 알고 있을 수 있습니다. Amazon DataZone은 데이터 소유자와 데이터 거버넌스 팀이 데이터 거버넌스 정책에 따라 조직 전체에서 데이터를 공유하고 소비할 수 있도록 지원합니다. Amazon DataZone에서 사업부(LOB)는 자체 데이터를 관리하며 카탈로그를 통해 이 소유권을 추적합니다. 이해 당사자는 비즈니스 작업의 일부로 데이터를 찾고 데이터에 대한 액세스를 요청할 수 있습니다. 데이터 게시자가 설정한 정책을 준수하는 한, 데이터 소유자는 관리자나 데이터 이동 없이 기본 테이블에 대한 액세스 권한을 부여할 수 있습니다.

개인 정보 보호 컨텍스트에서 Amazon DataZone은 다음 사용 사례 예제에서 유용할 수 있습니다.

고객 대면 애플리케이션은 별도의 마케팅 LOB와 공유할 수 있는 사용량 데이터를 생성합니다. 마케팅을 옵트인한 고객의 데이터만 카탈로그에 게시되도록 해야 합니다.
유럽 고객 데이터는 게시되지만 유럽 경제 지역(EEA)의 LOB에서만 이를 구독할 수 있습니다. 자세한 내용은 Enhance data security with fine-grained access controls in Amazon DataZone을 참조하세요.

AWS PRA에서는 공유 Amazon S3 버킷의 데이터를 데이터 생성자인 Amazon DataZone에 연결할 수 있습니다.

AWS Glue

개인 데이터가 포함된 데이터세트를 유지 관리하는 작업은 개인 정보 보호 중심 설계의 주요 구성 요소입니다. 조직의 데이터는 정형, 반정형 또는 비정형 형태로 존재할 수 있습니다. 구조가 없는 개인 데이터세트에서는 데이터 최소화, 데이터 주체 요청의 일부로 단일 데이터 주체에 귀속된 데이터 추적, 일관된 데이터 품질 보장, 데이터세트의 전체 세분화 등 여러 개인 정보 보호 개선 작업을 수행하기 어려울 수 있습니다. AWS Glue는 완전관리형 추출, 전환, 적재(ETL) 서비스입니다. 이 서비스는 데이터 저장소와 데이터 스트림 간에 데이터를 분류, 정리, 보강 및 이동하는 데 도움이 될 수 있습니다. AWS Glue 기능은 분석, 기계 학습 및 애플리케이션 개발을 위한 데이터세트를 검색, 준비, 구조화 및 결합하는 데 도움이 되도록 설계되었습니다. AWS Glue를 사용하여 기존 데이터세트 위에 예측 가능하고 일반적인 구조를 생성할 수 있습니다. AWS Glue Data Catalog, AWS Glue DataBrew 및 AWS Glue Data Quality는 조직의 개인 정보 보호 요구 사항을 지원하는 데 도움이 되는 AWS Glue 기능입니다.

AWS Glue Data Catalog

AWS Glue Data Catalog는 유지 관리 가능한 데이터세트를 설정하는 데 도움이 됩니다. Data Catalog는 AWS Glue에서 추출, 전환, 적재(ETL) 작업의 소스 및 대상으로 사용되는 데이터에 대한 참조를 포함합니다. Data Catalog의 정보는 메타데이터 테이블로 저장되며, 각 테이블은 단일 데이터 저장소를 지정합니다. AWS Glue 크롤러를 실행하여 다양한 데이터 저장소 유형으로 데이터 인벤토리를 가져옵니다. 기본 제공 분류자와 사용자 지정 분류자를 크롤러에 추가합니다. 그러면 이러한 분류자가 개인 데이터의 데이터 형식과 스키마를 추론합니다. 크롤러는 메타데이터를 Data Catalog에 작성합니다. 중앙 집중식 메타데이터 테이블은 AWS 환경의 서로 다른 개인 데이터 소스에 구조와 예측 가능성을 추가하므로 데이터 주체 요청(예: 삭제 권한)에 더 쉽게 응답할 수 있습니다. Data Catalog를 사용하여 이러한 요청에 자동으로 응답하는 방법에 대한 포괄적인 예제는 Handling data erasure requests in your data lake with Amazon S3 Find and Forget(AWS 블로그 게시물)을 참조하세요. 마지막으로 조직에서 AWS Lake Formation을 사용하여 데이터베이스, 테이블, 행 및 셀에 대한 세분화된 액세스를 관리하고 제공하는 경우 Data Catalog는 주요 구성 요소입니다. 데이터 카탈로그는 교차 계정 데이터 공유를 제공하고, 태그 기반 액세스 제어를 사용하여 데이터 레이크를 대규모로 관리(AWS 블로그 게시물)하는 데 도움이 됩니다. 자세한 내용은 이 섹션의 AWS Lake Formation을 참조하세요.

AWS Glue DataBrew

AWS Glue DataBrew는 데이터를 정리하고 정규화하는 데 도움이 되며, 개인 식별 정보를 제거 또는 마스킹하고 데이터 파이프라인의 민감한 데이터 필드를 암호화하는 등 데이터에 대한 변환을 수행할 수 있습니다. 또한 데이터 리니지를 시각적으로 매핑하여 데이터가 거친 다양한 데이터 소스 및 변환 단계를 이해할 수 있습니다. 조직이 개인 데이터 출처를 더 잘 이해하고 추적하기 위해 노력함에 따라 이 기능은 점점 더 중요해지고 있습니다. DataBrew는 데이터 준비 중에 개인 데이터를 마스킹하는 데 도움이 됩니다. 데이터 프로파일링 작업 중에 개인 데이터를 감지하고 개인 데이터가 포함될 수 있는 열의 번호 및 잠재적 범주와 같은 통계를 수집할 수 있습니다. 그런 다음 코드를 작성하지 않고도 대체, 해싱, 암호화 및 암호 해독을 포함하여 기본 제공 가역 또는 비가역 데이터 변환 기술을 사용할 수 있습니다. 그런 다음 정리 및 마스킹 처리된 데이터세트를 분석, 보고 및 기계 학습 태스크에 대한 다운스트림으로 사용할 수 있습니다. DataBrew에서 사용할 수 있는 몇 가지 데이터 마스킹 기법은 다음과 같습니다.

해싱 - 열 값에 해시 함수를 적용합니다.
대체 - 개인 데이터를 다른 사실적인 값으로 바꿉니다.
Null 처리 또는 삭제 - 특정 필드를 null 값으로 바꾸거나 열을 삭제합니다.
마스킹 - 문자 스크램블링 기법을 사용하거나 열의 특정 부분을 마스킹합니다.

사용 가능한 암호화 기법은 다음과 같습니다.

결정적 암호화 - 열 값에 결정적 암호화 알고리즘을 적용합니다. 결정적 암호화는 항상 값에 대해 동일한 사이퍼텍스트를 생성합니다.
확률적 암호화 - 열 값에 확률적 암호화 알고리즘을 적용합니다. 확률적 암호화는 적용될 때마다 다른 사이퍼텍스트를 생성합니다.

DataBrew에서 제공된 개인 데이터 변환 레시피의 전체 목록은 Personally identifiable information (PII) recipe steps를 참조하세요.

AWS Glue 데이터 품질

AWS Glue Data Quality를 사용하면 여러 데이터 파이프라인에서 고품질 데이터가 데이터 소비자에게 전달되기 전에 선제적으로 고품질 데이터 전송을 자동화하고 운영할 수 있습니다. AWS Glue Data Quality는 여러 데이터 파이프라인에서 데이터 품질 문제에 대한 통계 분석을 제공하고, Amazon EventBridge에서 알림을 트리거하며, 문제 해결을 위한 품질 규칙 권장 사항을 제공할 수 있습니다. AWS Glue 또한 Data Quality는 도메인별 언어로 규칙 생성을 지원하므로 사용자 지정 데이터 품질 규칙을 생성할 수 있습니다.

AWS Key Management Service

AWS Key Management Service(AWS KMS)를 사용하면 데이터를 보호하는 데 사용할 암호화 키를 쉽게 생성하고 제어할 수 있습니다. AWS KMS는 하드웨어 보안 모듈을 사용하여 FIPS 140-2 암호화 모듈 검증 프로그램에 따라 AWS KMS keys를 보호하고 검증합니다. 이 서비스가 보안 컨텍스트에서 사용되는 방법에 대한 자세한 내용은 AWS Security Reference Architecture를 참조하세요.

AWS KMS는 암호화를 제공하는 대부분의 AWS 서비스에 통합되며, 개인 데이터를 처리하고 저장하는 애플리케이션에서 KMS 키를 사용할 수 있습니다. AWS KMS를 사용하여 다음을 비롯해 다양한 개인 정보 보호 요구 사항을 지원하고 개인 데이터를 보호할 수 있습니다.

강도, 교체, 만료 및 기타 옵션을 더 잘 제어하기 위해 고객 관리형 키 사용.
전용 고객 관리형 키를 사용하여 개인 데이터 및 개인 데이터에 대한 액세스를 허용하는 보안 암호 보호.
데이터 분류 수준을 정의하고 수준당 하나 이상의 전용 고객 관리형 키 지정. 예를 들어 운영 데이터를 암호화하는 키 하나와 개인 데이터를 암호화하는 다른 키 하나가 있을 수 있습니다.
KMS 키에 대한 의도하지 않은 교차 계정 액세스 방지.
암호화할 리소스와 동일한 AWS 계정 내에 KMS 키 저장.
KMS 키 관리 및 사용에 대한 업무 분리 구현. 자세한 내용은 How to use KMS and IAM to enable independent security controls for encrypted data in S3(AWS 블로그 게시물)를 참조하세요.
예방 및 사후 대응 가드레일을 통해 자동 키 교체 적용.

기본적으로 KMS 키는 저장되며 키가 생성된 리전에서만 사용할 수 있습니다. 조직에 데이터 레지던시 및 주권에 대한 특정 요구 사항이 있는 경우 다중 리전 KMS 키가 사용 사례에 적합한지 고려합니다. 다중 리전 키는 서로 바꿔서 사용할 수 있는 여러 AWS 리전에 존재하는 특수 목적별 KMS 키입니다. 다중 리전 키를 생성하는 프로세스는 AWS KMS 내 AWS 리전 경계를 넘어 키 구성 요소를 이동하므로 이러한 리전 격리의 부족은 조직의 주권 및 레지던시 목표와 호환되지 않을 수 있습니다. 이를 해결하는 한 가지 방법은 리전별 고객 관리형 키와 같은 서로 다른 유형의 KMS 키를 사용하는 것입니다.

외부 키 스토어

많은 조직의 경우 AWS 클라우드의 기본 AWS KMS 키 저장소는 데이터 주권 및 일반 규제 요구 사항을 충족할 수 있습니다. 그러나 드물지만 암호화 키가 클라우드 환경 외부에서 생성 및 유지 관리되고 사용자에게 독립적인 권한 부여 및 감사 경로가 있어야 하는 경우가 있을 수 있습니다. AWS KMS의 외부 키 저장소를 사용하면 조직이 AWS 클라우드 외부에서 소유하고 제어하는 키 구성 요소로 개인 데이터를 암호화할 수 있습니다. 여전히 평소대로 AWS KMS API와 상호 작용하지만 AWS KMS는 사용자가 제공하는 외부 키 저장소 프록시(XKS 프록시) 소프트웨어와만 상호 작용합니다. 그러면 외부 키 저장소 프록시에서 AWS KMS 및 외부 키 관리자 간 모든 통신을 조정합니다.

데이터 암호화에 외부 키 저장소를 사용하는 경우 AWS KMS에서 키를 유지 관리하는 방식과 비교했을 때 추가 운영 오버헤드를 고려하는 것이 중요합니다. 외부 키 저장소를 사용하는 경우 사용자가 외부 키 저장소를 생성, 구성 및 유지 관리해야 합니다. 또한 XKS 프록시와 같이 유지 관리해야 하는 추가 인프라에 오류가 있고 연결이 끊어지면 사용자가 일시적으로 데이터를 해독하고 액세스하지 못할 수 있습니다. 규정 준수 및 규제 이해관계자와 긴밀히 협력하여 개인 데이터 암호화에 대한 법적 및 계약상의 의무와 가용성 및 복원력에 대한 서비스 수준 계약을 이해합니다.

AWS Lake Formation

정형 메타데이터 카탈로그를 통해 데이터세트를 카탈로그화하고 분류하는 많은 조직이 조직 전체에서 해당 데이터세트를 공유하려고 합니다. AWS Identity and Access Management(IAM) 권한 정책을 사용하여 전체 데이터세트에 대한 액세스를 제어할 수 있지만 민감도가 다양한 개인 데이터가 포함된 데이터세트에는 보다 세분화된 제어가 필요한 경우가 많습니다. 예를 들어 용도 사양 및 사용 제한(FPC 웹 사이트)에서는 마케팅 팀이 고객 주소에 액세스해야 하지만 데이터 과학 팀은 액세스해서는 안 된다는 점을 표시할 수 있습니다.

데이터 레이크와 관련된 개인 정보 보호 문제도 있으며, 이는 원본 형식으로 대량의 민감한 데이터에 대한 액세스를 중앙 집중화합니다. 조직의 데이터 대부분은 한 곳에서 중앙 집중식으로 액세스할 수 있으므로 데이터세트, 특히 개인 데이터가 포함된 데이터세트의 논리적 분리가 가장 중요할 수 있습니다. AWS Lake Formation은 단일 소스에서든 데이터 레이크에 포함된 많은 소스에서든 데이터를 공유할 때 거버넌스 및 모니터링을 설정하는 데 도움이 될 수 있습니다. AWS PRA에서는 Lake Formation을 사용하여 데이터 계정의 공유 데이터 버킷에 있는 데이터에 대한 세분화된 액세스 제어를 제공할 수 있습니다.

Lake Formation에서 태그 기반 액세스 제어 기능을 사용할 수 있습니다. 태그 기반 액세스 제어는 속성을 기반으로 권한을 정의하는 권한 부여 전략입니다. Lake Formation에서는 이러한 속성을 LF 태그라고 합니다. LF 태그를 사용하면 이러한 태그를 데이터 카탈로그 데이터베이스, 테이블 및 열에 연결하고 IAM 위탁자에게 동일한 태그를 부여할 수 있습니다. 위탁자에게 리소스 태그 값과 일치하는 태그 값에 대한 액세스 권한이 부여되면 Lake Formation에서 해당 리소스에서의 작업을 허용합니다. 다음 이미지에서는 LF 태그 및 권한을 할당하여 개인 데이터에 대한 차별화된 액세스를 제공하는 방법을 보여줍니다.

이 예제에서는 태그의 계층 특성을 사용합니다. 두 데이터베이스 모두 개인 식별 정보(PII:true)를 포함하지만 열 수준의 태그는 특정 열을 서로 다른 팀으로 제한합니다. 이 예제에서는 PII:true LF 태그가 있는 IAM 위탁자가 이 태그가 있는 AWS Glue 데이터베이스 리소스에 액세스할 수 있습니다. LOB:DataScience LF 태그가 있는 위탁자는 이 태그가 있는 특정 열에 액세스할 수 있고, LOB:Marketing LF 태그가 있는 위탁자는 이 태그가 있는 열에만 액세스할 수 있습니다. 마케팅은 마케팅 사용 사례와 관련된 PII에만 액세스할 수 있으며 데이터 과학 팀은 사용 사례와 관련된 PII에만 액세스할 수 있습니다.

AWS 로컬 영역

데이터 레지던시 요구 사항을 준수해야 하는 경우 이러한 요구 사항을 지원하기 위해 특정 AWS 리전에 개인 데이터를 저장하고 처리하는 리소스를 배포할 수 있습니다. AWS 로컬 영역을 사용할 수도 있습니다. 이 경우 컴퓨팅, 스토리지, 데이터베이스 및 기타 일부 AWS 리소스를 대규모 집단 및 산업 센터와 가까운 곳에 배치하는 데 도움이 됩니다. 로컬 영역은 대규모 대도시 지역과 지리적으로 가까운 AWS 리전의 확장 기능입니다. 로컬 영역이 대응되는 리전 근처에서 로컬 영역 내에 특정 유형의 리소스를 배치할 수 있습니다. 로컬 영역은 동일한 법적 관할 구역 내에서 리전을 사용할 수 없는 경우 데이터 레지던시 요구 사항을 충족하는 데 도움이 될 수 있습니다. 로컬 영역을 사용하는 경우 조직 내에 배포된 데이터 레지던시 제어를 고려합니다. 예를 들어 특정 로컬 영역에서 다른 리전으로의 데이터 전송을 방지하기 위한 제어가 필요할 수 있습니다. SCP를 사용하여 국가 간 데이터 전송 가드레일을 유지 관리하는 방법에 대한 자세한 내용은 Best Practices for managing data residency in AWS 로컬 영역 using landing zone controls(AWS 블로그 게시물)를 참조하세요.

AWS Nitro Enclaves

Amazon Elastic Compute Cloud(Amazon EC2)와 같은 컴퓨팅 서비스를 사용하여 개인 데이터를 처리하는 등 처리 관점에서 데이터 세분화 전략을 고려합니다. 대규모 아키텍처 전략의 일환으로 기밀 컴퓨팅을 사용하면 격리되고 보호되며 신뢰할 수 있는 CPU 엔클레이브에서 개인 데이터 처리를 격리할 수 있습니다. Enclaves는 별도의 강화되고 매우 제한적인 가상 시스템입니다. AWS Nitro Enclaves는 이러한 격리된 컴퓨팅 환경을 생성하는 데 도움이 되는 Amazon EC2 기능입니다. 자세한 내용은 The Security Design of the AWS Nitro System(AWS 백서)을 참조하세요.

Nitro Enclaves는 상위 인스턴스의 커널과 분리된 커널을 배포합니다. 상위 인스턴스의 커널은 엔클레이브에 액세스할 수 없습니다. 사용자는 엔클레이브의 데이터 및 애플리케이션에 SSH 또는 원격으로 액세스할 수 없습니다. 개인 데이터를 처리하는 애플리케이션을 엔클레이브에 임베드하고 엔클레이브와 상위 인스턴스 간 통신을 용이하게 하는 소켓인 엔클레이브의 Vsock를 사용하도록 구성할 수 있습니다.

Nitro Enclaves가 유용할 수 있는 사용 사례 중 하나는 별도의 AWS 리전에 있고 서로 신뢰하지 않을 수 있는 두 데이터 프로세서 간의 공동 처리입니다. 다음 이미지에서는 중앙 처리에 엔클레이브를 사용하는 방법, 엔클레이브로 전송되기 전에 개인 데이터를 암호화하기 위한 KMS 키, 암호 해독을 요청하는 엔클레이브가 증명 문서에 고유한 측정값을 보유하는지를 확인하는 AWS KMS key 정책을 보여줍니다. 자세한 내용과 지침은 Using cryptographic attestation with AWS KMS를 참조하세요. 키 정책 샘플은 이 가이드의 AWS KMS 키를 사용하려면 증명 필요 섹션을 참조하세요.

AWS Nitro Enclave를 사용하여 서로 다른 계정의 Amazon S3 버킷에서 암호화된 데이터 처리.

이 구현에서는 각 데이터 프로세서와 기본 엔클레이브만 일반 텍스트 개인 데이터에 액세스할 수 있습니다. 각 데이터 프로세서 환경 외부에서 데이터가 노출되는 유일한 위치는 액세스 및 변조를 방지하도록 설계된 엔클레이브 자체에 있습니다.

AWS PrivateLink

많은 조직이 신뢰할 수 없는 네트워크에 개인 데이터가 노출되지 않도록 제한하려고 합니다. 예를 들어 전체 애플리케이션 아키텍처 설계의 개인 정보 보호를 개선하려는 경우 데이터 민감도(데이터를 세분화하는 데 도움이 되는 AWS 서비스 및 기능 섹션에서 논의한 데이터세트의 논리적 및 물리적 분리와 유사)를 기반으로 네트워크를 세분화할 수 있습니다. AWS PrivateLink는 가상 프라이빗 클라우드(VPC)에서 VPC 외부의 서비스에 대한 단방향 프라이빗 연결을 생성하는 데 도움이 됩니다. AWS PrivateLink를 사용하면 환경에서 개인 데이터를 저장하거나 처리하는 서비스에 대한 전용 프라이빗 연결을 설정할 수 있습니다. 이 경우 퍼블릭 엔드포인트에 연결하고 신뢰할 수 없는 퍼블릭 네트워크를 통해 이 데이터를 전송할 필요가 없습니다. 범위 내 서비스에 대해 AWS PrivateLink 서비스 엔드포인트를 활성화하면 통신을 위해 인터넷 게이트웨이, NAT 디바이스, 퍼블릭 IP 주소, AWS Direct Connect 연결 또는 AWS Site-to-Site VPN 연결이 필요하지 않습니다. AWS PrivateLink를 사용하여 개인 데이터에 대한 액세스를 제공하는 서비스에 연결하는 경우 조직의 데이터 경계 정의에 따라 VPC 엔드포인트 정책 및 보안 그룹을 사용하여 액세스를 제어할 수 있습니다. 신뢰할 수 있는 조직의 IAM 원칙 및 AWS 리소스만 서비스 엔드포인트에 액세스할 수 있도록 허용하는 VPC 엔드포인트 정책 샘플은 이 가이드의 VPC 리소스에 액세스하려면 조직 멤버십 필요 섹션을 참조하세요.

AWS Resource Access Manager

AWS Resource Access Manager(AWS RAM)는 AWS 계정 간에 리소스를 안전하게 공유하여 운영 오버헤드를 줄이고 가시성과 감사 가능성을 제공하는 데 도움이 됩니다. 다중 계정 세분화 전략을 계획할 경우 AWS RAM을 사용하여 별도의 격리된 계정에 저장하는 개인 데이터 저장소를 공유하는 방법을 고려합니다. 처리를 목적으로 해당 개인 데이터를 신뢰할 수 있는 다른 계정과 공유할 수 있습니다. AWS RAM에서는 공유 리소스에서 수행할 수 있는 작업을 정의하는 권한을 관리할 수 있습니다. AWS RAM에 대한 모든 API 직접 호출은 CloudTrail에 로깅됩니다. 또한 리소스 공유가 변경되는 경우 AWS RAM에서 특정 이벤트를 자동으로 알리도록 Amazon CloudWatch Events를 구성할 수 있습니다.

IAM의 리소스 기반 정책 또는 Amazon S3의 버킷 정책을 사용하여 여러 유형의 AWS 리소스를 다른 AWS 계정과 공유할 수 있지만, AWS RAM에서는 개인 정보 보호에 대한 몇 가지 추가 이점을 제공합니다. AWS에서는 다음을 포함하여 데이터 소유자에게 AWS 계정에서 데이터가 공유되는 방식과 대상에 대한 추가적인 가시성을 제공합니다.

계정 ID 목록을 수동으로 업데이트하는 대신, 전체 OU와 리소스 공유 가능
소비자 계정이 조직에 속하지 않은 경우 공유 시작을 위해 초대 프로세스 적용
각 개별 리소스에 액세스할 수 있는 특정 IAM 위탁자에 대한 가시성

이전에 리소스 기반 정책을 사용하여 리소스 공유를 관리하고 대신 AWS RAM을 사용하려면 PromoteResourceShareCreatedFromPolicy API 작업을 사용합니다.

Amazon SageMaker AI

Amazon SageMaker AI는 ML 모델을 빌드하고 훈련시킨 후 모델을 프로덕션 지원 호스팅 환경에 배포할 수 있는 관리형 기계 학습(ML) 서비스입니다. SageMaker AI는 훈련 데이터를 더 쉽게 준비하고 모델 기능을 생성할 수 있도록 설계되었습니다.

Amazon SageMaker Model Monitor

많은 조직에서 ML 모델을 훈련할 때 데이터 드리프트를 고려합니다. 데이터 드리프트는 프로덕션 데이터와 ML 모델 학습에 사용된 데이터 간의 상당한 차이 또는 시간 경과에 따른 입력 데이터의 의미 있는 변화입니다. 데이터 드리프트는 ML 모델 예측의 전반적인 품질, 정확성 및 공정성을 저하시킬 수 있습니다. 프로덕션 환경에서 ML 모델이 수신하는 데이터의 통계적 속성이 훈련 받은 기준 데이터의 속성과 멀어지면 모델의 예측 정확도가 떨어질 수 있습니다. Amazon SageMaker Model Monitor는 프로덕션에서 Amazon SageMaker AI 기계 학습 모델의 품질을 지속적으로 모니터링하고 데이터 품질을 모니터링합니다. 데이터 드리프트를 조기에 선제적으로 감지하면 모델 재훈련, 업스트림 시스템 감사 또는 데이터 품질 문제 수정과 같은 수정 조치를 구현하는 데 도움이 될 수 있습니다. Model Monitor를 사용하면 모델을 수동으로 모니터링하거나 추가 도구를 빌드가 필요성이 줄어듭니다.

Amazon SageMaker Clarify

Amazon SageMaker Clarify는 모델 편향과 설명 가능성에 대한 인사이트를 제공합니다. SageMaker Clarify는 ML 모델 데이터 준비 및 전반적인 개발 단계에서 일반적으로 사용됩니다. 개발자는 성별이나 연령과 같은 관심 속성을 지정할 수 있으며, SageMaker Clarify는 알고리즘 세트를 실행하여 해당 속성에 편향이 있는지를 감지합니다. 알고리즘이 실행된 후 SageMaker Clarify는 잠재적 편향의 가능한 원인 및 관련 측정값에 대한 설명이 포함된 시각적 보고서를 제공해주므로 사용자는 편향을 해결하기 위한 단계를 식별할 수 있습니다. 다른 연령대에 비해 특정 연령대에 대해서는 사업자 대출 사례가 몇 건밖에 없는 금융 데이터세트를 예로 들면, SageMaker는 여기에 불균형 플래그를 지정하여 모델이 해당 연령대에 불리하게 작동하는 상황을 방지할 수 있도록 합니다. 예측을 검토하고 해당 ML 모델의 편향을 지속적으로 모니터링하여 이미 훈련된 모델의 편향을 확인할 수도 있습니다. 마지막으로 SageMaker Clarify는 Amazon SageMaker AI Experiments와 통합되어 모델의 전반적인 예측 생성 프로세스에 가장 많이 기여한 기능을 설명하는 그래프를 제공합니다. 이 정보는 설명 가능성 성과를 충족하는 데 유용할 수 있으며, 특정 모델 입력이 전반적인 모델 동작에서 원래보다 더 많은 영향을 주는지 확인하는 데 도움이 될 수 있습니다.

Amazon SageMaker Model Card

Amazon SageMaker Model Card를 사용하면 거버넌스 및 보고 목적으로 기계 학습(ML) 모델에 대한 중요한 세부 정보를 문서화할 수 있습니다. 이러한 세부 정보에는 모델 소유자, 범용, 의도한 사용 사례, 가정, 모델의 위험 등급, 훈련 세부 정보 및 지표, 평가 결과가 포함될 수 있습니다. 자세한 내용은 Model Explainability with AWS Artificial Intelligence and Machine Learning Solutions(AWS 백서)를 참조하세요.

Amazon SageMaker Data Wrangler

Amazon SageMaker Data Wrangler는 데이터 준비 및 특성 엔지니어링 프로세스를 간소화하는 데 도움이 되는 기계 학습 도구입니다. 데이터 과학자와 기계 학습 엔지니어가 기계 학습 모델에 사용할 데이터를 빠르고 쉽게 준비하고 변환할 수 있는 시각적 인터페이스를 제공합니다. Data Wrangler를 사용하면 Amazon S3, Amazon Redshift, Amazon Athena와 같은 다양한 소스에서 데이터를 가져올 수 있습니다. 그런 다음 코드를 작성하지 않고도 300개가 넘는 기본 제공 데이터 변환을 사용하여 기능을 정리, 정규화 및 결합할 수 있습니다.

Data Wrangler는 AWS PRA의 데이터 준비 및 특성 엔지니어링 프로세스의 일부로 사용할 수 있습니다. AWS KMS를 사용하여 저장 및 전송 중 데이터 암호화를 지원하고 IAM 역할 및 정책을 사용하여 데이터 및 리소스에 대한 액세스를 제어합니다. AWS Glue 또는 Amazon SageMaker Feature Store를 통한 데이터 마스킹을 지원합니다. Data Wrangler를 AWS Lake Formation과 통합하면 세분화된 데이터 액세스 제어 및 권한을 적용할 수 있습니다. Amazon Comprehend와 함께 Data Wrangler를 사용하여 광범위한 ML Ops 워크플로의 일부로 테이블 형식 데이터에서 개인 데이터를 자동으로 수정할 수도 있습니다. 자세한 내용은 Automatically redact PII for machine learning using Amazon SageMaker Data Wrangler(AWS 블로그 게시물)를 참조하세요.

Data Wrangler의 다재다능한 기능은 계정 번호, 신용 카드 번호, 주민등록번호, 환자 이름, 의료 및 군사 기록 등 많은 산업에 민감한 데이터를 마스킹하는 데 도움이 됩니다. 민감한 데이터에 대한 액세스를 제한하거나 수정하도록 선택할 수 있습니다.

데이터 수명 주기를 관리하는 데 도움이 되는 AWS 기능

개인 데이터가 더 이상 필요하지 않은 경우 많은 데이터 저장소의 데이터에 대해 수명 주기 및 유지 시간 정책을 사용할 수 있습니다. 데이터 보존 정책을 구성할 경우 개인 데이터가 포함될 수 있는 다음 위치를 고려합니다.

Amazon DynamoDB 및 Amazon Relational Database Service(Amazon RDS)와 같은 데이터베이스
Amazon S3 버킷
CloudWatch 및 CloudTrail의 로그
AWS Database Migration Service(AWS DMS) 및 AWS Glue DataBrew 프로젝트의 마이그레이션에서 캐시된 데이터
백업 및 스냅샷

다음 AWS 서비스 및 기능은 AWS 환경에서 데이터 보존 정책을 구성하는 데 도움이 될 수 있습니다.

Amazon S3 수명 주기 - Amazon S3가 객체 그룹에 적용하는 작업을 정의하는 일련의 규칙. Amazon S3 수명 주기 구성에서 사용자를 대신해 Amazon S3가 만료된 객체를 삭제하는 시점을 정의하는 만료 작업을 생성할 수 있습니다. 자세한 내용은 스토리지 수명 주기 관리를 참조하세요.
Amazon Data Lifecycle Manager - Amazon EC2에서 Amazon Elastic Block Store(Amazon EBS) 스냅샷 및 EBS 지원 Amazon Machine Image(AMI)의 생성, 보존 및 삭제를 자동화하는 정책을 생성합니다.
Amazon DynamoDB 유지 시간(TTL) - 항목이 더 이상 필요하지 않은 시점을 결정하는 항목별 타임스탬프를 정의합니다. 지정된 타임스탬프 날짜 및 시간이 지나면 바로 DynamoDB는 테이블에서 항목을 삭제합니다.
CloudWatch Logs의 로그 보존 설정 - 각 로그 그룹의 보존 정책을 1일에서 10년 사이의 값으로 조정할 수 있습니다.
AWS Backup - 데이터 보호 정책을 중앙에서 배포하여 S3 버킷, RDS 데이터베이스 인스턴스, DynamoDB 테이블, EBS 볼륨 등 다양한 AWS 리소스에서 백업 활동을 구성, 관리 및 규제합니다. 리소스 유형을 지정하여 AWS 리소스에 백업 정책을 적용하거나 기존 리소스 태그를 기반으로 적용하여 추가적인 세부 수준을 제공합니다. 중앙 집중식 콘솔에서 백업 활동을 감사하고 보고하여 백업 규정 준수 요구 사항을 충족할 수 있습니다.

데이터를 세분화하는 데 도움이 되는 AWS 서비스 및 기능

데이터 세분화는 별도의 컨테이너에 데이터를 저장하는 프로세스입니다. 이를 통해 각 데이터세트에 차별화된 보안 및 인증 조치를 제공하고 전체 데이터세트에 대한 노출의 영향 범위를 줄일 수 있습니다. 예를 들어 모든 고객 데이터를 하나의 대규모 데이터베이스에 저장하는 대신 이 데이터를 더 작고 관리 가능한 그룹으로 세분화할 수 있습니다.

물리적 및 논리적 분리를 사용하여 개인 데이터를 세분화할 수 있습니다.

물리적 분리 - 데이터를 별도의 데이터 저장소에 저장하거나 데이터를 별도의 AWS 리소스에 배포하는 작업. 데이터가 물리적으로 분리되어 있지만 동일한 위탁자가 두 리소스에 모두 액세스할 수 있습니다. 따라서 물리적 분리와 논리적 분리를 결합하는 것이 좋습니다.
논리적 분리 - 액세스 제어를 사용하여 데이터를 격리하는 작업. 직무에 따라 개인 데이터의 하위 세트에 대한 다양한 수준의 액세스가 필요합니다. 논리적 분리를 구현하는 정책 샘플은 이 가이드의 Amazon DynamoDB의 특정 속성에 대한 액세스 권한 부여 섹션을 참조하세요.

논리적 및 물리적 분리의 조합은 직무 전반의 차별화된 액세스를 지원하기 위해 ID 기반 및 리소스 기반 정책을 작성할 때 유연성, 단순성 및 세분성을 제공합니다. 예를 들어 단일 S3 버킷에서 서로 다른 데이터 분류를 논리적으로 분리하는 정책을 생성하는 방법은 운영상 복잡할 수 있습니다. 각 데이터 분류에 전용 S3 버킷을 사용하면 정책 구성 및 관리가 단순해집니다.

데이터 검색, 분류 또는 카탈로그 작성에 도움이 되는 AWS 서비스 및 기능

일부 조직에서는 환경에서 추출, 적재, 변환(ELT) 도구를 사용하여 데이터의 선제적 카탈로그 작성을 시작하지 않았습니다. 이러한 고객은 초기 데이터 검색 단계에 있을 수 있습니다. 이 단계에서는 고객이 AWS에서 저장하고 처리하는 데이터와 데이터의 구조 및 분류 방식을 더 잘 파악하길 원할 수 있습니다. Amazon Macie를 사용하여 Amazon S3에서 PII 데이터를 더 잘 이해할 수 있습니다. 그러나 Amazon Macie는 Amazon Relational Database Service(Amazon RDS) 및 Amazon Redshift와 같은 다른 데이터 소스를 분석하는 데 도움을 줄 수 없습니다. 더 큰 데이터 매핑 연습을 시작할 때 두 가지 접근 방식을 사용하여 초기 검색을 가속화할 수 있습니다.

수동 접근 방식 - 두 개의 열과 필요한 만큼의 행으로 테이블을 만듭니다. 첫 번째 열에서는 네트워크 패킷의 헤더 또는 본문이나 사용자가 제공하는 서비스에 존재할 수 있는 데이터 특성(예: 사용자 이름, 주소 또는 성별)을 작성합니다. 규정 준수 팀에 두 번째 열을 작성하도록 요청합니다. 두 번째 열에서는 데이터가 개인 데이터로 간주되는 경우 '예'를 입력하고 그렇지 않은 경우 '아니요'를 입력합니다. 종파 또는 의료 데이터와 같이 특히 민감한 정보로 간주되는 모든 유형의 개인 데이터를 표시합니다.
자동화된 접근 방식 - AWS Marketplace를 통해 제공되는 도구를 사용합니다. 이러한 도구 중 하나가 Securiti입니다. 이러한 솔루션은 다른 클라우드 서비스 플랫폼의 자산뿐만 아니라 여러 AWS 리소스 유형의 데이터를 스캔하고 검색할 수 있는 통합을 제공합니다. 이러한 동일한 솔루션 중 상당수는 중앙 집중식 데이터 카탈로그에서 데이터 자산 및 데이터 처리 활동의 인벤토리를 지속적으로 수집하고 유지 관리할 수 있습니다. 도구를 사용하여 자동화된 분류를 수행하는 경우 조직의 개인 데이터 정의에 맞게 검색 및 분류 규칙을 조정해야 할 수도 있습니다.

javascript가 브라우저에서 비활성화되거나 사용이 불가합니다.

AWS 설명서를 사용하려면 Javascript가 활성화되어야 합니다. 지침을 보려면 브라우저의 도움말 페이지를 참조하십시오.

문서 규칙

인프라 OU - Network 계정

개인 정보 보호 관련 정책 샘플