개인 데이터 OU - PD 애플리케이션 계정 - AWS 권장 가이드

기계 번역으로 제공되는 번역입니다. 제공된 번역과 원본 영어의 내용이 상충하는 경우에는 영어 버전이 우선합니다.

개인 데이터 OU - PD 애플리케이션 계정

설문 조사

귀하의 의견을 듣고 싶습니다. 간단한 설문 조사에 참여하여 AWS PRA에 대한 피드백을 제공해 주십시오.

개인 데이터(PD) 애플리케이션 계정은 조직에서 개인 데이터를 수집하고 처리하는 서비스를 호스팅하는 곳입니다. 특히이 계정에 개인 데이터로 정의한 내용을 저장할 수 있습니다. AWS PRA는 다중 계층 서버리스 웹 아키텍처를 통해 여러 예제 프라이버시 구성을 보여줍니다. AWS 랜딩 존에서 워크로드를 운영할 때 개인 정보 보호 구성을 one-size-fits-all 솔루션으로 간주해서는 안 됩니다. 예를 들어 기본 개념, 개인 정보 보호를 강화하는 방법, 조직에서 특정 사용 사례 및 아키텍처에 솔루션을 적용하는 방법을 이해하는 것이 목표일 수 있습니다.

개인 데이터를 수집, 저장 또는 처리하는 조직의 AWS 계정 에 AWS Organizations 및 AWS Control Tower 를 사용하여 기본적이고 반복 가능한 가드레일을 배포할 수 있습니다. 이러한 계정에 대한 전용 조직 단위(OU)를 설정하는 것이 중요합니다. 예를 들어 데이터 레지던시 가드레일은 데이터 레지던시가 핵심 설계 고려 사항인 계정의 하위 집합에만 적용할 수 있습니다. 많은 조직의 경우 개인 데이터를 저장하고 처리하는 계정입니다.

조직은 개인 데이터 세트의 신뢰할 수 있는 소스를 저장하는 전용 데이터 계정을 지원하는 것을 고려할 수 있습니다. 신뢰할 수 있는 데이터 소스는 기본 버전의 데이터를 저장하는 위치로, 가장 안정적이고 정확한 버전의 데이터로 간주될 수 있습니다. 예를 들어 신뢰할 수 있는 데이터 소스의 데이터를 훈련 데이터, 고객 데이터의 하위 집합 및 수정된 데이터를 저장하는 데 사용되는 PD 애플리케이션 계정의 Amazon Simple Storage Service(Amazon S3) 버킷과 같은 다른 위치로 복사할 수 있습니다. 이 다중 계정 접근 방식을 사용하여 데이터 계정의 완전하고 확정적인 개인 데이터 세트를 PD 애플리케이션 계정의 다운스트림 소비자 워크로드와 분리하면 계정에 대한 무단 액세스가 발생할 경우의 영향 범위를 줄일 수 있습니다.

다음 다이어그램은 PD 애플리케이션 및 데이터 계정에 구성된 AWS 보안 및 개인 정보 보호 서비스를 보여줍니다.

AWS 서비스 개인 데이터 애플리케이션 및 개인 데이터 OU의 데이터 계정에 배포됩니다.

Amazon Athena

개인 정보 보호 목표를 충족하기 위해 데이터 쿼리 제한 제어를 고려할 수 있습니다. Amazon Athena는 표준 SQL을 사용하여 Amazon S3에 있는 데이터를 직접 분석할 수 있는 대화형 쿼리 서비스입니다. 데이터를 Athena에 로드할 필요가 없습니다. S3 버킷에 저장된 데이터와 직접 작동합니다.

Athena의 일반적인 사용 사례는 데이터 분석 팀에 맞춤화되고 삭제된 데이터 세트를 제공하는 것입니다. 데이터 세트에 개인 데이터가 포함된 경우 데이터 분석 팀에 거의 가치를 제공하지 않는 개인 데이터의 전체 열을 마스킹하여 데이터 세트를 삭제할 수 있습니다. 자세한 내용은 Amazon Athena를 사용하여 데이터 레이크의 데이터 익명화 및 관리를 참조하세요 AWS Lake Formation(AWS 블로그 게시물).

데이터 변환 접근 방식에 Athena에서 지원되는 함수 이외의 추가 유연성이 필요한 경우 사용자 정의 함수(UDF)라고 하는 사용자 지정 함수를 정의할 수 있습니다. Athena에 제출된 SQL 쿼리에서 UDFs를 호출하여 실행할 수 있습니다 AWS Lambda. SELECTFILTER SQL 쿼리에서 UDFs 사용할 수 있으며 동일한 쿼리에서 여러 UDFs를 호출할 수 있습니다. 개인 정보 보호를 위해 열에 모든 값의 마지막 4자만 표시하는 등 특정 유형의 데이터 마스킹을 수행하는 UDFs를 생성할 수 있습니다.

Amazon Bedrock

Amazon Bedrock은 AI21 Labs, Anthropic, Meta, Mistral AI, Amazon과 같은 선도적인 AI 회사의 파운데이션 모델에 대한 액세스를 제공하는 완전관리형 서비스입니다. 이를 통해 조직은 생성형 AI 애플리케이션을 구축하고 확장할 수 있습니다. 어떤 플랫폼을 사용하든 생성형 AI를 사용할 때 조직은 개인 데이터의 잠재적 노출, 무단 데이터 액세스 및 기타 규정 준수 위반을 비롯한 개인 정보 보호 위험에 직면할 수 있습니다.

Amazon Bedrock Guardrails는 Amazon Bedrock의 생성형 AI 워크로드에서 보안 및 규정 준수 모범 사례를 적용하여 이러한 위험을 완화하도록 설계되었습니다. AI 리소스의 배포 및 사용이 조직의 개인 정보 보호 및 규정 준수 요구 사항에 항상 부합하는 것은 아닙니다. 조직은 생성형 AI 모델을 사용할 때 데이터 프라이버시를 유지하는 데 어려움을 겪을 수 있습니다. 이러한 모델은 잠재적으로 민감한 정보를 기억하거나 재현할 수 있기 때문입니다. Amazon Bedrock Guardrails는 사용자 입력 및 모델 응답을 평가하여 개인 정보를 보호하는 데 도움이 됩니다. 전반적으로 입력 데이터에 개인 데이터가 포함된 경우이 정보가 모델의 출력에 노출될 위험이 있을 수 있습니다.

Amazon Bedrock Guardrails는 데이터 보호 정책을 적용하고 무단 데이터 노출을 방지하는 메커니즘을 제공합니다. 입력에서 개인 데이터를 감지하고 차단하는 콘텐츠 필터링 기능, 부적절하거나 위험한 주제에 대한 액세스를 방지하는 데 도움이 되는 주제 제한, 모델 프롬프트 및 응답에서 민감한 용어를 마스킹하거나 수정하는 단어 필터를 제공합니다. 이러한 기능은 편향된 대응 또는 고객 신뢰 침식과 같이 개인 정보 침해로 이어질 수 있는 이벤트를 방지하는 데 도움이 됩니다. 이러한 기능을 사용하면 AI 모델에서 개인 데이터를 실수로 처리하거나 공개하지 않도록 할 수 있습니다. Amazon Bedrock Guardrails는 Amazon Bedrock 외부의 입력 및 응답 평가도 지원합니다. 자세한 내용은 Implement model-independent safety measures with Amazon Bedrock Guardrails(AWS 블로그 게시물)를 참조하세요.

Amazon Bedrock Guardrails를 사용하면 사실적 근거와 응답의 관련성을 평가하는 상황별 근거 확인을 사용하여 모델 할루시네이션의 위험을 제한할 수 있습니다. 검색 증강 생성(RAG) 애플리케이션에서 타사 데이터 소스를 사용하는 생성형 AI 고객 대면 애플리케이션을 배포하는 경우를 예로 들 수 있습니다. 컨텍스트 근거 확인을 사용하여 이러한 데이터 소스에 대한 모델 응답을 검증하고 부정확한 응답을 필터링할 수 있습니다. AWS PRA의 맥락에서 워크로드 계정 전체에 Amazon Bedrock 가드레일을 구현하여 각 워크로드의 요구 사항에 맞는 특정 프라이버시 가드레일을 적용할 수 있습니다.

AWS Clean Rooms

조직은 교차하거나 중첩되는 민감한 데이터 세트를 분석하여 서로 협업할 방법을 찾고 있으므로 해당 공유 데이터의 보안 및 프라이버시를 유지하는 것이 중요합니다.는 조직이 원시 데이터 자체를 공유하지 않고 결합된 데이터 세트를 분석할 수 있는 안전하고 중립적인 환경인 데이터 클린룸을 배포하는 데 AWS Clean Rooms 도움이 됩니다. 또한 자신의 계정에서 데이터를 이동하거나 복사 AWS 하지 않고 기본 데이터 세트를 공개하지 않고도의 다른 조직에 대한 액세스를 제공하여 고유한 인사이트를 생성할 수 있습니다. 모든 데이터는 소스 위치에 남아 있습니다. 기본 제공 분석 규칙은 출력을 제한하고 SQL 쿼리를 제한합니다. 모든 쿼리가 로깅되고 공동 작업 구성원은 데이터가 쿼리되는 방식을 볼 수 있습니다.

AWS Clean Rooms 공동 작업을 생성하고 다른 AWS 고객을 해당 공동 작업의 구성원으로 초대할 수 있습니다. 멤버 한 명에게 멤버 데이터 세트를 쿼리할 수 있는 권한을 부여하고 추가 멤버를 선택하여 해당 쿼리의 결과를 받을 수 있습니다. 둘 이상의 구성원이 데이터 세트를 쿼리해야 하는 경우 동일한 데이터 소스와 다른 구성원 설정으로 추가 공동 작업을 생성할 수 있습니다. 각 구성원은 공동 작업 구성원과 공유되는 데이터를 필터링할 수 있으며, 사용자 지정 분석 규칙을 사용하여 공동 작업에 제공하는 데이터를 분석할 수 있는 방법에 대한 제한을 설정할 수 있습니다.

는 공동 작업에 제시된 데이터와 다른 구성원이 데이터를 사용하는 방법을 제한하는 것 외에도 프라이버시를 보호하는 데 도움이 되는 다음과 같은 기능을 AWS Clean Rooms 제공합니다.

  • 차등 프라이버시는 데이터에 신중하게 보정된 양의 노이즈를 추가하여 사용자 프라이버시를 개선하는 수학 기법입니다. 이렇게 하면 관심 값을 가리지 않고 데이터 세트 내에서 개별 사용자 재식별 위험을 줄일 수 있습니다. AWS Clean Rooms 차등 프라이버시를 사용할 때는 차등 프라이버시 전문 지식이 필요하지 않습니다.

  • AWS Clean Rooms ML을 사용하면 두 명 이상의 당사자가 데이터를 서로 직접 공유하지 않고도 데이터에서 유사한 사용자를 식별할 수 있습니다. 이렇게 하면 공동 작업 구성원이 다른 구성원의 데이터 세트에서 개인을 식별할 수 있는 멤버십 추론 공격의 위험이 줄어듭니다. 유사 모델을 생성하고 유사 세그먼트를 생성하면 AWS Clean Rooms ML은 원본 데이터를 노출하지 않고 데이터 세트를 비교하는 데 도움이 됩니다. 이렇게 하면 멤버가 ML 전문 지식을 보유하거나 외부에서 작업을 수행할 필요가 없습니다 AWS Clean Rooms. 훈련된 모델의 전체 제어 및 소유권을 유지합니다.

  • C3R(Cryptographic Computing for Clean Rooms)을 분석 규칙과 함께 사용하여 민감한 데이터에서 인사이트를 도출할 수 있습니다. 공동 작업의 다른 당사자가 학습할 수 있는 내용을 암호화 방식으로 제한합니다. C3R 암호화 클라이언트를 사용하면 데이터가 제공되기 전에 클라이언트에서 암호화됩니다 AWS Clean Rooms. 데이터 테이블은 Amazon S3에 업로드되기 전에 클라이언트 측 암호화 도구를 사용하여 암호화되므로 데이터는 암호화된 상태로 유지되며 처리를 통해 유지됩니다.

AWS PRA에서는 데이터 계정에서 AWS Clean Rooms 공동 작업을 생성하는 것이 좋습니다. 이를 사용하여 암호화된 고객 데이터를 타사와 공유할 수 있습니다. 제공된 데이터 세트에 중복이 있는 경우에만 사용합니다. 중복을 확인하는 방법에 대한 자세한 내용은 AWS Clean Rooms 설명서의 목록 분석 규칙을 참조하세요.

Amazon CloudWatch Logs

Amazon CloudWatch Logs는 모든 시스템, 애플리케이션 및 AWS 서비스 의 로그를 중앙 집중화하여 모니터링하고 안전하게 보관할 수 있도록 도와줍니다. CloudWatch Logs에서는 신규 또는 기존 로그 그룹에 대한 데이터 보호 정책을 사용하여 개인 데이터의 공개 위험을 최소화할 수 있습니다. 데이터 보호 정책은 로그에서 개인 데이터와 같은 민감한 데이터를 감지할 수 있습니다. 데이터 보호 정책은 사용자가를 통해 로그에 액세스할 때 해당 데이터를 마스킹할 수 있습니다 AWS Management Console. 사용자가 워크로드의 전체 용도 사양에 따라 개인 데이터에 직접 액세스해야 하는 경우 해당 사용자에게 logs:Unmask 권한을 할당할 수 있습니다. 또한 계정 전체의 데이터 보호 정책을 생성하고 조직의 모든 계정에이 정책을 일관되게 적용할 수 있습니다. 이렇게 하면 CloudWatch Logs의 모든 현재 및 미래 로그 그룹에 대해 마스킹이 기본적으로 구성됩니다. 또한 감사 보고서를 활성화하여 다른 로그 그룹, Amazon S3 버킷 또는 Amazon Data Firehose로 전송하는 것이 좋습니다. 이러한 보고서에는 각 로그 그룹의 데이터 보호 결과에 대한 자세한 레코드가 포함되어 있습니다.

Amazon CodeGuru Reviewer

개인 정보 보호와 보안 모두에서 많은 조직이 배포 및 배포 후 단계 모두에서 지속적인 규정 준수를 지원하는 것이 중요합니다. AWS 개인 데이터를 처리하는 애플리케이션의 배포 파이프라인에 사전 예방적 제어가 포함되어 있습니다. Amazon CodeGuru Reviewer는 Java, JavaScript 및 Python 코드에서 개인 데이터를 노출할 수 있는 잠재적 결함을 감지할 수 있습니다. 코드를 개선하기 위한 제안을 개발자에게 제공합니다. CodeGuru Reviewer는 광범위한 보안, 개인 정보 보호 및 일반적인 권장 사례에서 결함을 식별할 수 있습니다. , Bitbucket AWS CodeCommit, GitHub 및 Amazon S3를 비롯한 여러 소스 공급자와 함께 작동하도록 설계되었습니다. CodeGuru Reviewer가 감지할 수 있는 일부 개인 정보 보호 관련 결함은 다음과 같습니다.

  • SQL 주입

  • 보안되지 않은 쿠키

  • 권한 부여 누락

  • 클라이언트 측 AWS KMS 재암호화

CodeGuru Reviewer가 감지할 수 있는 항목의 전체 목록은 Amazon CodeGuru Detector Library를 참조하세요.

Amazon Comprehend

Amazon Comprehend는 기계 학습을 사용하여 영어 텍스트 문서에서 귀중한 인사이트와 연결을 발견하는 자연어 처리(NLP) 서비스입니다. Amazon Comprehend는 정형, 반정형 또는 비정형 텍스트 문서에서 개인 데이터를 감지하고 수정할 수 있습니다. 자세한 내용은 Amazon Comprehend 설명서의 개인 식별 정보(PII)를 참조하세요.

AWS SDKs 및 Amazon Comprehend API를 사용하여 Amazon Comprehend를 여러 애플리케이션과 통합할 수 있습니다. 예를 들어 Amazon Comprehend를 사용하여 Amazon S3 객체 Lambda로 개인 데이터를 감지하고 수정합니다. 조직은 S3 객체 Lambda를 사용하여 Amazon S3 GET 요청에 사용자 지정 코드를 추가하여 애플리케이션에 반환되는 데이터를 수정하고 처리할 수 있습니다. S3 객체 Lambda는 행을 필터링하고, 이미지 크기를 동적으로 조정하고, 개인 데이터를 수정하는 등의 작업을 수행할 수 있습니다. AWS Lambda 함수로 구동되는 코드는에서 완벽하게 관리하는 인프라에서 실행 AWS되므로 데이터의 파생 사본을 생성 및 저장하거나 프록시를 실행할 필요가 없습니다. S3 객체 Lambda로 객체를 변환하기 위해 애플리케이션을 변경할 필요가 없습니다. 에서 ComprehendPiiRedactionS3Object Lambda 함수 AWS Serverless Application Repository 를 사용하여 개인 데이터를 수정할 수 있습니다. 이 함수는 Amazon Comprehend를 사용하여 개인 데이터 엔터티를 감지하고 해당 엔터티를 별표로 대체하여 수정합니다. 자세한 내용은 Amazon S3 S3 설명서의 S3 객체 Lambda 및 Amazon Comprehend를 사용하여 PII 데이터 감지 및 수정을 참조하세요.

Amazon Comprehend에는 AWS SDKs를 통한 애플리케이션 통합을 위한 다양한 옵션이 있으므로 Amazon Comprehend를 사용하여 데이터를 수집, 저장 및 처리하는 다양한 위치에서 개인 데이터를 식별할 수 있습니다. Amazon Comprehend ML 기능을 사용하여 애플리케이션 로그(AWS 블로그 게시물), 고객 이메일, 지원 티켓 등의 개인 데이터를 감지하고 수정할 수 있습니다. PD 애플리케이션 계정의 아키텍처 다이어그램은 Amazon EC2의 애플리케이션 로그에 대해이 함수를 수행하는 방법을 보여줍니다. Amazon Comprehend는 두 가지 수정 모드를 제공합니다.

  • REPLACE_WITH_PII_ENTITY_TYPE는 각 PII 개체를 해당 유형으로 바꿉니다. 예를 들어 Jane DoeNAME으로 대체됩니다.

  • MASK는 PII 개체의 문자를 원하는 문자(!, #, $, %, &, 또는 @)로 바꿉니다. 예를 들어 Jane Doe**** ***로 바꿀 수 있습니다.

Amazon Data Firehose

Amazon Data Firehose를 사용하여 Amazon Managed Service for Apache Flink 또는 Amazon S3와 같은 다운스트림 서비스로 스트리밍 데이터를 캡처, 변환 및 로드할 수 있습니다. Firehose는 처음부터 처리 파이프라인을 구축할 필요 없이 애플리케이션 로그와 같은 대량의 스트리밍 데이터를 전송하는 데 자주 사용됩니다.

Lambda 함수를 사용하여 데이터가 다운스트림으로 전송되기 전에 사용자 지정 또는 기본 제공 처리를 수행할 수 있습니다. 개인 정보 보호를 위해이 기능은 데이터 최소화 및 국가 간 데이터 전송 요구 사항을 지원합니다. 예를 들어 Lambda와 Firehose를 사용하여 로그 아카이브 계정에서 중앙 집중화되기 전에 다중 리전 로그 데이터를 변환할 수 있습니다. 자세한 내용은 Biogen: 다중 계정을 위한 중앙 집중식 로깅 솔루션(YouTube 비디오)을 참조하세요.YouTube PD 애플리케이션 계정에서 Firehose 전송 스트림에 로그를 푸시 AWS CloudTrail 하도록 Amazon CloudWatch 및를 구성합니다. Lambda 함수는 로그를 변환하여 로그 아카이브 계정의 중앙 S3 버킷으로 전송합니다. 개인 데이터가 포함된 특정 필드를 마스킹하도록 Lambda 함수를 구성할 수 있습니다. 이렇게 하면 개인 데이터가 전송되는 것을 방지할 수 있습니다 AWS 리전. 이 접근 방식을 사용하면 전송 및 중앙 집중화 전에 개인 데이터가 마스킹 처리됩니다. 국가 간 전송 요구 사항이 적용되지 않는 관할 구역의 애플리케이션의 경우 일반적으로 CloudTrail의 조직 추적을 통해 로그를 집계하는 것이 더 운영 효율적이고 비용 효율적입니다. 자세한 내용은이 가이드AWS CloudTrail보안 OU - 보안 도구 계정 섹션에서 섹션을 참조하세요.

Amazon DataZone

조직은 AWS 서비스 와 같은를 통해 데이터를 공유하는 접근 방식을 확장함에 따라 데이터 소유자라는 데이터에 가장 익숙한 사람이 차등 액세스를 제어하도록 AWS Lake Formation하려고 합니다. 그러나 이러한 데이터 소유자는 동의 또는 국가 간 데이터 전송 고려 사항과 같은 개인 정보 보호 요구 사항을 알고 있을 수 있습니다. Amazon DataZone은 데이터 소유자와 데이터 거버넌스 팀이 데이터 거버넌스 정책에 따라 조직 전체에서 데이터를 공유하고 소비할 수 있도록 지원합니다. Amazon DataZone에서 LOBs(Line of Business)는 자체 데이터를 관리하며 카탈로그는이 소유권을 추적합니다. 이해 당사자는 비즈니스 작업의 일부로 데이터를 찾고 데이터에 대한 액세스를 요청할 수 있습니다. 데이터 게시자가 설정한 정책을 준수하는 한 데이터 소유자는 관리자나 데이터 이동 없이 기본 테이블에 대한 액세스 권한을 부여할 수 있습니다.

개인 정보 보호 컨텍스트에서 Amazon DataZone은 다음 예제 사용 사례에서 유용할 수 있습니다.

  • 고객 대면 애플리케이션은 별도의 마케팅 LOB와 공유할 수 있는 사용 데이터를 생성합니다. 마케팅을 선택한 고객의 데이터만 카탈로그에 게시되도록 해야 합니다.

  • 유럽 고객 데이터는 게시되지만 유럽 경제 지역(EEA)의 LOBs만 구독할 수 있습니다. 자세한 내용은 Amazon DataZone의 세분화된 액세스 제어를 통한 데이터 보안 강화를 참조하세요.

AWS PRA에서는 공유 Amazon S3 버킷의 데이터를 데이터 생산자인 Amazon DataZone에 연결할 수 있습니다.

AWS Glue

개인 데이터가 포함된 데이터 세트를 유지하는 것은 Privacy by Design의 주요 구성 요소입니다. 조직의 데이터는 정형, 반정형 또는 비정형 형태로 존재할 수 있습니다. 구조가 없는 개인 데이터 세트는 데이터 최소화, 데이터 주체 요청의 일부로 단일 데이터 주체에 귀속된 데이터 추적, 일관된 데이터 품질 보장, 데이터 세트의 전체 세분화 등 여러 개인 정보 보호 강화 작업을 수행하기 어려울 수 있습니다. AWS Glue는 완전 관리형 추출, 변환 및 로드(ETL) 서비스입니다. 데이터 스토어와 데이터 스트림 간에 데이터를 분류, 정리, 보강 및 이동하는 데 도움이 될 수 있습니다. AWS Glue 기능은 분석, 기계 학습 및 애플리케이션 개발을 위한 데이터 세트를 검색, 준비, 구조화 및 결합하는 데 도움이 되도록 설계되었습니다. AWS Glue 를 사용하여 기존 데이터 세트를 기반으로 예측 가능하고 일반적인 구조를 생성할 수 있습니다. AWS Glue Data Catalog AWS Glue DataBrew, 및 AWS Glue Data Quality는 조직의 개인 정보 보호 요구 사항을 지원하는 데 도움이 되는 AWS Glue 기능입니다.

AWS Glue Data Catalog

AWS Glue Data Catalog는 유지 관리 가능한 데이터 세트를 설정하는 데 도움이 됩니다. 데이터 카탈로그에는 추출, 변환 및 로드(ETL) 작업의 소스 및 대상으로 사용되는 데이터에 대한 참조가 포함되어 있습니다 AWS Glue. 데이터 카탈로그의 정보는 메타데이터 테이블로 저장되며 각 테이블은 단일 데이터 스토어를 지정합니다. 크롤러를 AWS Glue 실행하여 다양한 데이터 스토어 유형의 데이터 인벤토리를 가져옵니다. 기본 제공 분류자와 사용자 지정 분류자를 크롤러에 추가하면 이러한 분류자는 개인 데이터의 데이터 형식과 스키마를 유추합니다. 그러면 크롤러가 메타데이터를 데이터 카탈로그에 씁니다. 중앙 집중식 메타데이터 테이블은 AWS 환경의 서로 다른 개인 데이터 소스에 구조와 예측 가능성을 추가하므로 데이터 주체 요청(예: 삭제 권한)에 더 쉽게 응답할 수 있습니다. Data Catalog를 사용하여 이러한 요청에 자동으로 응답하는 방법에 대한 포괄적인 예는 Amazon S3 Find and Forget을 사용하여 데이터 레이크에서 데이터 삭제 요청 처리(블로그 게시물)를 참조하세요.AWS 마지막으로 조직에서 AWS Lake Formation를 사용하여 데이터베이스, 테이블, 행 및 셀에 대한 세분화된 액세스를 관리하고 제공하는 경우 Data Catalog는 주요 구성 요소입니다. 데이터 카탈로그는 교차 계정 데이터 공유를 제공하고 태그 기반 액세스 제어를 사용하여 데이터 레이크를 대규모로 관리하는 데 도움이 됩니다(AWS 블로그 게시물). 자세한 내용은이 섹션AWS Lake Formation의 섹션을 참조하세요.

AWS Glue DataBrew

AWS Glue DataBrew는 데이터를 정리하고 정규화하는 데 도움이 되며 개인 식별 정보를 제거 또는 마스킹하고 데이터 파이프라인의 민감한 데이터 필드를 암호화하는 등 데이터에 대한 변환을 수행할 수 있습니다. 또한 데이터의 계보를 시각적으로 매핑하여 데이터가 통과한 다양한 데이터 소스 및 변환 단계를 이해할 수 있습니다. 조직이 개인 데이터 출처를 더 잘 이해하고 추적하기 위해 노력함에 따라이 기능이 점점 더 중요해지고 있습니다. DataBrew는 데이터 준비 중에 개인 데이터를 마스킹하는 데 도움이 됩니다. 데이터 프로파일링 작업의 일부로 개인 데이터를 감지하고 개인 데이터가 포함될 수 있는 열 수 및 잠재적 범주와 같은 통계를 수집할 수 있습니다. 그런 다음 코드를 작성하지 않고도 대체, 해싱, 암호화 및 복호화를 포함하여 기본 제공 가역 또는 비가역 데이터 변환 기술을 사용할 수 있습니다. 그런 다음 정리 및 마스킹 처리된 데이터 세트를 분석, 보고 및 기계 학습 작업에 다운스트림으로 사용할 수 있습니다. DataBrew에서 사용할 수 있는 몇 가지 데이터 마스킹 기법은 다음과 같습니다.

  • 해싱 - 열 값에 해시 함수를 적용합니다.

  • 대체 - 개인 데이터를 다른 진정성 있는 값으로 바꿉니다.

  • Nulling out 또는 delete - 특정 필드를 null 값으로 바꾸거나 열을 삭제합니다.

  • 마스킹 아웃 - 캐릭터 스크램블링을 사용하거나 열의 특정 부분을 마스킹합니다.

사용 가능한 암호화 기법은 다음과 같습니다.

  • 결정적 암호화 - 열 값에 결정적 암호화 알고리즘을 적용합니다. 결정적 암호화는 항상 값에 대해 동일한 사이퍼텍스트를 생성합니다.

  • 확률 암호화 - 열 값에 확률 암호화 알고리즘을 적용합니다. 확률 암호화는 적용될 때마다 서로 다른 사이퍼텍스트를 생성합니다.

DataBrew에서 제공된 개인 데이터 변환 레시피의 전체 목록은 개인 식별 정보(PII) 레시피 단계를 참조하세요.

AWS Glue 데이터 품질

AWS Glue 데이터 품질은 데이터 파이프라인 간에 고품질 데이터를 데이터 소비자에게 전달하기 전에 사전에 데이터 파이프라인 간에 전송을 자동화하고 운영할 수 있도록 지원합니다. AWS Glue 데이터 품질은 데이터 파이프라인 전반의 데이터 품질 문제에 대한 통계 분석을 제공하고, Amazon EventBridge에서 알림을 트리거하고, 문제 해결을 위한 품질 규칙 권장 사항을 제공할 수 있습니다. AWS Glue 데이터 품질은 또한 도메인별 언어로 규칙 생성을 지원하므로 사용자 지정 데이터 품질 규칙을 생성할 수 있습니다.

AWS Key Management Service

AWS Key Management Service (AWS KMS)를 사용하면 암호화 키를 생성하고 제어하여 데이터를 보호할 수 있습니다.는 하드웨어 보안 모듈을 AWS KMS 사용하여 FIPS 140-2 암호화 모듈 검증 프로그램에 AWS KMS keys 따라 보호하고 검증합니다. 이 서비스가 보안 컨텍스트에서 사용되는 방법에 대한 자세한 내용은 AWS 보안 참조 아키텍처를 참조하세요.

AWS KMS 는 암호화 AWS 서비스 를 제공하는 대부분의와 통합되며 개인 데이터를 처리하고 저장하는 애플리케이션에서 KMS 키를 사용할 수 있습니다. AWS KMS 를 사용하여 다음과 같은 다양한 개인 정보 보호 요구 사항을 지원하고 개인 데이터를 보호할 수 있습니다.

  • 강도, 교체, 만료 및 기타 옵션을 더 잘 제어하기 위해 고객 관리형 키를 사용합니다.

  • 전용 고객 관리형 키를 사용하여 개인 데이터 및 개인 데이터에 대한 액세스를 허용하는 보안 암호를 보호합니다.

  • 데이터 분류 수준을 정의하고 수준당 하나 이상의 전용 고객 관리형 키를 지정합니다. 예를 들어 운영 데이터를 암호화하는 키 하나와 개인 데이터를 암호화하는 키 하나가 있을 수 있습니다.

  • KMS 키에 대한 의도하지 않은 교차 계정 액세스 방지.

  • 암호화할 리소스 AWS 계정 와 동일한 내에 KMS 키 저장.

  • KMS 키 관리 및 사용에 대한 업무 분리 구현. 자세한 내용은 KMS 및 IAM을 사용하여 S3에서 암호화된 데이터에 대한 독립적인 보안 제어를 활성화하는 방법(AWS 블로그 게시물)을 참조하세요.

  • 예방 및 사후 대응 가드레일을 통해 자동 키 교체를 적용합니다.

기본적으로 KMS 키는 저장되며 키가 생성된 리전에서만 사용할 수 있습니다. 조직에 데이터 레지던시 및 주권에 대한 특정 요구 사항이 있는 경우 다중 리전 KMS 키가 사용 사례에 적합한지 고려하세요. 다중 리전 키는 서로 교환하여 사용할 수 AWS 리전 있는 다양한의 특수 목적 KMS 키입니다. 다중 리전 키를 생성하는 프로세스는 키 구성 요소를 내 AWS 리전 경계를 넘어 이동 AWS KMS하므로 이러한 리전 격리 부족은 조직의 주권 및 레지던시 목표와 호환되지 않을 수 있습니다. 이를 해결하는 한 가지 방법은 리전별 고객 관리형 키와 같은 다른 유형의 KMS 키를 사용하는 것입니다.

외부 키 스토어

많은 조직의 경우의 기본 AWS KMS 키 스토어는 데이터 주권 및 일반 규제 요구 사항을 충족할 AWS 클라우드 수 있습니다. 그러나 암호화 키가 클라우드 환경 외부에서 생성 및 유지 관리되고 독립적인 권한 부여 및 감사 경로가 있어야 하는 경우가 있을 수 있습니다. 의 외부 키 스토어를 사용하면 조직이 외부에서 소유하고 제어하는 키 구성 요소로 개인 데이터를 암호화 AWS KMS할 수 있습니다 AWS 클라우드. 여전히 평소와 같이 AWS KMS API와 상호 작용하지만는 사용자가 제공하는 외부 키 스토어 프록시(XKS 프록시) 소프트웨어와만 AWS KMS 상호 작용합니다. 그러면 외부 키 스토어 프록시가 AWS KMS 와 외부 키 관리자 간의 모든 통신을 중재합니다.

데이터 암호화에 외부 키 스토어를 사용하는 경우에서 키를 유지 관리하는 것과 비교하여 추가 운영 오버헤드를 고려하는 것이 중요합니다 AWS KMS. 외부 키 스토어를 사용하면 외부 키 스토어를 생성, 구성 및 유지 관리해야 합니다. 또한 XKS 프록시와 같이 유지 관리해야 하는 추가 인프라에 오류가 있고 연결이 끊어지면 사용자가 일시적으로 데이터를 해독하고 액세스하지 못할 수 있습니다. 규정 준수 및 규제 이해관계자와 긴밀히 협력하여 개인 데이터 암호화에 대한 법적 및 계약상의 의무와 가용성 및 복원력에 대한 서비스 수준 계약을 이해합니다.

AWS Lake Formation

구조화된 메타데이터 카탈로그를 통해 데이터 세트를 카탈로그화하고 분류하는 많은 조직이 조직 전체에서 해당 데이터 세트를 공유하고자 합니다. AWS Identity and Access Management (IAM) 권한 정책을 사용하여 전체 데이터 세트에 대한 액세스를 제어할 수 있지만 민감도가 다양한 개인 데이터가 포함된 데이터 세트에는 더 세분화된 제어가 필요한 경우가 많습니다. 예를 들어, 용도 사양 및 사용 제한(FPC 웹 사이트)은 마케팅 팀이 고객 주소에 액세스해야 하지만 데이터 과학 팀은 그렇지 않음을 나타낼 수 있습니다.

데이터 레이크와 관련된 개인 정보 보호 문제도 있으며, 이는 원본 형식으로 대량의 민감한 데이터에 대한 액세스를 중앙 집중화합니다. 조직의 데이터 대부분은 한 곳에서 중앙에서 액세스할 수 있으므로 데이터 세트, 특히 개인 데이터가 포함된 데이터 세트의 논리적 분리가 가장 중요할 수 있습니다.는 단일 소스에서든 데이터 레이크에 포함된 많은 소스에서든 데이터를 공유할 때 거버넌스 및 모니터링을 설정하는 데 도움이 될 AWS Lake Formation 수 있습니다. AWS PRA에서는 Lake Formation을 사용하여 데이터 계정의 공유 데이터 버킷에 있는 데이터에 대한 세분화된 액세스 제어를 제공할 수 있습니다.

Lake Formation에서 태그 기반 액세스 제어 기능을 사용할 수 있습니다. 태그 기반 액세스 제어는 속성을 기반으로 권한을 정의하는 권한 부여 전략입니다. Lake Formation에서는 이러한 속성을 LF 태그라고 합니다. LF 태그를 사용하여 이러한 태그를 데이터 카탈로그 데이터베이스, 테이블 및 열에 연결하고 IAM 보안 주체에 동일한 태그를 부여할 수 있습니다. Lake Formation은 보안 주체에게 리소스 태그 값과 일치하는 태그 값에 대한 액세스 권한이 부여된 경우 해당 리소스에 대한 작업을 허용합니다. 다음 이미지는 LF 태그 및 권한을 할당하여 개인 데이터에 대한 차별화된 액세스를 제공하는 방법을 보여줍니다.

LF 태그는 팀이 액세스할 수 있는 테이블 열을 제어합니다.

이 예제에서는 태그의 계층적 특성을 사용합니다. 두 데이터베이스 모두 개인 식별 정보(PII:true)를 포함하지만 열 수준의 태그는 특정 열을 다른 팀으로 제한합니다. 이 예제에서는 PII:true LF 태그가 있는 IAM 보안 주체가이 태그가 있는 AWS Glue 데이터베이스 리소스에 액세스할 수 있습니다. LOB:DataScience LF 태그가 있는 보안 주체는이 태그가 있는 특정 열에 액세스할 수 있고, LOB:Marketing LF 태그가 있는 보안 주체는이 태그가 있는 열에만 액세스할 수 있습니다. 마케팅은 마케팅 사용 사례와 관련된 PII에만 액세스할 수 있으며 데이터 과학 팀은 사용 사례와 관련된 PII에만 액세스할 수 있습니다.

AWS 로컬 영역

데이터 레지던시 요구 사항을 준수해야 하는 경우 이러한 요구 사항을 지원하기 AWS 리전 위해 특정에 개인 데이터를 저장하고 처리하는 리소스를 배포할 수 있습니다. 컴퓨팅, 스토리지AWS 로컬 영역, 데이터베이스 및 기타 일부 AWS 리소스를 대규모 인구 및 산업 센터와 가까운 곳에 배치하는 데 도움이 되는를 사용할 수도 있습니다. 로컬 영역은 대규모 대도시 지역 AWS 리전 과 지리적으로 가까운의 확장입니다. 로컬 영역이 해당하는 리전 근처의 로컬 영역 내에 특정 유형의 리소스를 배치할 수 있습니다. 로컬 영역은 동일한 법적 관할권 내에서 리전을 사용할 수 없는 경우 데이터 레지던시 요구 사항을 충족하는 데 도움이 될 수 있습니다. 로컬 영역을 사용하는 경우 조직 내에 배포된 데이터 레지던시 제어를 고려하세요. 예를 들어 특정 로컬 영역에서 다른 리전으로의 데이터 전송을 방지하기 위한 제어가 필요할 수 있습니다. SCPs를 사용하여 국가 간 데이터 전송 가드레일을 유지하는 방법에 대한 자세한 내용은 랜딩 존 제어를 AWS 로컬 영역 사용하여에서 데이터 레지던시를 관리하는 모범 사례(AWS 블로그 게시물)를 참조하세요.

AWS Nitro Enclaves

Amazon Elastic Compute Cloud(Amazon EC2)와 같은 컴퓨팅 서비스를 사용하여 개인 데이터를 처리하는 등 처리 관점에서 데이터 세분화 전략을 고려하세요. 대규모 아키텍처 전략의 일환으로 기밀 컴퓨팅을 사용하면 격리되고 보호되며 신뢰할 수 있는 CPU 엔클레이브에서 개인 데이터 처리를 격리할 수 있습니다. 엔클레이브는 별도의 강화되고 고도로 제한된 가상 머신입니다. AWS Nitro Enclaves는 이러한 격리된 컴퓨팅 환경을 생성하는 데 도움이 되는 Amazon EC2 기능입니다. 자세한 내용은 AWS Nitro 시스템의 보안 설계(AWS 백서)를 참조하세요.

Nitro Enclaves는 상위 인스턴스의 커널과 분리된 커널을 배포합니다. 상위 인스턴스의 커널은 엔클레이브에 액세스할 수 없습니다. 사용자는 엔클레이브의 데이터 및 애플리케이션에 SSH 또는 원격으로 액세스할 수 없습니다. 개인 데이터를 처리하는 애플리케이션은 엔클레이브에 포함되고 엔클레이브와 상위 인스턴스 간의 통신을 용이하게 하는 소켓인 엔클레이브의 Vsock을 사용하도록 구성될 수 있습니다.

Nitro Enclaves가 유용할 수 있는 한 가지 사용 사례는 별도의에 AWS 리전 있고 서로 신뢰하지 않을 수 있는 두 데이터 프로세서 간의 공동 처리입니다. 다음 이미지는 중앙 처리에 엔클레이브를 사용하는 방법, 엔클레이브로 전송되기 전에 개인 데이터를 암호화하기 위한 KMS 키, 복호화를 요청하는 엔클레이브가 증명 문서에 고유한 측정값을 가지고 있는지 확인하는 AWS KMS key 정책을 보여줍니다. 자세한 내용과 지침은 에서 암호화 증명 사용을 참조하세요 AWS KMS. 샘플 키 정책은이 가이드키를 사용하려면 증명 필요 AWS KMS의 섹션을 참조하세요.

AWS Nitro Enclave를 사용하여 서로 다른 계정의 Amazon S3 버킷에서 암호화된 데이터를 처리합니다.

이 구현에서는 각 데이터 프로세서와 기본 엔클레이브만 일반 텍스트 개인 데이터에 액세스할 수 있습니다. 각 데이터 프로세서의 환경 외부에서 데이터가 노출되는 유일한 위치는 액세스 및 변조를 방지하도록 설계된 엔클레이브 자체에 있습니다.

많은 조직이 개인 데이터가 신뢰할 수 없는 네트워크에 노출되는 것을 제한하려고 합니다. 예를 들어 전체 애플리케이션 아키텍처 설계의 프라이버시를 강화하려는 경우 데이터 민감도(AWS 서비스 및 데이터를 세그먼트화하는 데 도움이 되는 기능섹션에서 설명하는 데이터 세트의 논리적 및 물리적 분리와 유사)를 기반으로 네트워크를 세분화할 수 있습니다.는 가상 프라이빗 클라우드(VPCs)에서 VPC 외부의 서비스로의 단방향 프라이빗 연결을 생성하는 데 AWS PrivateLink 도움이 됩니다. 를 사용하면 환경에서 개인 데이터를 저장하거나 처리하는 서비스에 대한 전용 프라이빗 연결을 설정할 AWS PrivateLink수 있습니다. 퍼블릭 엔드포인트에 연결하고 신뢰할 수 없는 퍼블릭 네트워크를 통해이 데이터를 전송할 필요가 없습니다. 범위 내 AWS PrivateLink 서비스에 대해 서비스 엔드포인트를 활성화하면 통신하기 위해 인터넷 게이트웨이, NAT 디바이스, 퍼블릭 IP 주소, AWS Direct Connect 연결 또는 AWS Site-to-Site VPN 연결이 필요하지 않습니다. AWS PrivateLink 를 사용하여 개인 데이터에 대한 액세스를 제공하는 서비스에 연결할 때 조직의 데이터 경계 정의에 따라 VPC 엔드포인트 정책 및 보안 그룹을 사용하여 액세스를 제어할 수 있습니다. 신뢰할 수 있는 조직의 IAM 원칙 및 AWS 리소스만 서비스 엔드포인트에 액세스할 수 있도록 허용하는 샘플 VPC 엔드포인트 정책은이 가이드VPC 리소스에 액세스하려면 조직 멤버십이 필요합니다.의 섹션을 참조하세요.

AWS Resource Access Manager

AWS Resource Access Manager (AWS RAM)를 사용하면에서 리소스를 안전하게 공유 AWS 계정 하여 운영 오버헤드를 줄이고 가시성 및 감사 가능성을 제공할 수 있습니다. 다중 계정 세분화 전략을 계획할 때는 AWS RAM 를 사용하여 별도의 격리된 계정에 저장하는 개인 데이터 스토어를 공유하는 것이 좋습니다. 처리를 위해 신뢰할 수 있는 다른 계정과 해당 개인 데이터를 공유할 수 있습니다. 에서는 공유 리소스에서 수행할 AWS RAM수 있는 작업을 정의하는 권한을 관리할 수 있습니다. 에 대한 모든 API 호출 AWS RAM 은 CloudTrail에 로깅됩니다. 또한 리소스 공유가 변경되는 경우 AWS RAM와 같은의 특정 이벤트에 대해 자동으로 알리도록 Amazon CloudWatch Events를 구성할 수 있습니다.

IAM의 AWS 리소스 기반 정책 또는 Amazon S3의 버킷 정책을 AWS 계정 사용하여 여러 유형의 리소스를 다른와 공유할 수 있지만,는 프라이버시에 대한 몇 가지 추가 이점을 AWS RAM 제공합니다.는 데이터 소유자에게 다음을 AWS 계정포함하여에서 데이터가 공유되는 방식과 대상에 대한 추가 가시성을 AWS 제공합니다.

  • 계정 IDs

  • 소비자 계정이 조직에 속하지 않는 경우 공유 시작을 위한 초대 프로세스 적용

  • 특정 IAM 보안 주체가 각 개별 리소스에 액세스할 수 있는 가시성

이전에 리소스 기반 정책을 사용하여 리소스 공유를 관리하고 AWS RAM 대신를 사용하려면 PromoteResourceShareCreatedFromPolicy API 작업을 사용합니다.

Amazon SageMaker AI

Amazon SageMaker AI는 ML 모델을 구축 및 훈련한 다음 프로덕션 지원 호스팅 환경에 배포하는 데 도움이 되는 관리형 기계 학습(ML) 서비스입니다. SageMaker AI는 훈련 데이터를 더 쉽게 준비하고 모델 기능을 생성할 수 있도록 설계되었습니다.

Amazon SageMaker Model Monitor

많은 조직에서 ML 모델을 훈련할 때 데이터 드리프트를 고려합니다. 데이터 드리프트는 프로덕션 데이터와 ML 모델을 훈련하는 데 사용된 데이터 간의 의미 있는 변형 또는 시간 경과에 따른 입력 데이터의 의미 있는 변화입니다. 데이터 드리프트는 ML 모델 예측의 전반적인 품질, 정확성 및 공정성을 저하시킬 수 있습니다. ML 모델이 프로덕션 환경에서 수신하는 데이터의 통계적 특성이 훈련된 기준 데이터의 특성과 다른 경우 예측의 정확도가 저하될 수 있습니다. Amazon SageMaker 모델 모니터는 프로덕션 환경에서 Amazon SageMaker AI 기계 학습 모델의 품질을 지속적으로 모니터링하고 데이터 품질을 모니터링할 수 있습니다. 데이터 드리프트를 조기에 선제적으로 감지하면 모델 재훈련, 업스트림 시스템 감사 또는 데이터 품질 문제 수정과 같은 수정 조치를 구현하는 데 도움이 될 수 있습니다. Model Monitor를 사용하면 모델을 수동으로 모니터링하거나 추가 도구를 구축할 필요가 줄어듭니다.

Amazon SageMaker Clarify

Amazon SageMaker Clarify는 모델 편향과 설명 가능성에 대한 인사이트를 제공합니다. SageMaker Clarify는 ML 모델 데이터 준비 및 전체 개발 단계에서 일반적으로 사용됩니다. 개발자는 성별 또는 연령과 같은 관심 속성을 지정할 수 있으며, SageMaker Clarify는 알고리즘 세트를 실행하여 해당 속성에 편향이 있는지 감지합니다. 알고리즘이 실행된 후 SageMaker Clarify는 발생 가능한 편향의 소스 및 측정값에 대한 설명이 포함된 시각적 보고서를 제공하므로 편향을 해결하는 단계를 식별할 수 있습니다. 예를 들어, 한 연령대에 대한 비즈니스 대출의 몇 가지 예만 포함된 금융 데이터 세트에서 SageMaker는 불균형에 플래그를 지정하여 해당 연령대에 불리한 모델을 피할 수 있습니다. 예측을 검토하고 해당 ML 모델의 편향을 지속적으로 모니터링하여 이미 훈련된 모델의 편향을 확인할 수도 있습니다. 마지막으로 SageMaker Clarify는 Amazon SageMaker AI Experiments와 통합되어 모델의 전체 예측 생성 프로세스에 가장 많이 기여한 기능을 설명하는 그래프를 제공합니다. 이 정보는 설명 가능성 결과를 충족하는 데 유용할 수 있으며, 특정 모델 입력이 전체 모델 동작에 미치는 영향보다 더 큰 영향을 미치는지 확인하는 데 도움이 될 수 있습니다.

Amazon SageMaker 모델 카드

Amazon SageMaker 모델 카드는 거버넌스 및 보고 목적으로 ML 모델에 대한 중요한 세부 정보를 문서화하는 데 도움이 될 수 있습니다. 이러한 세부 정보에는 모델 소유자, 범용, 의도한 사용 사례, 가정, 모델의 위험 등급, 훈련 세부 정보 및 지표, 평가 결과가 포함될 수 있습니다. 자세한 내용은 AWS 인공 지능 및 Machine Learning 솔루션을 사용한 모델 설명 가능성(AWS 백서)을 참조하세요.

Amazon SageMaker Data Wrangler

Amazon SageMaker Data Wrangler는 데이터 준비 및 기능 엔지니어링 프로세스를 간소화하는 데 도움이 되는 기계 학습 도구입니다. 데이터 과학자와 기계 학습 엔지니어가 기계 학습 모델에 사용할 데이터를 빠르고 쉽게 준비하고 변환할 수 있는 시각적 인터페이스를 제공합니다. Data Wrangler를 사용하면 Amazon S3, Amazon Redshift, Amazon Athena와 같은 다양한 소스에서 데이터를 가져올 수 있습니다. 그런 다음 코드를 작성하지 않고도 300개 이상의 기본 제공 데이터 변환을 사용하여 기능을 정리, 정규화 및 결합할 수 있습니다.

Data Wrangler는 AWS PRA의 데이터 준비 및 기능 엔지니어링 프로세스의 일부로 사용할 수 있습니다. 를 사용하여 저장 및 전송 중 데이터 암호화 AWS KMS를 지원하고 IAM 역할 및 정책을 사용하여 데이터 및 리소스에 대한 액세스를 제어합니다. AWS Glue 또는 Amazon SageMaker 특성 저장소를 통한 데이터 마스킹을 지원합니다. Data Wrangler를와 통합 AWS Lake Formation하면 세분화된 데이터 액세스 제어 및 권한을 적용할 수 있습니다. Amazon Comprehend와 함께 Data Wrangler를 사용하여 광범위한 ML Ops 워크플로의 일부로 테이블 형식 데이터에서 개인 데이터를 자동으로 수정할 수도 있습니다. 자세한 내용은 Amazon SageMaker Data Wrangler를 사용하여 기계 학습을 위한 PII 자동 수정(AWS 블로그 게시물)을 참조하세요.

Data Wrangler의 다목적성은 계정 번호, 신용 카드 번호, 주민등록번호, 환자 이름, 의료 및 군사 기록과 같은 많은 산업에 민감한 데이터를 마스킹하는 데 도움이 됩니다. 민감한 데이터에 대한 액세스를 제한하거나 수정하도록 선택할 수 있습니다.

AWS 데이터 수명 주기를 관리하는 데 도움이 되는 기능

개인 데이터가 더 이상 필요하지 않은 경우 여러 데이터 스토어의 데이터에 수명 주기 및 time-to-live 정책을 사용할 수 있습니다. 데이터 보존 정책을 구성할 때는 개인 데이터가 포함될 수 있는 다음 위치를 고려하십시오.

  • Amazon DynamoDB 및 Amazon Relational Database Service(RDS)와 같은 데이터베이스

  • Amazon S3 버킷

  • CloudWatch 및 CloudTrail의 로그

  • AWS Database Migration Service (AWS DMS) 및 AWS Glue DataBrew 프로젝트의 마이그레이션에서 캐시된 데이터

  • 백업 및 스냅샷

다음 AWS 서비스 및 기능은 AWS 환경에서 데이터 보존 정책을 구성하는 데 도움이 될 수 있습니다.

  • Amazon S3 수명 주기 - Amazon S3가 객체 그룹에 적용하는 작업을 정의하는 규칙 세트입니다. Amazon S3 수명 주기 구성에서 만료 작업을 생성할 수 있습니다. 만료 작업은 Amazon S3가 사용자를 대신하여 만료된 객체를 삭제하는 시기를 정의합니다. 자세한 내용은 스토리지 수명 주기 관리를 참조하세요.

  • Amazon Data Lifecycle Manager - Amazon EC2에서 Amazon Elastic Block Store(Amazon EBS) 스냅샷 및 EBS 지원 Amazon Machine Image(AMIs)의 생성, 보존 및 삭제를 자동화하는 정책을 생성합니다.

  • DynamoDB TTL(Time to Live) - 항목이 더 이상 필요하지 않은 시기를 결정하는 항목별 타임스탬프를 정의합니다. 지정된 타임스탬프의 날짜 및 시간 직후 DynamoDB는 테이블에서 항목을 삭제합니다.

  • CloudWatch Logs의 로그 보존 설정 - 각 로그 그룹의 보존 정책을 1일에서 10년 사이의 값으로 조정할 수 있습니다.

  • AWS Backup - 데이터 보호 정책을 중앙에서 배포하여 S3 버킷, RDS 데이터베이스 인스턴스, DynamoDB 테이블, EBS 볼륨 등 다양한 AWS 리소스에서 백업 활동을 구성, 관리 및 관리합니다. AWS 리소스 유형을 지정하여 리소스에 백업 정책을 적용하거나 기존 리소스 태그를 기반으로를 적용하여 추가 세부 수준을 제공합니다. 중앙 집중식 콘솔에서 백업 활동을 감사하고 보고하여 백업 규정 준수 요구 사항을 충족할 수 있습니다.

AWS 서비스 및 데이터를 세그먼트화하는 데 도움이 되는 기능

데이터 세분화는 별도의 컨테이너에 데이터를 저장하는 프로세스입니다. 이를 통해 각 데이터 세트에 차별화된 보안 및 인증 조치를 제공하고 전체 데이터 세트에 대한 노출의 영향 범위를 줄일 수 있습니다. 예를 들어 모든 고객 데이터를 하나의 대규모 데이터베이스에 저장하는 대신이 데이터를 더 작고 관리 가능한 그룹으로 분할할 수 있습니다.

물리적 및 논리적 분리를 사용하여 개인 데이터를 분할할 수 있습니다.

  • 물리적 분리 - 데이터를 별도의 데이터 스토어에 저장하거나 데이터를 별도의 AWS 리소스에 배포하는 행위입니다. 데이터가 물리적으로 분리되어 있지만 동일한 보안 주체가 두 리소스에 모두 액세스할 수 있습니다. 따라서 물리적 분리와 논리적 분리를 결합하는 것이 좋습니다.

  • 논리적 분리 - 액세스 제어를 사용하여 데이터를 격리하는 작업입니다. 직무에 따라 개인 데이터의 하위 집합에 대한 액세스 수준이 달라집니다. 논리적 분리를 구현하는 샘플 정책은이 가이드특정 Amazon DynamoDB 속성에 대한 액세스 권한 부여의 섹션을 참조하세요.

논리적 및 물리적 분리의 조합은 직무 전반의 차별화된 액세스를 지원하기 위해 자격 증명 기반 및 리소스 기반 정책을 작성할 때 유연성, 단순성 및 세분성을 제공합니다. 예를 들어 단일 S3 버킷에서 서로 다른 데이터 분류를 논리적으로 구분하는 정책을 생성하는 것은 운영상 복잡할 수 있습니다. 각 데이터 분류에 전용 S3 버킷을 사용하면 정책 구성 및 관리가 간소화됩니다.

AWS 서비스 데이터 검색, 분류 또는 카탈로그 작성에 도움이 되는 및 기능

일부 조직에서는 환경에서 추출, 로드 및 변환(ELT) 도구를 사용하여 데이터를 사전에 카탈로그화하기 시작하지 않았습니다. 이러한 고객은 초기 데이터 검색 단계에 있을 수 있습니다.이 단계에서는 고객이 저장하고 처리하는 데이터와 그 구조 및 분류 AWS 방식을 더 잘 이해하고 싶을 수 있습니다. Amazon Macie를 사용하여 Amazon S3의 PII 데이터를 더 잘 이해할 수 있습니다. 그러나 Amazon Macie는 Amazon Relational Database Service(RDS) 및 Amazon Redshift와 같은 다른 데이터 소스를 분석하는 데 도움이 될 수 없습니다. 더 큰 데이터 매핑 연습을 시작할 때 두 가지 접근 방식을 사용하여 초기 검색을 가속화할 수 있습니다.

  • 수동 접근 방식 - 두 개의 열과 필요한 만큼의 행으로 테이블을 만듭니다. 첫 번째 열에서 네트워크 패킷의 헤더 또는 본문이나 사용자가 제공하는 서비스에 있을 수 있는 데이터 특성화(예: 사용자 이름, 주소 또는 성별)를 작성합니다. 규정 준수 팀에 두 번째 열을 작성하도록 요청합니다. 두 번째 열에 데이터가 개인 데이터로 간주되는 경우 "yes"를 입력하고 그렇지 않은 경우 "no"를 입력합니다. 종교적 교파 또는 건강 데이터와 같이 특히 민감한 것으로 간주되는 모든 유형의 개인 데이터를 표시합니다.

  • 자동화된 접근 방식 -를 통해 제공되는 도구를 사용합니다 AWS Marketplace. 이러한 도구 중 하나는 Securiti입니다. 이러한 솔루션은 다른 클라우드 서비스 플랫폼의 자산뿐만 아니라 여러 AWS 리소스 유형의 데이터를 스캔하고 검색할 수 있는 통합을 제공합니다. 이러한 동일한 솔루션 중 상당수는 중앙 집중식 데이터 카탈로그에서 데이터 자산 및 데이터 처리 활동의 인벤토리를 지속적으로 수집하고 유지할 수 있습니다. 도구를 사용하여 자동 분류를 수행하는 경우 조직의 개인 데이터 정의에 맞게 검색 및 분류 규칙을 조정해야 할 수 있습니다.