UO de dados pessoais | Conta do PD Application - AWS Orientação prescritiva

As traduções são geradas por tradução automática. Em caso de conflito entre o conteúdo da tradução e da versão original em inglês, a versão em inglês prevalecerá.

UO de dados pessoais | Conta do PD Application

Pesquisa

Gostaríamos muito de ouvir você. Forneça feedback sobre o AWS PRA respondendo a uma breve pesquisa.

A conta do Personal Data (PD) Application é onde sua organização hospeda serviços que coletam e processam dados pessoais. Especificamente, você pode armazenar o que você define como dados pessoais nessa conta. O AWS PRA demonstra vários exemplos de configurações de privacidade por meio de uma arquitetura web sem servidor de várias camadas. Quando se trata de operar cargas de trabalho em um AWS landing zone, as configurações de privacidade não devem ser consideradas one-size-fits-all soluções. Por exemplo, seu objetivo pode ser entender os conceitos subjacentes, como eles podem melhorar a privacidade e como sua organização pode aplicar soluções aos seus casos de uso e arquiteturas específicos.

Pois Contas da AWS em sua organização que coleta, armazena ou processa dados pessoais, você pode usar AWS Organizations e AWS Control Tower implantar proteções básicas e reproduzíveis. Estabelecimento de uma unidade organizacional (UO) dedicada para essas contas é fundamental. Por exemplo, você talvez queira aplicar barreiras de proteção de residência de dados somente a um subconjunto de contas em que a residência de dados é uma consideração fundamental do design. Para muitas organizações, estas são as contas que armazenam e processam dados pessoais.

Sua organização pode considerar oferecer suporte a uma conta de dados dedicada, que é onde você armazena a fonte autorizada de seus conjuntos de dados pessoais. Uma fonte de dados autorizada é um local onde você armazena a versão primária dos dados, que pode ser considerada a versão mais confiável e precisa dos dados. Por exemplo, você pode copiar os dados da fonte de dados autorizada para outros locais, como buckets do Amazon Simple Storage Service (Amazon S3) na conta do PD Application que são usados para armazenar dados de treinamento, um subconjunto de dados do cliente e dados ocultados. Ao adotar essa abordagem de várias contas para separar conjuntos de dados pessoais completos e definitivos na conta de dados das workloads downstream do consumidor na conta do PD Application, você pode reduzir o escopo do impacto no caso de acesso não autorizado às suas contas.

O diagrama a seguir ilustra os serviços de AWS segurança e privacidade configurados nas contas de aplicativos e dados do PD.

Serviços da AWS implantado no Aplicativo de Dados Pessoais e nas contas de dados na OU de Dados Pessoais.

Amazon Athena

Você pode considerar os controles de limitação de consultas de dados para atender às suas metas de privacidade. O Amazon Athena é um serviço de consultas interativas que facilita a análise de dados diretamente no Amazon S3 usando SQL padrão. Você não precisa carregar os dados no Athena. Ele funciona diretamente com os dados armazenados nos buckets do S3.

Um caso de uso comum do Athena é fornecer às equipes de data analytics conjuntos de dados personalizados e limpos. Se os conjuntos de dados contiverem dados pessoais, você poderá limpar o conjunto de dados mascarando colunas inteiras de dados pessoais que fornecem pouco valor às equipes de data analytics. Para obter mais informações, consulte Anonimizar e gerenciar dados em seu data lake com o Amazon Athena AWS Lake Formation e AWS (postagem no blog).

Se sua abordagem de transformação de dados exigir flexibilidade adicional fora das funções com suporte no Athena, você poderá definir funções personalizadas denominadas funções definidas pelo usuário (UDF). Você pode invocar UDFs em uma consulta SQL enviada ao Athena e elas são executadas em. AWS Lambda Você pode usar FILTER SQL consultas UDFs in SELECT e pode invocar várias UDFs na mesma consulta. Para fins de privacidade, você pode criar UDFs tipos específicos de mascaramento de dados, como mostrar somente os últimos quatro caracteres de cada valor em uma coluna.

Amazon Bedrock

O Amazon Bedrock é um serviço totalmente gerenciado que fornece acesso aos modelos básicos das principais empresas de IA, como AI21 Labs, Anthropic, Meta, Mistral AI e Amazon. Ele ajuda as organizações a criar e escalar aplicações de IA generativa. Independentemente da plataforma usada, ao usar a IA generativa, as organizações podem enfrentar riscos de privacidade, incluindo a possível exposição de dados pessoais, acesso não autorizado a dados e outras violações de conformidade.

As Barreiras de Proteção para Amazon Bedrock foram projetadas para ajudar a mitigar esses riscos aplicando as práticas recomendadas de segurança e conformidade em todas as suas workloads de IA generativa no Amazon Bedrock. A implantação e o uso de recursos de IA nem sempre estão alinhados aos requisitos de privacidade e conformidade de uma organização. As organizações podem ter dificuldade em manter a privacidade dos dados ao usar modelos de IA generativa porque esses modelos podem provavelmente memorizar ou reproduzir informações confidenciais. As Barreiras de Proteção para Amazon Bedrock ajudam a proteger a privacidade avaliando as entradas do usuário e as respostas do modelo. No geral, se os dados de entrada contiverem dados pessoais, poderá haver o risco de essas informações serem expostas na saída do modelo.

As Barreiras de Proteção para Amazon Bedrock fornecem mecanismos para aplicar políticas de proteção de dados e ajudar a evitar a exposição não autorizada de dados. Elas oferecem recursos de filtragem de conteúdo para detectar e bloquear dados pessoais nas entradas, restrições de tópicos para ajudar a impedir o acesso a assuntos impróprios ou arriscados e filtros de palavras para mascarar ou ocultar termos sensíveis nos prompts e respostas do modelo. Esses recursos ajudam a evitar eventos que podem levar a violações de privacidade, como respostas tendenciosas ou a perda gradual da confiança do cliente. Esses recursos podem ajudar você a garantir que os dados pessoais não sejam processados ou divulgados inadvertidamente pelos seus modelos de IA. As Barreiras de Proteção para Amazon Bedrock também são compatíveis com a avaliação de entradas e respostas fora do Amazon Bedrock. Para obter mais informações, consulte Implement model-independent safety measures with Amazon Bedrock Guardrails (publicação do Blog da AWS ).

Com as Barreiras de Proteção para Amazon Bedrock, você pode limitar o risco de alucinações em modelos usando verificações de fundamentação contextual, que avaliam a fundamentação factual e a relevância das respostas. Um exemplo é a implantação de uma aplicação de IA generativa voltada para o cliente que usa fontes de dados de terceiros em uma aplicação de geração aumentada via recuperação (RAG). As verificações de fundamentação contextual podem ser usadas para validar as respostas do modelo em relação a essas fontes de dados e a filtrar respostas imprecisas. No contexto do AWS PRA, você pode implementar o Amazon Bedrock Guardrails em todas as contas de carga de trabalho, onde ele impõe proteções de privacidade específicas que são adaptadas aos requisitos de cada carga de trabalho.

AWS Clean Rooms

À medida que as organizações buscam maneiras de colaborar umas com as outras por meio da análise de conjuntos de dados confidenciais que se cruzam ou se sobrepõem, manter a segurança e a privacidade desses dados compartilhados é uma preocupação. O AWS Clean Rooms ajuda você a implantar salas limpas de dados, que são ambientes seguros e neutros em que as organizações podem analisar conjuntos de dados combinados sem compartilhar os dados brutos em si. Ele também pode gerar insights exclusivos ao fornecer acesso a outras organizações AWS sem mover ou copiar dados de suas próprias contas e sem revelar o conjunto de dados subjacente. Todos os dados permanecem no local de origem. As regras de análise integradas restringem a saída e as consultas SQL. Todas as consultas são registradas em log, e os membros de colaboração podem ver como seus dados estão sendo consultados.

Você pode criar uma AWS Clean Rooms colaboração e convidar outros AWS clientes para serem membros dessa colaboração. Você concede a um membro a capacidade de consultar os conjuntos de dados de membros, e você pode escolher membros adicionais para receber os resultados dessas consultas. Se mais de um membro precisar consultar os conjuntos de dados, você poderá criar colaborações adicionais com as mesmas fontes de dados e configurações de membros diferentes. Cada membro pode filtrar os dados que são compartilhados com os membros da colaboração, e você pode usar regras de análise personalizadas para definir limitações sobre como os dados que eles fornecem à colaboração podem ser analisados.

Além de restringir os dados apresentados à colaboração e como eles podem ser usados por outros membros, AWS Clean Rooms fornece os seguintes recursos que podem ajudar você a proteger a privacidade:

  • A privacidade diferencial é uma técnica matemática que aprimora a privacidade do usuário adicionando uma quantidade cuidadosamente calibrada de ruído aos dados. Isso ajuda a reduzir o risco de reidentificação individual do usuário no conjunto de dados sem obscurecer os valores de interesse. Usar a privacidade diferencial do AWS Clean Rooms não exige experiência em privacidade diferencial.

  • O AWS Clean Rooms ML permite que duas partes identifiquem usuários semelhantes em seus dados sem a necessidade de compartilhar dados diretamente entre si. Isso reduz o risco de ataques de inferência de membros, em que um membro da colaboração pode identificar indivíduos no conjunto de dados do outro membro. Ao criar um modelo semelhante e gerar um segmento semelhante, o AWS Clean Rooms ML ajuda você a comparar conjuntos de dados sem expor os dados originais. Isso não exige que nenhum dos membros tenha experiência em ML ou realize qualquer trabalho fora do AWS Clean Rooms. Você mantém total controle e propriedade do modelo treinado.

  • A computação criptográfica para o Clean Rooms (C3R) pode ser usada com regras de análise para obter insights de dados confidenciais. Ela limita criptograficamente o que qualquer outra parte da colaboração pode saber. Usando o cliente de criptografia C3R, os dados são criptografados no cliente antes de serem fornecidos. AWS Clean Rooms Como as tabelas de dados são criptografadas usando uma ferramenta de criptografia do lado do cliente antes de serem carregadas no Amazon S3, os dados permanecem criptografados e persistem durante o processamento.

No AWS PRA, recomendamos que você crie AWS Clean Rooms colaborações na conta de dados. Você pode usá-las para compartilhar dados criptografados de clientes com terceiros. Use-as somente quando houver uma sobreposição nos conjuntos de dados fornecidos. Para obter mais informações sobre como determinar a sobreposição, consulte Regra de análise de lista na AWS Clean Rooms documentação.

CloudWatch Registros da Amazon

O Amazon CloudWatch Logs ajuda você a centralizar os registros de todos os seus sistemas e aplicativos, Serviços da AWS para que você possa monitorá-los e arquivá-los com segurança. Em CloudWatch Registros, você pode usar uma política de proteção de dados para grupos de registros novos ou existentes para ajudar a minimizar o risco de divulgação de dados pessoais. As políticas de proteção de dados podem detectar dados sensíveis, como dados pessoais, em seus logs. A política de proteção de dados pode mascarar esses dados quando os usuários acessam os logs por meio do Console de gerenciamento da AWS. Quando os usuários precisam de acesso direto aos dados pessoais, de acordo com a especificação geral da finalidade da sua workload, você pode atribuir permissões logs:Unmask para esses usuários. Você também pode criar uma política de proteção de dados para toda a conta e aplicar essa política de forma consistente em todas as contas da sua organização. Isso configura o mascaramento por padrão para todos os grupos de registros atuais e futuros no CloudWatch Logs. Também recomendamos que você habilite os relatórios de auditoria e os envie para outro grupo de logs, um bucket do Amazon S3 ou o Amazon Data Firehose. Esses relatórios contêm um registro detalhado das descobertas de proteção de dados em cada grupo de logs.

CodeGuru Revisor da Amazon

Tanto para a privacidade quanto para a segurança, é vital para muitas organizações que elas ofereçam suporte à conformidade contínua durante as fases de implantação e pós-implantação. O AWS PRA inclui controles proativos nos pipelines de implantação de aplicações que processam dados pessoais. O Amazon CodeGuru Reviewer pode detectar possíveis defeitos que possam expor dados pessoais em código Java e JavaScript Python. Ele oferece sugestões aos desenvolvedores para melhorar o código. CodeGuru O revisor pode identificar defeitos em uma ampla variedade de práticas gerais recomendadas de segurança, privacidade e. Ele foi projetado para funcionar com vários provedores de origem AWS CodeCommit, incluindo Bitbucket e Amazon S3. GitHub Alguns dos defeitos relacionados à privacidade que o CodeGuru Revisor pode detectar incluem:

  • Injeção de SQL

  • Cookies não seguros

  • Autorização ausente

  • Recriptografia do lado do cliente AWS KMS

Para obter uma lista completa do que o CodeGuru Reviewer pode detectar, consulte a Amazon CodeGuru Detector Library.

Amazon Comprehend

O Amazon Comprehend é um serviço de processamento de linguagem natural (PLN) que usa machine learning para descobrir insights valiosos e relações em documentos de texto em inglês. O Amazon Comprehend pode detectar e ocultar dados pessoais em documentos de texto estruturados, semiestruturados ou não estruturados. Para obter mais informações, consulte Personally identifiable information (PII) na documentação do Amazon Comprehend.

Como o Amazon Comprehend tem muitas opções para integração de aplicativos, você pode AWS SDKs usar o Amazon Comprehend para identificar dados pessoais em vários lugares diferentes onde você coleta, armazena e processa dados. Você pode usar os recursos do Amazon Comprehend ML para detectar e editar dados pessoais em registros de aplicativos AWS (publicação no blog), e-mails de clientes, tickets de suporte e muito mais. O diagrama de arquitetura da conta do PD Application mostra como você pode executar essa função para logs de aplicações no Amazon EC2. O Amazon Comprehend oferece dois modos de ocultação:

  • REPLACE_WITH_PII_ENTITY_TYPE substitui cada entidade de PII por seus tipos. Por exemplo, Jane Doe será substituída por NAME.

  • MASK substitui os caracteres em entidades de PII por um caractere de sua escolha (!, #, $, %, &, ou @). Por exemplo, Jane Doe pode ser substituída por **** ***.

Amazon Data Firehose

O Amazon Data Firehose pode ser usado para capturar, transformar e carregar dados de streaming em serviços downstream, como o Amazon Managed Service for Apache Flink ou o Amazon S3. O Firehose costuma ser usado para transportar grandes quantidades de dados de streaming, como logs de aplicações, sem precisar criar pipelines de processamento do zero.

Você pode usar as funções do Lambda para realizar um processamento personalizado ou incorporado antes que os dados sejam enviados para o downstream. Para fins de privacidade, esse recurso é compatível com os requisitos de minimização de dados e transferência de dados transfronteiriças. Por exemplo, você pode usar o Lambda e o Firehose para transformar dados de logs de várias regiões antes de serem centralizados na conta do Log Archive. Para obter mais informações, consulte Biogen: solução de registro centralizada para várias contas (vídeo). YouTube Na conta do aplicativo PD, você configura AWS CloudTrail a Amazon CloudWatch e envia os registros para um stream de entrega do Firehose. Uma função do Lambda transforma os logs e os envia para um bucket central do S3 na conta do Log Archive. Você pode configurar a função do Lambda para mascarar campos específicos que contêm dados pessoais. Isso ajuda a evitar a transferência de dados pessoais nas Regiões da AWS. Ao usar essa abordagem, os dados pessoais são mascarados antes da transferência e da centralização, e não depois. Para aplicativos em jurisdições que não estão sujeitas aos requisitos de transferência internacional, normalmente é mais eficiente e econômico do ponto de vista operacional agregar registros por meio da trilha organizacional. CloudTrail Para obter mais informações, consulte AWS CloudTrail na seção UO de segurança | Conta do Security Tooling deste guia.

Amazon DataZone

À medida que as organizações ampliam sua abordagem de compartilhamento de dados por meio Serviços da AWS de AWS Lake Formation, elas querem garantir que o acesso diferencial seja controlado por aqueles que estão mais familiarizados com os dados: os proprietários dos dados. No entanto, esses proprietários de dados podem estar cientes dos requisitos de privacidade, como consentimento ou considerações sobre transferências de dados transfronteiriças. A Amazon DataZone ajuda os proprietários de dados e a equipe de governança de dados a compartilhar e consumir dados em toda a organização de acordo com suas políticas de governança de dados. Na Amazon DataZone, as linhas de negócios (LOBs) gerenciam seus próprios dados e um catálogo rastreia essa propriedade. As partes interessadas podem encontrar e solicitar acesso aos dados como parte de suas tarefas de negócios. Desde que siga as políticas estabelecidas pelos publicadores de dados, o proprietário dos dados pode conceder acesso às tabelas subjacentes, sem um administrador ou sem transferir os dados.

Em um contexto de privacidade, a Amazon DataZone pode ser útil nos seguintes exemplos de casos de uso:

  • Uma aplicação voltada para o cliente gera dados de uso que podem ser compartilhados com um LOB de marketing separado. Você precisa garantir que somente os dados dos clientes que optaram pelo marketing sejam publicados no catálogo.

  • Os dados de clientes europeus são publicados, mas só podem ser assinados por pessoas LOBs locais do Espaço Econômico Europeu (EEE). Para obter mais informações, consulte Melhore a segurança dos dados com controles de acesso refinados na Amazon. DataZone

No AWS PRA, você pode conectar os dados no bucket compartilhado do Amazon S3 à Amazon DataZone como produtor de dados.

AWS Glue

A manutenção de conjuntos de dados que contêm dados pessoais é um componente essencial da Privacidade por Design. Os dados de uma organização podem existir em formas estruturadas, semiestruturadas ou não estruturadas. Conjuntos de dados pessoais sem estrutura podem dificultar a realização de várias operações de aprimoramento da privacidade, incluindo minimização de dados, rastreamento de dados atribuídos a um único titular de dados como parte de uma solicitação do titular dos dados, garantia de qualidade consistente dos dados e segmentação geral dos conjuntos de dados. O AWS Glue é um serviço de extração, transformação e carregamento (ETL) totalmente gerenciado. Ele pode ajudá-lo a categorizar, limpar, enriquecer e mover dados entre armazenamentos de dados e fluxos de dados. AWS Glue os recursos são projetados para ajudar você a descobrir, preparar, estruturar e combinar conjuntos de dados para análise, aprendizado de máquina e desenvolvimento de aplicativos. Você pode usar AWS Glue para criar uma estrutura previsível e comum sobre seus conjuntos de dados existentes. AWS Glue Data Catalog, AWS Glue DataBrew, e Qualidade AWS Glue de dados são AWS Glue recursos que podem ajudar a suportar os requisitos de privacidade da sua organização.

AWS Glue Data Catalog

O AWS Glue Data Catalog ajuda você a estabelecer conjuntos de dados sustentáveis. O Catálogo de Dados contém referências a dados que são usados como fontes e destinos para trabalhos de extração, transformação e carregamento (ETL) em AWS Glue. As informações no Catálogo de Dados são armazenadas como tabelas de metadados, em que cada tabela especifica um único armazenamento de dados. Você executa um crawler do AWS Glue para fazer um inventário dos dados em vários tipos de armazenamento de dados. Você adiciona classificadores integrados e personalizados ao crawler, e esses classificadores inferem o formato e o esquema dos dados pessoais. O crawler então grava os metadados no Catálogo de Dados. Uma tabela de metadados centralizada pode facilitar a resposta às solicitações dos titulares dos dados (como o direito ao apagamento), pois agrega estrutura e previsibilidade em diferentes fontes de dados pessoais em seu ambiente. AWS Para obter um exemplo abrangente de como usar o catálogo de dados para responder automaticamente a essas solicitações, consulte Como lidar com solicitações de eliminação de dados em seu data lake com o Amazon S3 Find and Forget AWS (postagem no blog). Por fim, se sua organização está usando o AWS Lake Formation para administrar e fornecer acesso refinado em bancos de dados, tabelas, linhas e células, o Catálogo de Dados é um componente essencial. O Data Catalog fornece compartilhamento de dados entre contas e ajuda você a usar o controle de acesso baseado em tags para gerenciar seu data lake em grande escala (postagem noAWS blog). Para obter mais informações, consulte AWS Lake Formation nesta seção.

AWS Glue DataBrew

O AWS Glue DataBrew ajuda você a limpar e normalizar dados e pode realizar transformações nos dados, como remover ou mascarar informações de identificação pessoal e criptografar campos de dados sensíveis em pipelines de dados. Você também pode mapear visualmente a linhagem dos seus dados para entender as várias fontes de dados e as etapas de transformação pelas quais os dados passaram. Esse recurso se torna cada vez mais importante à medida que sua organização trabalha para entender e rastrear melhor a proveniência dos dados pessoais. DataBrew ajuda você a mascarar dados pessoais durante a preparação dos dados. Você pode detectar dados pessoais como parte de um trabalho de criação de perfil de dados e coletar estatísticas, como o número de colunas que podem conter dados pessoais e categorias em potencial. Em seguida, você pode usar técnicas integradas de transformação de dados reversíveis ou irreversíveis, incluindo substituição, hashing, criptografia e decodificação, tudo isso sem escrever nenhum código. Você pode então usar os conjuntos de dados limpos e mascarados downstream para tarefas de analytics, relatórios e machine learning. Algumas das técnicas de mascaramento de dados disponíveis em DataBrew incluem:

  • Hash: aplique funções de hash aos valores da coluna.

  • Substituição: substitua dados pessoais por outros valores que pareçam autênticos.

  • Anulação ou exclusão: substitua um campo específico por um valor nulo, ou exclua a coluna.

  • Mascaramento: use o embaralhamento de caracteres ou mascare certas partes nas colunas.

Confira abaixo as técnicas de criptografia disponíveis:

  • Criptografia determinística: aplique algoritmos de criptografia determinística aos valores da coluna. A criptografia determinística sempre produz o mesmo texto cifrado para um valor.

  • Criptografia probabilística: aplique algoritmos de criptografia probabilística aos valores da coluna. A criptografia probabilística produz texto cifrado diferente toda vez que é aplicada.

Para obter uma lista completa das receitas de transformação de dados pessoais fornecidas em DataBrew, consulte Etapas da receita de informações de identificação pessoal (PII).

AWS Glue Qualidade de dados

AWS Glue A qualidade de dados ajuda você a automatizar e operacionalizar a entrega de dados de alta qualidade em todos os pipelines de dados, de forma proativa, antes de serem entregues aos consumidores de dados. AWS Glue O Data Quality fornece análise estatística de problemas de qualidade de dados em seus pipelines de dados, pode acionar alertas na Amazon EventBridge e fazer recomendações de regras de qualidade para remediação. AWS Glue A qualidade de dados também oferece suporte à criação de regras com uma linguagem específica do domínio para que você possa criar regras personalizadas de qualidade de dados.

AWS Key Management Service

AWS Key Management Service (AWS KMS) ajuda você a criar e controlar chaves criptográficas para ajudar a proteger seus dados. AWS KMS usa módulos de segurança de hardware para proteger e validar AWS KMS keys sob o Programa de Validação de Módulos Criptográficos FIPS 140-2. Para obter mais informações sobre como esse serviço é usado em um contexto de segurança, consulte o AWS Security Reference Architecture.

AWS KMS se integra à maioria dos Serviços da AWS que oferecem criptografia, e você pode usar chaves KMS em seus aplicativos que processam e armazenam dados pessoais. Você pode usar o AWS KMS para ajudar a atender aos seus diversos requisitos de privacidade e proteger dados pessoais, incluindo:

  • Usar chaves gerenciadas pelo cliente para maior controle da força, rotação, expiração e outras opções.

  • Usar chaves dedicadas gerenciadas pelo cliente para proteger dados pessoais e segredos que permitem acesso a dados pessoais.

  • Definir níveis de classificação de dados e designar pelo menos uma chave dedicada gerenciada pelo cliente por nível. Por exemplo, você pode ter uma chave para criptografar dados operacionais e outra para criptografar dados pessoais.

  • Impedir acesso não intencional entre contas a chaves do KMS.

  • Armazenar chaves KMS dentro do Conta da AWS mesmo recurso a ser criptografado.

  • Implementar a separação de tarefas para a administração e o uso de chaves do KMS. Para obter mais informações, consulte Como usar o KMS e o IAM para habilitar controles de segurança independentes para dados criptografados no S3 (postagem do AWS blog).

  • Impor a rotação automática de chaves por meio de barreiras de proteção preventivas e reativas.

Por padrão, as chaves do KMS são armazenadas e podem ser usadas somente na região em que foram criadas. Se sua organização tem requisitos específicos de residência e soberania de dados, considere se as chaves de várias regiões do KMS são apropriadas para seu caso de uso. As chaves multirregionais são chaves KMS para fins especiais Regiões da AWS que podem ser usadas de forma intercambiável. O processo de criação de uma chave multirregional move seu material de chave além das Região da AWS fronteiras internas AWS KMS, portanto, essa falta de isolamento regional pode não ser compatível com as metas de soberania e residência de sua organização. Uma forma de resolver essa questão é usar um tipo diferente de chave do KMS, como uma chave gerenciada pelo cliente específica da região.

Armazenamentos de chaves externas

Para muitas organizações, o armazenamento de AWS KMS chaves padrão no Nuvem AWS pode atender à soberania de dados e aos requisitos regulamentares gerais. Mas alguns podem exigir que as chaves de criptografia sejam criadas e mantidas fora de um ambiente de nuvem e que você tenha caminhos de autorização e auditoria independentes. Com os armazenamentos de chaves externos AWS KMS, você pode criptografar dados pessoais com material chave que sua organização possui e controla fora do Nuvem AWS. Você ainda interage com a AWS KMS API normalmente, mas AWS KMS interage somente com o software proxy externo de armazenamento de chaves (proxy XKS) fornecido por você. Seu proxy externo de armazenamento de chaves então medeia toda a comunicação entre AWS KMS e seu gerenciador de chaves externo.

Ao usar um repositório de chaves externo para criptografia de dados, é importante considerar a sobrecarga operacional adicional em comparação com a manutenção das chaves do AWS KMS. Com um repositório de chaves externo, é necessário criar, configurar e manter o repositório de chaves externo. Além disso, se houver erros na infraestrutura adicional que você deve manter, como o proxy XKS, e a conectividade for perdida, os usuários poderão ficar temporariamente impossibilitados de descriptografar e acessar os dados. Trabalhe em estreita colaboração com suas partes interessadas em conformidade e regulamentação para entender as obrigações legais e contratuais da criptografia de dados pessoais e seus contratos de nível de serviço para disponibilidade e resiliência.

AWS Lake Formation

Muitas organizações que catalogam e categorizam seus conjuntos de dados por meio de catálogos estruturados de metadados desejam compartilhar esses conjuntos de dados em toda a organização. Você pode usar políticas de permissão AWS Identity and Access Management (IAM) para controlar o acesso a conjuntos de dados inteiros, mas geralmente é necessário um controle mais granular para conjuntos de dados que contêm dados pessoais de sensibilidade variável. Por exemplo, a especificação da finalidade e a limitação de uso (site do FPC) podem indicar que uma equipe de marketing precisa acessar os endereços dos clientes, mas uma equipe de ciência de dados não.

Também há desafios de privacidade associados aos data lakes, que centralizam o acesso a grandes quantidades de dados sensíveis em seu formato original. A maioria dos dados de uma organização pode ser acessada de forma centralizada em um só lugar, portanto, a separação lógica dos conjuntos de dados, especialmente aqueles que contêm dados pessoais, pode ser fundamental. O AWS Lake Formation pode ajudar você a configurar a governança e o monitoramento ao compartilhar dados, sejam eles de uma única fonte ou de várias fontes contidas em um data lake. No AWS PRA, você pode usar o Lake Formation para fornecer controle de acesso refinado aos dados no bucket de dados compartilhado na conta de dados.

Você pode usar o recurso de controle de acesso baseado em tags no Lake Formation. O controle de acesso baseado em tags é uma estratégia de autorização que define permissões com base em atributos. No Lake Formation, esses atributos são chamados de tags do LF. Usando uma tag LF, você pode anexar essas tags aos bancos de dados, tabelas e colunas do Catálogo de Dados e conceder as mesmas tags às entidades principais do IAM. O Lake Formation permite operações nesses recursos quando a entidade principal teve o acesso concedido a um valor de tag que corresponde ao valor da tag do recurso. A imagem a seguir mostra como você pode atribuir tags LF e permissões para fornecer acesso diferenciado aos dados pessoais.

As tags LF controlam quais colunas da tabela as equipes podem acessar.

Este exemplo usa a natureza hierárquica das tags. Ambos os bancos de dados contêm informações de identificação pessoal (PII:true), mas as tags no nível colunar limitam colunas específicas a equipes diferentes. Neste exemplo, os diretores do IAM que têm a PII:true tag LF podem acessar os recursos do AWS Glue banco de dados que têm essa tag. As entidades principais com a tag LF LOB:DataScience podem acessar colunas específicas que têm essa tag, e as entidades principais com a tag LF LOB:Marketing podem acessar somente as colunas que têm essa tag. O marketing pode acessar somente as PII relevantes para os casos de uso de marketing, e a equipe de ciência de dados pode acessar somente as PII relevantes para seus casos de uso.

Zonas locais da AWS

Se precisar cumprir os requisitos de residência de dados, você pode implantar recursos que armazenam e processam dados pessoais de forma específica Regiões da AWS para dar suporte a esses requisitos. Você também pode usar Zonas locais da AWS, o que ajuda a colocar computação, armazenamento, banco de dados e outros AWS recursos selecionados perto de grandes centros populacionais e setoriais. Uma zona local é uma extensão de uma Região da AWS que está na proximidade geográfica de uma grande área metropolitana. Você pode colocar tipos específicos de recursos em uma zona local, perto da região à qual a zona local corresponde. As zonas locais podem ajudar você a atender aos requisitos de residência de dados quando uma região não está disponível na mesma jurisdição legal. Ao usar zonas locais, considere os controles de residência de dados implantados em sua organização. Por exemplo, você pode precisar de um controle para evitar transferências de dados de uma zona local específica para outra região. Para obter mais informações sobre como usar SCPs para manter as grades de proteção de transferência de dados transfronteiriças, consulte Melhores práticas para gerenciar a residência de dados no uso de controles de landing Zonas locais da AWS zone (AWS postagem no blog).

AWS Enclaves Nitro

Considere sua estratégia de segmentação de dados de uma perspectiva de processamento, como processamento de dados pessoais com um serviço de computação, como o Amazon Elastic Compute Cloud (Amazon EC2). A computação confidencial como parte de uma estratégia de arquitetura maior pode ajudar a isolar o processamento de dados pessoais em um enclave de CPU isolado, protegido e confiável. Os enclaves são máquinas virtuais separadas, reforçadas e altamente restritas. AWS Nitro Enclaves é um recurso do Amazon EC2 que pode ajudar você a criar esses ambientes computacionais isolados. Para obter mais informações, consulte O design de segurança do sistema AWS Nitro (AWS white paper).

O Nitro Enclaves implementa um kernel separado do kernel da instância principal. O kernel da instância principal não tem acesso ao enclave. Os usuários não podem usar SSH ou acessar remotamente os dados e aplicações no enclave. As aplicações que processam dados pessoais podem ser incorporados ao enclave e configurados para usar o Vsock do enclave, o soquete que facilita a comunicação entre o enclave e a instância principal.

Um caso de uso em que o Nitro Enclaves pode ser útil é o processamento conjunto entre dois processadores de dados que estão separados Regiões da AWS e que podem não confiar um no outro. A imagem a seguir mostra como você pode usar um enclave para processamento central, uma chave do KMS para criptografar os dados pessoais antes de serem enviados ao enclave e uma política de AWS KMS key que verifica se o enclave que está solicitando a descriptografia tem as medidas exclusivas em seu documento de atestado. Para obter mais informações e instruções, consulte Usando o atestado criptográfico com. AWS KMS Para ver um exemplo de política de chave, consulte Exigir atestado para usar uma chave AWS KMS neste guia.

Usando o AWS Nitro Enclave para processar dados criptografados em buckets do Amazon S3 em contas diferentes.

Com essa implementação, somente os respectivos processadores de dados e o enclave subjacente têm acesso aos dados pessoais em texto simples. O único lugar onde os dados são expostos, fora dos ambientes dos respectivos processadores de dados, é no próprio enclave, projetado para impedir o acesso e a adulteração.

Muitas organizações querem limitar a exposição de dados pessoais a redes não confiáveis. Por exemplo, se você quiser aprimorar a privacidade do design geral da arquitetura do aplicativo, poderá segmentar redes com base na sensibilidade dos dados (semelhante à separação lógica e física dos conjuntos de dados discutida na Serviços da AWS e recursos que ajudam a segmentar dados seção). AWS PrivateLinkajuda você a criar conexões unidirecionais e privadas de suas nuvens privadas virtuais (VPCs) para serviços fora da VPC. Usando o AWS PrivateLink, você pode configurar conexões privadas dedicadas aos serviços que armazenam ou processam dados pessoais em seu ambiente. Não há necessidade de se conectar a endpoints públicos e transferir esses dados por redes públicas não confiáveis. Quando você ativa pontos de extremidade de AWS PrivateLink serviço para os serviços dentro do escopo, não há necessidade de um gateway de internet, dispositivo NAT, endereço IP público, AWS Direct Connect conexão ou AWS Site-to-Site VPN conexão para se comunicar. Ao se conectar AWS PrivateLink a um serviço que fornece acesso a dados pessoais, você pode usar políticas de endpoint de VPC e grupos de segurança para controlar o acesso, de acordo com a definição do perímetro de dados da sua organização. Para ver um exemplo de política de VPC endpoint que permite que somente os princípios e AWS recursos do IAM em uma organização confiável acessem um endpoint de serviço, consulte Exigir associação à organização para acessar os recursos da VPC este guia.

AWS Resource Access Manager

AWS Resource Access Manager (AWS RAM) ajuda você a compartilhar seus recursos com segurança Contas da AWS para reduzir a sobrecarga operacional e fornecer visibilidade e auditabilidade. Ao planejar sua estratégia de segmentação de várias contas, considere usar AWS RAM para compartilhar os armazenamentos de dados pessoais que você armazena em uma conta separada e isolada. Você pode compartilhar esses dados pessoais com outras contas confiáveis para fins de processamento. Em AWS RAM, você pode gerenciar permissões que definem quais ações podem ser executadas em recursos compartilhados. Todas as chamadas de API para AWS RAM estão logadas CloudTrail. Além disso, você pode configurar o Amazon CloudWatch Events para notificá-lo automaticamente sobre eventos específicos AWS RAM, como quando são feitas alterações em um compartilhamento de recursos.

Embora você possa compartilhar muitos tipos de AWS recursos com outras pessoas Contas da AWS usando políticas baseadas em recursos no IAM ou políticas de bucket no Amazon S3 AWS RAM , oferece vários benefícios adicionais para a privacidade. AWS fornece aos proprietários de dados visibilidade adicional sobre como e com quem os dados são compartilhados entre você Contas da AWS, incluindo:

  • Ser capaz de compartilhar um recurso com uma OU inteira em vez de atualizar manualmente as listas de contas IDs

  • Aplicação do processo de convite para iniciar o compartilhamento se a conta do consumidor não fizer parte da sua organização

  • Visibilidade de quais entidades principais específicas do IAM têm acesso a cada recurso individual

Se você já usou uma política baseada em recursos para gerenciar um compartilhamento de recursos e quiser usá-la AWS RAM em vez disso, use a operação da PromoteResourceShareCreatedFromPolicyAPI.

SageMaker IA da Amazon

O Amazon SageMaker AI é um serviço gerenciado de aprendizado de máquina (ML) que ajuda você a criar e treinar modelos de ML e depois implantá-los em um ambiente hospedado pronto para produção. SageMaker A IA foi projetada para facilitar a preparação de dados de treinamento e a criação de recursos de modelo.

Monitor de SageMaker modelo Amazon

Muitas organizações consideram o desvio de dados ao treinar modelos de ML. Um desvio de dados é uma variação significativa entre os dados de produção e os dados usados para treinar um modelo de ML, ou uma alteração significativa nos dados de entrada ao longo do tempo. O desvio de dados pode reduzir a qualidade geral, a precisão e a imparcialidade das previsões do modelo de ML. Se a natureza estatística dos dados que o modelo de ML recebe durante a produção se desviar da natureza dos dados da linha de base em que foi treinado, a precisão de suas predições pode diminuir. O Amazon SageMaker Model Monitor pode monitorar continuamente a qualidade dos modelos de aprendizado de máquina de SageMaker IA da Amazon em produção e monitorar a qualidade dos dados. A detecção antecipada e proativa do desvio de dados pode ajudar a implementar ações corretivas, como modelos de reciclagem, auditoria de sistemas upstream ou correção de problemas de qualidade de dados. O Model Monitor pode aliviar a necessidade de monitorar modelos manualmente ou criar ferramentas adicionais.

Amazon SageMaker Clarify

O Amazon SageMaker Clarify fornece uma visão sobre o viés e a explicabilidade do modelo. SageMaker O Clarify é comumente usado durante a preparação dos dados do modelo de ML e na fase geral de desenvolvimento. Os desenvolvedores podem especificar atributos de interesse, como sexo ou idade, e o SageMaker Clarify executa um conjunto de algoritmos para detectar qualquer presença de viés nesses atributos. Depois que o algoritmo é executado, o SageMaker Clarify fornece um relatório visual com uma descrição das fontes e medidas de possíveis distorções para que você possa identificar as etapas para remediar a distorção. Por exemplo, em um conjunto de dados financeiros que contém apenas alguns exemplos de empréstimos comerciais para uma faixa etária em comparação com outras, SageMaker poderia sinalizar desequilíbrios para que você possa evitar um modelo que desfavoreça essa faixa etária. Você também pode verificar se há viés em modelos já treinados revisando suas predições e monitorando continuamente esses modelos de ML em busca de viés. Por fim, o SageMaker Clarify é integrado ao Amazon SageMaker AI Experiments para fornecer um gráfico que explica quais recursos contribuíram mais para o processo geral de previsão de um modelo. Essas informações podem ser úteis para obter resultados de explicabilidade, e podem ajudar a determinar se uma entrada específica do modelo tem mais influência do que deveria no comportamento geral do modelo.

Cartão SageMaker modelo Amazon

O Amazon SageMaker Model Card pode ajudá-lo a documentar detalhes críticos sobre seus modelos de ML para fins de governança e emissão de relatórios. Esses detalhes podem incluir o proprietário do modelo, o propósito geral, os casos de uso pretendidos, suposições feitas, classificação de risco de um modelo, detalhes e métricas de treinamento e resultados da avaliação. Para obter mais informações, consulte Explicabilidade do modelo com soluções de inteligência AWS artificial e aprendizado de máquina (AWS whitepaper).

Amazon SageMaker Data Wrangler

O Amazon SageMaker Data Wrangler é uma ferramenta de aprendizado de máquina que ajuda a otimizar o processo de preparação de dados e engenharia de recursos. Ele fornece uma interface visual que ajuda cientistas de dados e engenheiros de machine learning a preparar e transformar dados de forma rápida e fácil para uso em modelos de machine learning. Com o Data Wrangler, você pode importar dados de várias fontes, como Amazon S3, Amazon Redshift e Amazon Athena. Em seguida, você pode usar mais de 300 transformações de dados integradas para limpar, normalizar e combinar atributos sem precisar escrever nenhum código.

O Data Wrangler pode ser usado como parte do processo de preparação de dados e engenharia de recursos no PRA AWS . Ele suporta criptografia de dados em repouso e em trânsito usando AWS KMS, e usa funções e políticas do IAM para controlar o acesso a dados e recursos. Ele suporta o mascaramento de dados por meio da AWS Glue Amazon SageMaker Feature Store. Se você integrar o Data Wrangler com AWS Lake Formation, poderá aplicar controles e permissões de acesso a dados refinados. Você pode até mesmo usar o Data Wrangler com o Amazon Comprehend para ocultar automaticamente dados pessoais de dados tabulares como parte de seu fluxo de trabalho mais amplo de operações de ML. Para obter mais informações, consulte Editar automaticamente PII para aprendizado de máquina usando o Amazon SageMaker Data Wrangler (AWS postagem no blog).

A versatilidade do Data Wrangler ajuda você a mascarar dados sensíveis de muitos setores, como números de contas, números de cartão de crédito, números de previdência social, nomes de pacientes e registros médicos e militares. Você pode limitar o acesso a quaisquer dados sensíveis ou optar por ocultá-los.

AWS recursos que ajudam a gerenciar o ciclo de vida dos dados

Quando os dados pessoais não são mais necessários, você pode usar o ciclo de vida e as time-to-live políticas para dados em vários armazenamentos de dados diferentes. Ao configurar políticas de retenção de dados, considere os seguintes locais que podem conter dados pessoais:

  • Bancos de dados, como o Amazon DynamoDB e o Amazon Relational Database Service (Amazon RDS)

  • Buckets do Amazon S3

  • Registros de CloudWatch e CloudTrail

  • Dados em cache de migrações em AWS Database Migration Service (AWS DMS) e projetos AWS Glue DataBrew

  • Backups e snapshots

O seguinte Serviços da AWS e os recursos a seguir podem ajudá-lo a configurar políticas de retenção de dados em seus AWS ambientes:

  • Amazon S3 Lifecycle: um conjunto de regras que define as ações que o Amazon S3 aplica a um grupo de objetos. Na configuração do Amazon S3 Lifecyle, você pode criar ações de expiração, que definem quando o Amazon S3 exclui objetos expirados em seu nome. Para obter mais informações, consulte Gerenciar seu ciclo de vida de armazenamento.

  • Amazon Data Lifecycle Manager — No Amazon EC2, crie uma política que automatize a criação, retenção e exclusão de snapshots do Amazon Elastic Block Store (Amazon EBS) e Amazon Machine Images () apoiados pelo EBS. AMIs

  • Tempo de vida (TTL) do Amazon DynamoDB: define um carimbo por item que determina quando um item não é mais necessário. Pouco depois da data e hora do carimbo especificado, o DynamoDB exclui o item da tabela.

  • Configurações de retenção de CloudWatch registros em Registros — Você pode ajustar a política de retenção de cada grupo de registros para um valor entre 1 dia e 10 anos.

  • AWS Backup— implante centralmente políticas de proteção de dados para configurar, gerenciar e governar sua atividade de backup em uma variedade de AWS recursos, incluindo buckets S3, instâncias de banco de dados RDS, tabelas do DynamoDB, volumes do EBS e muito mais. Aplique políticas de backup aos seus AWS recursos especificando os tipos de recursos ou forneça granularidade adicional aplicando com base nas tags de recursos existentes. Audite e gere relatórios sobre a atividade de backup em um console centralizado para ajudar a atender aos requisitos de conformidade de backup.

Serviços da AWS e recursos que ajudam a segmentar dados

A segmentação de dados é o processo pelo qual você armazena dados em contêineres separados. Isso pode ajudar você a fornecer medidas diferenciadas de segurança e autenticação para cada conjunto de dados e a reduzir o escopo do impacto da exposição em seu conjunto de dados geral. Por exemplo, em vez de armazenar todos os dados do cliente em um grande banco de dados, você pode segmentar esses dados em grupos menores e mais gerenciáveis.

Você pode usar a separação física e lógica para segmentar dados pessoais:

  • Separação física: o ato de armazenar dados em armazenamentos de dados separados ou distribuí-los em recursos da AWS separados. Embora os dados estejam fisicamente separados, os dois recursos podem estar acessíveis para as mesmas entidades principais. É por isso que recomendamos combinar separação física com separação lógica.

  • Separação lógica: o ato de isolar dados usando controles de acesso. Diferentes funções de trabalho exigem diferentes níveis de acesso a subconjuntos de dados pessoais. Para conferir um exemplo de política que implementa a separação lógica, consulte Conceder acesso a atributos específicos do Amazon DynamoDB neste guia.

A combinação de uma separação lógica e física fornece flexibilidade, simplicidade e granularidade ao escrever políticas baseadas em identidade e recursos para oferecer suporte ao acesso diferenciado em todas as funções de trabalho. Por exemplo, pode ser operacionalmente complexo criar políticas que separem logicamente diferentes classificações de dados em um único bucket do S3. O uso de buckets do S3 dedicados para cada classificação de dados simplifica a configuração e o gerenciamento de políticas.

Serviços da AWS e recursos que ajudam a descobrir, classificar ou catalogar dados

Algumas organizações ainda não começaram a usar ferramentas de extração, transformação e carregamento (ETL) em seu ambiente para catalogar proativamente seus dados. Esses clientes podem estar em um estágio inicial de descoberta de dados, em que desejam entender melhor os dados que armazenam e processam AWS e como eles são estruturados e classificados. Você pode usar o Amazon Macie para entender melhor seus dados de PII no Amazon S3. No entanto, o Amazon Macie não pode ajudar você a analisar outras fontes de dados, como o Amazon Relational Database Service (Amazon RDS) e o Amazon Redshift. Você pode usar duas abordagens para acelerar a descoberta inicial no começo de um exercício maior de mapeamento de dados:

  • Abordagem manual: crie uma tabela com duas colunas e quantas linhas você precisar. Na primeira coluna, escreva uma caracterização de dados (como nome de usuário, endereço ou sexo) que pode estar no cabeçalho ou no corpo de um pacote de rede ou em qualquer serviço que você forneça. Peça à sua equipe de conformidade que preencha a segunda coluna. Na segunda coluna, insira “sim” se os dados forem considerados pessoais e “não” se não forem. Indique qualquer tipo de dado pessoal considerado particularmente sensível, como denominação religiosa ou dados de saúde.

  • Abordagem automatizada: use as ferramentas fornecidas por meio do AWS Marketplace. Uma dessas ferramentas é a Securiti. Essas soluções oferecem integrações que permitem digitalizar e descobrir dados em vários tipos de recursos da AWS , bem como ativos em outras plataformas de serviços em nuvem. Muitas dessas mesmas soluções podem coletar e manter continuamente um inventário de ativos de dados e atividades de processamento de dados em um catálogo de dados centralizado. Se você depende de uma ferramenta para realizar a classificação automatizada, talvez seja necessário ajustar as regras de descoberta e classificação para se alinhar à definição de dados pessoais da sua organização.