Criando um modelo de análise SQL - AWS Clean Rooms

As traduções são geradas por tradução automática. Em caso de conflito entre o conteúdo da tradução e da versão original em inglês, a versão em inglês prevalecerá.

Criando um modelo de análise SQL

Pré-requisitos

Antes de criar um modelo de análise SQL, você deve ter:

  • Uma AWS Clean Rooms colaboração ativa

  • Acesso a pelo menos uma tabela configurada na colaboração

    Para obter informações sobre como configurar tabelas em AWS Clean Rooms, consulteCriar uma tabela configurada no AWS Clean Rooms.

  • Permissões para criar modelos de análise

  • Conhecimento básico da sintaxe de consulta SQL

O procedimento a seguir descreve o processo de criação de um modelo de análise SQL usando o AWS Clean Rooms console.

Para obter informações sobre como criar um modelo de análise SQL usando o AWS SDKs, consulte a Referência da AWS Clean Rooms API.

Para criar um modelo de análise SQL
  1. Faça login no Console de gerenciamento da AWS e abra o AWS Clean Rooms console com o Conta da AWS que funcionará como criador da colaboração.

  2. No painel de navegação à esquerda, escolha Colaborações.

  3. Escolha a colaboração.

  4. Na guia Modelos, vá para a seção Modelos de análise criados por você.

  5. Escolha Criar modelo de análise.

  6. Na página Criar modelo de análise, para Detalhes,

    1. Insira um Nome para o modelo de análise.

    2. (Opcional) Insira uma Descrição.

    3. Em Formatar, deixe a opção SQL selecionada.

  7. Para Tabelas, visualize as tabelas configuradas associadas à colaboração.

  8. Para Definição,

    1. Insira a definição para o modelo de análise.

    2. Escolha Importar de para importar uma definição.

    3. (Opcional) Especifique um parâmetro no editor SQL inserindo dois pontos (:) na frente do nome do parâmetro.

      Por exemplo:

      WHERE table1.date + :date_period > table1.date

  9. Se você adicionou parâmetros anteriormente, em Parâmetros – opcional, para cada Nome de parâmetro, escolha o Tipo e o Valor padrão (opcional).

  10. Para dados sintéticos, se você quiser gerar dados sintéticos para treinamento de modelos, marque a caixa de seleção Exigir que a saída do modelo de análise seja sintética.

    Para obter mais informações, consulte Geração de conjunto de dados sintéticos com privacidade aprimorada.

    1. Em Classificação de colunas, escolha uma coluna na lista suspensa. São necessárias pelo menos cinco colunas.

      1. Escolha uma classificação na lista suspensa. Isso identifica o tipo de dados para cada coluna.

        Os tipos de classificação incluem:

        • Numérico — Valores numéricos contínuos, como medições ou contagens

        • Categórico — Valores ou categorias discretos, como rótulos ou tipos

      2. Para remover uma coluna, selecione Remover.

      3. Para adicionar outra coluna, selecione Adicionar outra coluna. Escolha a coluna e a classificação nas listas suspensas.

      4. Em Valor preditivo, escolha uma coluna na lista suspensa. Essa é a coluna que o modelo personalizado usa para previsão depois de ser treinado no conjunto de dados sintéticos.

    2. As configurações avançadas permitem que você defina o nível de privacidade e o limite de privacidade. Ajuste as configurações para atender às suas necessidades.

      1. Em Nível de privacidade, insira um valor épsilon para determinar quanto ruído o modelo sintético adiciona para proteger a privacidade no conjunto de dados gerado. O valor deve estar entre 0,0001 e 10.

        • Valores mais baixos adicionam mais ruído, fornecendo maior proteção de privacidade, mas potencialmente reduzindo a utilidade de modelos personalizados posteriores treinados com base nesses dados.

        • Valores mais altos adicionam menos ruído, fornecendo mais precisão, mas potencialmente reduzindo a proteção da privacidade.

        Em Limite de privacidade, insira a maior probabilidade permitida de que um ataque de inferência de associação possa identificar membros do conjunto de dados original. O valor deve estar entre 50,0 e 100.

        • Pontuações de 50% indicam que um ataque de inferência de membros não consegue distinguir com sucesso membros de não membros melhor do que uma suposição aleatória.

        • Para não haver limite de privacidade, insira 100%.

        O valor ideal depende do seu caso de uso específico e dos requisitos de privacidade. Se o limite de privacidade for excedido, a criação do canal de entrada de ML falhará e você não poderá usar o conjunto de dados sintético para treinar um modelo.

    Atenção

    A geração de dados sintéticos protege contra a inferência de atributos individuais, independentemente de indivíduos específicos estarem presentes no conjunto de dados original ou de atributos de aprendizagem desses indivíduos. No entanto, isso não impede que valores literais do conjunto de dados original, incluindo informações de identificação pessoal (PII), apareçam no conjunto de dados sintético.

    Recomendamos evitar valores no conjunto de dados de entrada associados a apenas um titular de dados, pois eles podem reidentificar um titular de dados. Por exemplo, se apenas um usuário residir em um CEP, a presença desse CEP no conjunto de dados sintético confirmaria que o usuário estava no conjunto de dados original. Técnicas como truncar valores de alta precisão ou substituir catálogos incomuns por outros podem ser usadas para mitigar esse risco. Essas transformações podem fazer parte da consulta usada para criar o canal de entrada de ML.

  11. Se você quiser ativar Tags para o recurso, escolha Adicionar nova tag e, em seguida, insira o par Chave e Valor.

  12. Escolha Criar.

  13. Agora você está pronto para informar ao membro da colaboração que ele pode revisar um modelo de análise. (Opcional se quiser consultar seus próprios dados.)