Criação de um fluxo de trabalho de correspondência baseado em regras com o tipo de regra simples - AWS Entity Resolution

As traduções são geradas por tradução automática. Em caso de conflito entre o conteúdo da tradução e da versão original em inglês, a versão em inglês prevalecerá.

Criação de um fluxo de trabalho de correspondência baseado em regras com o tipo de regra simples

O procedimento a seguir demonstra como criar um fluxo de trabalho de correspondência baseado em regras com o tipo de regra simples usando o AWS Entity Resolution console ou a API. CreateMatchingWorkflow

Console
Para criar um fluxo de trabalho de correspondência baseado em regras com o tipo de regra simples usando o console
  1. Faça login no AWS Management Console e abra o AWS Entity Resolution console em https://console.aws.amazon.com/entityresolution/.

  2. No painel de navegação esquerdo, em Fluxos de trabalho, escolha Correspondência.

  3. Na página Fluxos de trabalho correspondentes, no canto superior direito, escolha Criar fluxo de trabalho correspondente.

  4. Para a Etapa 1: Especificar os detalhes correspondentes do fluxo de trabalho, faça o seguinte:

    1. Insira um nome de fluxo de trabalho correspondente e uma Descrição opcional.

    2. Em Entrada de dados, escolha um AWS Glue banco de dados Região da AWS, a AWS Glue tabela e, em seguida, o mapeamento do esquema correspondente.

      Você pode adicionar até 19 entradas de dados.

    3. A opção Normalizar dados é selecionada por padrão, para que as entradas de dados sejam normalizadas antes da correspondência. Se você não quiser normalizar os dados, desmarque a opção Normalizar dados.

      nota

      A normalização só é suportada nos seguintes cenários em Criar mapeamento de esquema:

      • Se os seguintes subtipos de nome estiverem agrupados: Nome, segundo nome, sobrenome.

      • Se os seguintes subtipos de endereço estiverem agrupados: Endereço 1, Endereço 2, Endereço 3, Cidade, Estado, País, Código postal.

      • Se os seguintes subtipos de telefone estiverem agrupados: Número de telefone, Código do país do telefone.

    4. Para especificar as permissões de acesso ao serviço, escolha uma opção e execute a ação recomendada.

      Opção Ação recomendada
      Criar e usar um novo perfil de serviço
      • AWS Entity Resolution cria uma função de serviço com a política necessária para essa tabela.

      • O nome do perfil de serviço padrão é entityresolution-matching-workflow-<timestamp>.

      • Você deve ter permissões para criar perfis e anexar políticas.

      • Se seus dados de entrada estiverem criptografados, você poderá escolher a opção Esses dados são criptografados com uma chave KMS e, em seguida, inserir uma AWS KMS chave que será usada para descriptografar sua entrada de dados.

      Use um perfil de serviço existente
      1. Escolha um nome do perfil de serviço existente na lista suspensa.

        A lista de perfis é exibida se você tiver permissões para listar funções.

        Se você não tiver permissões para listar perfis, insira o nome do recurso da Amazon (ARN) do perfil que você deseja usar.

        Se não houver perfis de serviço existentes, a opção de Usar um perfil de serviço existente não estará disponível.

      2. Para visualizar o perfil de serviço, selecione o link externo Visualizar no IAM.

        Por padrão, AWS Entity Resolution não tenta atualizar a política de função existente para adicionar as permissões necessárias.

    5. (Opcional) Para ativar tags para o recurso, escolha Adicionar nova tag e, em seguida, insira o par de chave e valor.

    6. Escolha Próximo.

  5. Para a Etapa 2: Escolha a técnica de correspondência:

    1. Em Método de correspondência, escolha Correspondência baseada em regras.

    2. Em Tipo de regra, escolha Simples.

      Escolha a tela de técnica de correspondência com a opção de correspondência simples baseada em regras selecionada.
    3. Em Cadência de processamento, selecione uma das opções a seguir.

      • Escolha Manual para executar um fluxo de trabalho sob demanda para uma atualização em massa

      • Escolha Automático para executar um fluxo de trabalho assim que novos dados estiverem em seu bucket do S3

      nota

      Se você escolher Automático, certifique-se de ter EventBridge as notificações da Amazon ativadas para seu bucket do S3. Para obter instruções sobre como habilitar a Amazon EventBridge usando o console do S3, consulte Habilitando a Amazon EventBridge no Guia do usuário do Amazon S3.

    4. (Opcional) Para indexar somente para mapeamento de ID, você pode optar por ativar a capacidade de indexar somente os dados e não gerar IDs.

      Por padrão, o fluxo de trabalho correspondente é gerado IDs após a indexação dos dados.

    5. Em Regras de correspondência, insira um nome de regra e escolha as chaves de correspondência para essa regra.

      Você pode criar até 15 regras e aplicar até 15 chaves de correspondência diferentes em suas regras para definir critérios de correspondência.

      Interface de regras de correspondência com campos para inserir o nome da regra e selecionar as chaves de correspondência.
    6. Em Tipo de comparação, escolha uma das opções a seguir com base em sua meta.

      Seu objetivo Opção recomendada
      Encontre qualquer combinação de correspondências nos dados armazenados em vários campos de entrada Vários campos de entrada
      Limitar a comparação a um único campo de entrada Campo de entrada único
      Opções de tipo de comparação: vários campos de entrada para encontrar correspondências entre dados armazenados em vários campos ou campo de entrada único para limitar a comparação em um campo.
    7. Escolha Próximo.

  6. Para a Etapa 3: Especifique a saída e o formato dos dados:

    1. Em Destino e formato de saída de dados, escolha a localização do Amazon S3 para a saída de dados e se o formato dos dados será dados normalizados ou dados originais.

    2. Em Criptografia, se você optar por Personalizar as configurações de criptografia, insira o ARN da AWS KMS chave.

    3. Visualize a saída gerada pelo sistema.

    4. Para Saída de dados, decida quais campos você deseja incluir, ocultar ou mascarar e, em seguida, execute as ações recomendadas com base em suas metas.

      Seu objetivo Ação recomendada
      Incluir campos Mantenha o estado de saída como Incluído.
      Ocultar campos (excluir da saída) Escolha o campo Saída e, em seguida, escolha Ocultar.
      Campos de máscara Escolha o campo Saída e, em seguida, escolha Saída de hash.
      Redefinir as configurações anteriores Escolha Redefinir.
    5. Escolha Próximo.

  7. Para a Etapa 4: Revise e crie:

    1. Revise as seleções feitas nas etapas anteriores e edite, se necessário.

    2. Escolha Criar e executar.

      Uma mensagem aparece indicando que o fluxo de trabalho correspondente foi criado e que o trabalho foi iniciado.

  8. Na página de detalhes do fluxo de trabalho correspondente, na guia Métricas, veja o seguinte em Métricas do último trabalho:

    • O Job ID.

    • O status da tarefa de fluxo de trabalho correspondente: Em fila, em andamento, concluída, com falha

    • O tempo concluído para o trabalho do fluxo de trabalho.

    • O número de registros processados.

    • O número de registros não processados.

    • A partida única IDs gerada.

    • O número de registros de entrada.

    Você também pode visualizar as métricas de trabalho para trabalhos de fluxo de trabalho correspondentes que foram executados anteriormente no Histórico de trabalhos.

  9. Após a conclusão do trabalho de fluxo de trabalho correspondente (o status é concluído), você pode acessar a guia Saída de dados e selecionar sua localização no Amazon S3 para visualizar os resultados.

  10. (Somente tipo de processamento manual) Se você criou um fluxo de trabalho de correspondência baseado em regras com o tipo de processamento Manual, você pode executar o fluxo de trabalho correspondente a qualquer momento escolhendo Executar fluxo de trabalho na página de detalhes do fluxo de trabalho correspondente.

API
Para criar um fluxo de trabalho de correspondência baseado em regras com o tipo de regra simples usando a API
nota

Por padrão, o fluxo de trabalho usa processamento padrão (em lote). Para usar o processamento incremental (automático), você deve configurá-lo explicitamente.

  1. Abra um terminal ou prompt de comando para fazer a solicitação da API.

  2. Crie uma solicitação POST para o seguinte endpoint:

    /matchingworkflows
  3. No cabeçalho da solicitação, defina o tipo de conteúdo como application/json.

    nota

    Para obter uma lista completa das linguagens de programação compatíveis, consulte a Referência AWS Entity Resolution da API.

  4. Para o corpo da solicitação, forneça os seguintes parâmetros JSON necessários:

    { "description": "string", "incrementalRunConfig": { "incrementalRunType": "string" }, "inputSourceConfig": [ { "applyNormalization": boolean, "inputSourceARN": "string", "schemaName": "string" } ], "outputSourceConfig": [ { "applyNormalization": boolean, "KMSArn": "string", "output": [ { "hashed": boolean, "name": "string" } ], "outputS3Path": "string" } ], "resolutionTechniques": { "providerProperties": { "intermediateSourceConfiguration": { "intermediateS3Path": "string" }, "providerConfiguration": JSON value, "providerServiceArn": "string" }, "resolutionType": "RULE_MATCHING", "ruleBasedProperties": { "attributeMatchingModel": "string", "matchPurpose": "string", "rules": [ { "matchingKeys": [ "string" ], "ruleName": "string" } ] }, "ruleConditionProperties": { "rules": [ { "condition": "string", "ruleName": "string" } ] } }, "roleArn": "string", "tags": { "string" : "string" }, "workflowName": "string" }

    Em que:

    • workflowName(obrigatório) — Deve ser exclusivo e ter entre 1—255 caracteres que correspondam ao padrão [a-zA-z_0-9-] *

    • inputSourceConfig(obrigatório) — Lista de 1—20 configurações de fonte de entrada

    • outputSourceConfig(obrigatório) — Exatamente uma configuração de fonte de saída

    • resolutionTechniques(obrigatório) — Defina como “RULE_MATCHING” para correspondência baseada em regras

    • roleArn(obrigatório) — ARN da função do IAM para execução do fluxo de trabalho

    • ruleConditionProperties(obrigatório) — Lista de condições da regra e o nome da regra correspondente.

    Os parâmetros opcionais incluem:

    • description— Até 255 caracteres

    • incrementalRunConfig— Configuração incremental do tipo de execução

    • tags— Até 200 pares de valores-chave

  5. (Opcional) Para usar o processamento incremental em vez do processamento padrão (em lote), adicione o seguinte parâmetro ao corpo da solicitação:

    "incrementalRunConfig": { "incrementalRunType": "AUTOMATIC" }
  6. Envie a solicitação .

  7. Se for bem-sucedido, você receberá uma resposta com o código de status 200 e um corpo JSON contendo:

    { "workflowArn": "string", "workflowName": "string", // Plus all configured workflow details }
  8. Se a chamada não for bem-sucedida, você poderá receber um destes erros:

    • 400 — ConflictException se o nome do fluxo de trabalho já existir

    • 400 — ValidationException se a entrada falhar na validação

    • 402 — ExceedsLimitException se os limites da conta forem excedidos

    • 403 — AccessDeniedException se você não tiver acesso suficiente

    • 429 — ThrottlingException se a solicitação foi limitada

    • 500 — InternalServerException se houver uma falha de serviço interno