As traduções são geradas por tradução automática. Em caso de conflito entre o conteúdo da tradução e da versão original em inglês, a versão em inglês prevalecerá.
Combine os dados de entrada usando um fluxo de trabalho correspondente
Um fluxo de trabalho de correspondência é um trabalho de processamento de dados que combina e compara dados de diferentes fontes de entrada e determina quais registros correspondem com base em diferentes técnicas de correspondência.AWS Entity Resolution lê seus dados dos locais especificados, encontra correspondências entre registros e atribui uma ID de correspondência a cada conjunto de dados correspondente.
O diagrama a seguir resume como criar um fluxo de trabalho correspondente.
Tópicos
Criação de um fluxo de trabalho de correspondência baseado em regras
Criação de um fluxo de trabalho de correspondência baseado em aprendizado de máquina
Criação de um fluxo de trabalho de correspondência baseado em serviços do provedor
Procurando um ID de correspondência para um fluxo de trabalho de correspondência baseado em regras
Excluindo registros de um fluxo de trabalho de correspondência baseado em regras ou em ML
Tipos de fluxo de trabalho correspondentes
AWS Entity Resolution suporta três tipos de fluxos de trabalho correspondentes:
- Correspondência baseada em regras
-
Usa regras configuráveis para identificar registros correspondentes com base na correspondência exata ou difusa dos campos especificados. Você define os critérios de correspondência, como nomes correspondentes com grafia semelhante ou endereços com formatação diferente.
- Correspondência baseada em aprendizado de máquina
-
Usa modelos de aprendizado de máquina para identificar registros semelhantes, mesmo quando os dados têm variações, erros ou campos ausentes. Essa abordagem pode detectar correspondências mais complexas do que a correspondência baseada em regras.
- Correspondência baseada em serviços de provedores
-
Usa provedores de dados terceirizados para enriquecer e validar seus dados antes da correspondência. Esse tipo de correspondência não é compatível com a saída do Amazon Connect Customer Profiles.
Opções de saída de dados
AWS Entity Resolution pode gravar arquivos de saída de dados em:
-
Um local do Amazon S3 que você especifica
-
Perfis de clientes do Amazon Connect (para desduplicação de dados de clientes)
Importante
A exportação para perfis de clientes do Amazon Connect não é compatível com a correspondência baseada no provedor. Para exportar para os perfis de clientes do Amazon Connect, você deve usar a correspondência baseada em regras ou a correspondência baseada em aprendizado de máquina.
Você pode usar AWS Entity Resolution para fazer o hash dos dados de saída, se desejar, ajudando você a manter o controle sobre seus dados.
A tabela a seguir mostra os três tipos de fluxos de trabalho correspondentes e seus destinos de saída compatíveis.
| Tipo de correspondência | saída do S3 | Saída de perfis de clientes |
|---|---|---|
| baseado em regras | ||
| baseado em aprendizado de máquina | ||
| baseado em serviços de provedores |
Resultados de fluxo de trabalho correspondentes
Depois de criar e executar um fluxo de trabalho correspondente, você pode visualizar os resultados na sua localização específica do S3 ou nos perfis de clientes do Amazon Connect. Os fluxos de trabalho correspondentes são gerados IDs após a indexação dos dados.
Um fluxo de trabalho correspondente pode ter várias execuções e os resultados (acertos ou erros) são gravados em uma pasta com o jobId como nome.
Para cada execução para destinos de saída do S3:
-
A saída de dados contém um arquivo para correspondências bem-sucedidas e um arquivo para erros
-
Os resultados bem-sucedidos são gravados em uma
successpasta contendo vários arquivos -
Os erros são gravados em uma
errorpasta com vários campos
Para cada execução do Amazon Connect Customer Profiles, destinos de saída:
-
Os registros de clientes desduplicados são enviados diretamente para sua instância do Amazon Connect
-
Você pode ver seu histórico de trabalho recente no AWS Entity Resolution console
-
Os perfis existentes no Amazon Connect não estão incluídos no processo de desduplicação
Depois de criar e executar um fluxo de trabalho correspondente, você pode usar a saída da correspondência baseada em regras ou da correspondência de aprendizado de máquina (ML) como uma entrada para a correspondência baseada em serviços do provedor ou vice-versa para atender às suas necessidades comerciais.
Por exemplo, para economizar nos custos de assinatura do provedor, você pode primeiro executar a correspondência baseada em regras para encontrar correspondências em seus dados. Em seguida, você pode enviar um subconjunto de registros incomparáveis para a correspondência baseada em serviços do provedor. Observe que, se você planeja exportar para perfis de clientes, deve usar somente a correspondência baseada em regras ou em aprendizado de máquina.
Para obter mais informações sobre a solução de problemas de erros, consulteSolução de problemas de fluxos de trabalho correspondentes.