Las traducciones son generadas a través de traducción automática. En caso de conflicto entre la traducción y la version original de inglés, prevalecerá la version en inglés.
Haga coincidir los datos de entrada mediante un flujo de trabajo coincidente
Un flujo de trabajo coincidente es un trabajo de procesamiento de datos que combina y compara datos de diferentes fuentes de entrada y determina qué registros coinciden en función de diferentes técnicas de coincidencia.AWS Entity Resolution lee los datos de las ubicaciones especificadas, busca coincidencias entre los registros y asigna un identificador de coincidencia a cada conjunto de datos coincidentes.
El siguiente diagrama resume cómo crear un flujo de trabajo coincidente.
Temas
Tipos de flujo de trabajo coincidentes
AWS Entity Resolution admite tres tipos de flujos de trabajo coincidentes:
- Emparejamiento basado en reglas
-
Utiliza reglas configurables para identificar los registros coincidentes en función de la coincidencia exacta o difusa de campos específicos. Usted define los criterios de coincidencia, como los nombres coincidentes que se escriben de forma similar o las direcciones que tienen un formato diferente.
- Emparejamiento basado en el aprendizaje automático
-
Utiliza modelos de aprendizaje automático para identificar registros similares, incluso cuando los datos tienen variaciones, errores o campos faltantes. Este enfoque puede detectar coincidencias más complejas que las coincidencias basadas en reglas.
- Coincidencia basada en los servicios de los proveedores
-
Utiliza proveedores de datos de terceros para enriquecer y validar sus datos antes de compararlos. Este tipo de coincidencia no es compatible con la salida de los perfiles de clientes de Amazon Connect.
Opciones de salida de datos
AWS Entity Resolution puede escribir archivos de salida de datos en:
-
Una ubicación de Amazon S3 que especifique
-
Perfiles de clientes de Amazon Connect (para deduplicación de datos de clientes)
importante
La exportación a los perfiles de clientes de Amazon Connect no es compatible con la búsqueda de coincidencias basada en el proveedor. Para exportar a los perfiles de clientes de Amazon Connect, debe utilizar la coincidencia basada en reglas o en el aprendizaje automático.
Si lo desea, puede AWS Entity Resolution utilizar el hash de los datos de salida, lo que le ayuda a mantener el control sobre sus datos.
La siguiente tabla muestra los tres tipos de flujos de trabajo coincidentes y sus destinos de salida compatibles.
| Tipo coincidente | salidas S3 | Resultados de los perfiles de los clientes |
|---|---|---|
| basado en reglas | ||
| basado en aprendizaje automático | ||
| basado en servicios de proveedores |
Resultados coincidentes del flujo de trabajo
Tras crear y ejecutar un flujo de trabajo coincidente, puede ver los resultados en la ubicación de S3 que haya especificado o en los perfiles de clientes de Amazon Connect. Los flujos de trabajo coincidentes se generan IDs después de indexar los datos.
Un flujo de trabajo coincidente puede tener varias ejecuciones y los resultados (aciertos o errores) se escriben en una carpeta con jobId el nombre.
Para cada ejecución para los destinos de salida de S3:
-
La salida de datos contiene un archivo para las coincidencias correctas y un archivo para los errores
-
Los resultados correctos se graban en una
successcarpeta que contiene varios archivos -
Los errores se escriben en una
errorcarpeta con varios campos
Para cada ejecución de los destinos de salida de los perfiles de cliente de Amazon Connect:
-
Los registros de clientes deduplicados se envían directamente a su instancia de Amazon Connect
-
Puede ver su historial de trabajos recientes en la consola AWS Entity Resolution
-
Los perfiles existentes en Amazon Connect no se incluyen en el proceso de deduplicación
Después de crear y ejecutar un flujo de trabajo coincidente, puede utilizar el resultado de la coincidencia basada en reglas o mediante aprendizaje automático (ML) como entrada para la coincidencia basada en los servicios del proveedor o viceversa para satisfacer las necesidades de su empresa.
Por ejemplo, para ahorrar costes de suscripción a los proveedores, primero puede ejecutar una búsqueda de coincidencias basada en reglas para encontrar coincidencias en sus datos. A continuación, puede enviar un subconjunto de registros no coincidentes a la búsqueda de coincidencias basada en los servicios del proveedor. Tenga en cuenta que si planea exportar a perfiles de clientes, solo debe utilizar la búsqueda de coincidencias basada en reglas o mediante aprendizaje automático.
Para obtener más información sobre la solución de errores, consulte. Solución de problemas de flujos de trabajo