Les traductions sont fournies par des outils de traduction automatique. En cas de conflit entre le contenu d'une traduction et celui de la version originale en anglais, la version anglaise prévaudra.
Création d'un flux de travail de correspondance basé sur des règles
La correspondance basée sur des règles est un ensemble hiérarchique de règles de correspondance en cascade, suggérées par Résolution des entités AWS, en fonction des données que vous saisissez et que vous pouvez entièrement configurer. Le flux de correspondance basé sur des règles vous permet de comparer des données en texte clair ou hachées pour trouver des correspondances exactes en fonction de critères que vous personnalisez.
Lorsqu'il Résolution des entités AWS trouve une correspondance entre deux ou plusieurs enregistrements de vos données, il attribue :
-
Un identifiant de correspondance avec les enregistrements de l'ensemble de données correspondant
-
La règle de correspondance qui a généré la correspondance.
Pour créer un flux de travail de correspondance basé sur des règles
-
Connectez-vous à la Résolution des entités AWS console AWS Management Console et ouvrez-la à l'adresse https://console.aws.amazon.com/entityresolution/
. -
Dans le volet de navigation de gauche, sous Workflows, choisissez Matching.
-
Sur la page des flux de travail correspondants, dans le coin supérieur droit, choisissez Créer un flux de travail correspondant.
-
Pour l'étape 1 : Spécifier les détails du flux de travail correspondants, procédez comme suit :
-
Entrez un nom de flux de travail correspondant et une description facultative.
-
Pour la saisie de données, choisissez une AWS Glue base de données dans la liste déroulante, sélectionnez la AWS Glue table, puis le mappage de schéma correspondant.
Vous pouvez ajouter jusqu'à 19 entrées de données.
-
L'option Normaliser les données est sélectionnée par défaut, afin que les entrées de données soient normalisées avant la mise en correspondance. Si vous ne souhaitez pas normaliser les données, désélectionnez l'option Normaliser les données.
Note
La normalisation n'est prise en charge que pour les scénarios suivants dans Créer un mappage de schéma :
-
Si les sous-types de nom suivants sont regroupés : prénom, deuxième prénom, nom de famille.
-
Si les sous-types d'adresse suivants sont regroupés : adresse 1, adresse 2, adresse 3, ville, État, pays, code postal.
-
Si les sous-types de téléphone suivants sont regroupés : numéro de téléphone, code de pays du téléphone.
-
-
Pour spécifier les autorisations d'accès au service, choisissez une option et prenez les mesures recommandées.
Option Action recommandée Création et utilisation d'un nouveau rôle de service -
Résolution des entités AWS crée un rôle de service avec la politique requise pour cette table.
-
Le nom du rôle de service par défaut est
entityresolution-matching-workflow-<timestamp>
. -
Vous devez disposer des autorisations nécessaires pour créer des rôles et associer des politiques.
-
Si vos données d'entrée sont cryptées, choisissez l'option This data is encrypted by a KMS key. Entrez ensuite une AWS KMS clé qui sera utilisée pour déchiffrer vos données saisies.
Utiliser un rôle de service existant -
Choisissez le nom d'un rôle de service existant dans la liste déroulante.
La liste des rôles s'affiche si vous êtes autorisé à répertorier les rôles.
Si vous n'êtes pas autorisé à répertorier les rôles, vous pouvez saisir le nom de ressource Amazon (ARN) du rôle que vous souhaitez utiliser.
S'il n'existe aucun rôle de service existant, l'option Utiliser un rôle de service existant n'est pas disponible.
-
Affichez le rôle de service en choisissant le lien externe Afficher dans IAM.
Par défaut, Résolution des entités AWS ne tente pas de mettre à jour la politique de rôle existante pour ajouter les autorisations nécessaires.
-
-
(Facultatif) Pour activer les balises pour la ressource, choisissez Ajouter une nouvelle balise, puis entrez la paire clé/valeur.
-
Choisissez Suivant.
-
-
Pour l'étape 2 : Choisissez la technique de correspondance :
-
Pour Méthode de correspondance, choisissez Correspondance basée sur des règles.
-
Pour Cadence de traitement, sélectionnez l'une des options suivantes :
-
Choisissez Manuel pour exécuter un flux de travail à la demande pour une mise à jour groupée
-
Choisissez Automatique pour exécuter un flux de travail dès que de nouvelles données se trouvent dans votre compartiment S3
Note
Si vous choisissez Automatique, assurez-vous que EventBridge les notifications Amazon sont activées pour votre compartiment S3. Pour obtenir des instructions sur l'activation EventBridge d'Amazon à l'aide de la console S3, consultez la section Activation d'Amazon EventBridge dans le guide de l'utilisateur Amazon S3.
-
-
(Facultatif) Sélectionnez Activer l'index uniquement pour le mappage des identifiants, si vous souhaitez utiliser le flux de travail correspondant comme source ou cible dans un flux de travail de mappage des identifiants. Résolution des entités AWS indexera uniquement les données et ne les générera pas IDs.
Par défaut, les flux de travail correspondants sont générés une IDs fois les données indexées.
-
Pour les règles de correspondance, entrez un nom de règle, puis choisissez les clés de correspondance pour cette règle.
Vous pouvez créer jusqu'à 15 règles et appliquer jusqu'à 15 clés de correspondance différentes à vos règles pour définir des critères de correspondance.
-
Choisissez Ajouter une autre règle pour créer des règles supplémentaires si nécessaire.
-
Pour Type de comparaison, sélectionnez l'une des options suivantes :
-
Choisissez Plusieurs champs de saisie pour trouver n'importe quelle combinaison de correspondances entre les données stockées dans plusieurs champs de saisie.
-
Choisissez Champ de saisie unique pour limiter la comparaison à un seul champ de saisie.
-
-
Choisissez Suivant.
-
-
Pour l'étape 3 : Spécifier la sortie et le format des données :
-
Pour la destination et le format de sortie des données, choisissez l'emplacement Amazon S3 pour la sortie des données et indiquez si le format des données sera des données normalisées ou des données d'origine.
-
Pour le chiffrement, si vous choisissez de personnaliser les paramètres de chiffrement, entrez l'ARN de la AWS KMS clé.
-
Affichez la sortie générée par le système.
-
Pour la sortie de données, choisissez les champs que vous souhaitez inclure, masquer ou masquer, puis sélectionnez l'une des options suivantes :
-
Conservez l'état de sortie sur Inclus pour inclure les champs.
-
Choisissez le champ de sortie, puis choisissez Masquer pour masquer les champs (exclure de la sortie)
-
Choisissez le champ Sortie, puis choisissez Hash output pour masquer les champs.
-
Choisissez Réinitialiser pour rétablir les paramètres précédents.
-
-
Choisissez Suivant.
-
-
Pour l'étape 4 : révision et création :
-
Passez en revue les sélections que vous avez effectuées lors des étapes précédentes et modifiez-les si nécessaire.
-
Choisissez Créer et exécuter.
Un message apparaît, indiquant que le flux de travail correspondant a été créé et que le travail a commencé.
-
-
Sur la page des détails du flux de travail correspondant, sous l'onglet Mesures, consultez les informations suivantes sous Dernières mesures de travail :
-
Le Job ID.
-
État de la tâche de flux de travail correspondante : En file d'attente, en cours, terminée, échouée
-
Durée d'exécution de la tâche de flux de travail.
-
Le nombre d'enregistrements traités.
-
Le nombre d'enregistrements non traités.
-
La correspondance unique IDs générée.
-
Le nombre d'enregistrements en entrée.
Vous pouvez également consulter les statistiques des tâches correspondant aux tâches de flux de travail précédemment exécutées dans l'historique des tâches.
-
-
Une fois la tâche de flux de travail correspondante terminée (le statut est terminé), vous pouvez accéder à l'onglet Sortie de données, puis sélectionner votre site Amazon S3 pour afficher les résultats.
-
(Type de traitement manuel uniquement) Si vous avez créé un flux de travail de correspondance basé sur des règles avec le type de traitement manuel, vous pouvez exécuter le flux de travail correspondant à tout moment en choisissant Exécuter le flux de travail sur la page de détails du flux de travail correspondant.