Las traducciones son generadas a través de traducción automática. En caso de conflicto entre la traducción y la version original de inglés, prevalecerá la version en inglés.

# AWS Entity Resolution Glosario
<a name="glossary"></a>

## Nombre de recurso de Amazon (ARN)
<a name="arn-definition"></a>

Un identificador único de los recursos. AWS ARNs son necesarios cuando se necesita especificar un recurso de forma inequívoca en todos los aspectos, por ejemplo AWS Entity Resolution, en AWS Entity Resolution las políticas, las etiquetas de Amazon Relational Database Service (Amazon RDS) y las llamadas a la API.

## Tipo de atributo
<a name="attribute-type-defn"></a>

El tipo de atributo del campo de entrada. Al [crear un esquema de mapeo](create-schema-mapping.md), se selecciona el **tipo de atributo** de una lista preconfigurada de valores, como el **nombre**, la **dirección**, el **número de teléfono** o la **dirección de correo electrónico**. El tipo de atributo indica AWS Entity Resolution qué tipo de datos se están presentando, lo que permite clasificarlos y normalizarlos adecuadamente.

## Procesamiento automático
<a name="incremental-processing"></a>

Una opción de cadencia de procesamiento para un trabajo de flujo de trabajo coincidente que permite ejecutarlo automáticamente cuando se modifican los datos introducidos. 

Esta opción solo está disponible para la coincidencia [basada en reglas](#rule-based-matching-defn).

De forma predeterminada, la cadencia de procesamiento de un trabajo de flujo de trabajo coincidente se establece en [**Manual**](#manual-processing), lo que permite ejecutarlo bajo demanda. Puede configurar el procesamiento **automático** para que ejecute automáticamente el trabajo de flujo de trabajo correspondiente cuando cambie la entrada de datos. Esto mantiene la salida del flujo de trabajo coincidente up-to-date.

## AWS KMS key ARN
<a name="kms-arn-defn"></a>

Este es su nombre de recurso de AWS KMS Amazon (ARN) para el cifrado en reposo. Si no se proporciona, el sistema utilizará una clave de KMS AWS Entity Resolution administrada.

## Flujo de trabajo por lotes
<a name="batch-defn"></a>

Proceso que se ejecuta a intervalos programados para hacer coincidir y resolver los datos de todo un conjunto de datos. Los flujos de trabajo por lotes se AWS Entity Resolution utilizan mejor para la configuración inicial, las actualizaciones completas periódicas y los escenarios con cambios significativos en los conjuntos de datos de origen y destino.

## Texto claro
<a name="cleartext-defn"></a>

Datos que no están protegidos criptográficamente.

## Nivel de confianza () ConfidenceLevel
<a name="confidence-level-defn"></a>

En el caso de la coincidencia de ML, este es el nivel de confianza que se aplica AWS Entity Resolution cuando ML identifica un conjunto de registros coincidente. Esto forma parte de los [metadatos del flujo de trabajo coincidentes](#matching-workflow-metadata) que se incluirán en la salida.

## Descifrado
<a name="decryption-defn"></a>

El proceso de transformar los datos cifrados para devolverles su forma original. El descifrado solo se puede realizar si se tiene el acceso a la clave secreta.

## Cifrado
<a name="encryption-defn"></a>

Proceso de codificación de datos en un formato aparentemente aleatorio utilizando un valor secreto denominado clave. Es imposible determinar el texto sin formato original sin tener acceso a la clave.

## Nombre del grupo
<a name="group-name-defn"></a>

El **nombre del grupo** hace referencia a todo el grupo de campos de entrada y puede ayudarle a agrupar los datos analizados para hacer coincidir los datos.

Por ejemplo, si hay tres campos de entrada: **first\$1name****middle\$1name**, y**last\$1name**, puede agruparlos introduciendo el **nombre del grupo** **full\$1name** para que coincidan y salgan.

## Hash
<a name="hash-defn"></a>

El uso de hash consiste en aplicar un algoritmo criptográfico que produce una cadena única e irreversible de caracteres de un tamaño fijo, denominada hash. AWS Entity Resolution utiliza el protocolo hash Secure Hash Algorithm de 256 bits (SHA256) y generará una cadena de caracteres de 32 bytes. En AWS Entity Resolution, puede elegir si desea codificar los valores de los datos en la salida.

## Protocolo hash (HashingProtocol)
<a name="hash-protocol-defn"></a>

AWS Entity Resolution utiliza el protocolo hash Secure Hash Algorithm de 256 bits (SHA256) y generará una cadena de caracteres de 32 bytes. Esto forma parte de los [metadatos del flujo de trabajo coincidentes](#matching-workflow-metadata) que se incluirán en la salida.

## Método de asignación de ID
<a name="id-mapping-method-defn"></a>

Cómo desea que se realice la asignación de ID. 

Existen dos métodos de mapeo de ID: 
+ Basado en reglas: método mediante el cual se utilizan reglas de coincidencia para traducir datos propios de una fuente a un destino en un flujo de trabajo de mapeo de ID.
+ Servicios de proveedores: método mediante el cual se utiliza un servicio de proveedor para traducir datos codificados de terceros de una fuente a un destino en un flujo de trabajo de mapeo de ID.

  AWS Entity Resolution actualmente es compatible con el LiveRamp método de mapeo de ID basado en los servicios del proveedor. Debe tener una suscripción AWS Data Exchange para LiveRamp utilizar este método. Para obtener más información, consulte [Paso 1: Suscríbase a un servicio de proveedor en AWS Data Exchange](prepare-third-party-input-data.md#subscribe-provider-service).

## Flujo de trabajo de asignación de ID
<a name="id-mapping-workflow-defn"></a>

Un trabajo de procesamiento de datos que mapea los datos de una fuente de datos de entrada a un destino de datos de entrada en función del método de mapeo de ID especificado. Produce una tabla de asignación de ID. Este flujo de trabajo requiere que especifique el [método de mapeo de ID](#id-mapping-method-defn) y los datos de entrada que desea traducir de una fuente a un destino. 

Puedes configurar un flujo de trabajo de mapeo de ID para que se ejecute por tu cuenta Cuenta de AWS o en dos Cuentas de AWS.

## Espacio de nombres de ID
<a name="id-namespace-defn"></a>

Un recurso AWS Entity Resolution que contiene metadatos que explican los conjuntos de datos de varios conjuntos de datos Cuentas de AWS y cómo utilizarlos en un flujo de trabajo de [mapeo de ID](#id-mapping-workflow-defn).

Hay dos tipos de espacios de nombres de ID: y. `SOURCE` `TARGET` `SOURCE`Contiene configuraciones para los datos de origen que se procesarán en un flujo de trabajo de mapeo de ID. `TARGET`Contiene una configuración de los datos de destino a la que se adaptarán todas las fuentes. Para definir los datos de entrada que desea dividir en dos Cuentas de AWS, cree una fuente de espacio de nombres de ID y un destino de espacio de nombres de ID para traducir los datos de un conjunto () a otro ()`SOURCE`. `TARGET`

Después de crear espacios de nombres de ID con otro miembro y ejecutar un flujo de trabajo de mapeo de ID, pueden unirse a una colaboración AWS Clean Rooms para realizar una unión de varias tablas en la tabla de mapeo de ID y analizar los datos.

Para obtener más información, consulte la [Guía del usuario de AWS Clean Rooms](https://docs.aws.amazon.com/clean-rooms/latest/userguide/what-is.html).

## Flujo de trabajo incremental
<a name="incremental-defn"></a>

Un proceso que solo compara y resuelve los registros nuevos o actualizados desde la última ejecución, en lugar de procesar todo el conjunto de datos. Los flujos de trabajo incrementales se AWS Entity Resolution utilizan mejor para realizar actualizaciones frecuentes a fin de mantener los datos actualizados cuando solo ha cambiado una pequeña parte del conjunto de datos.

## Campo de entrada
<a name="input-field-defn"></a>

Un campo de entrada corresponde al nombre de una columna de la tabla AWS Glue de datos de entrada.

## Fuente de entrada ARN (ARNInputSource)
<a name="input-source-arn-defn"></a>

El nombre de recurso de Amazon (ARN) que se generó para una entrada de AWS Glue tabla. Esto forma parte de los [metadatos del flujo de trabajo coincidentes](#matching-workflow-metadata) que se incluirán en la salida.

## Emparejamiento basado en el aprendizaje automático
<a name="ml-matching-defn"></a>

La coincidencia basada en el aprendizaje automático (coincidencia de aprendizaje automático) busca coincidencias en sus datos que pueden estar incompletas o que no tengan exactamente el mismo aspecto. La coincidencia de aprendizaje automático es un proceso preestablecido que intentará hacer coincidir los registros de todos los datos que introduzcas. La coincidencia de ML devuelve un [identificador de coincidencia](#match-id-defin) y un [nivel de confianza](#confidence-level-defn) para cada conjunto de datos coincidente.

## Procesamiento manual
<a name="manual-processing"></a>

Una opción de cadencia de procesamiento para un trabajo de flujo de trabajo coincidente que permite ejecutarlo bajo demanda. 

Esta opción está configurada de forma predeterminada y está disponible tanto para la [coincidencia basada en reglas como para la coincidencia basada en](#rule-based-matching-defn) el [aprendizaje automático](#ml-matching-defn).

## Many-to-Many coincidente
<a name="many-to-many-defin"></a>

Many-to-many la coincidencia compara varias instancias de datos similares. Los valores de los campos de entrada a los que se haya asignado la misma clave de coincidencia se compararán entre sí, independientemente de si están en el mismo campo de entrada o en campos de entrada diferentes. 

Por ejemplo, es posible que tengas varios campos de introducción de números de teléfono, como «Teléfono» `mobile_phone` y `home_phone` que tengan la misma clave coincidente. Usa la many-to-many coincidencia para comparar los datos del campo `mobile_phone` de entrada con los datos del campo `mobile_phone` de entrada y los datos del campo `home_phone` de entrada. 

Las reglas de coincidencia evalúan los datos de varios campos de entrada con la misma clave de coincidencia con una operación (o), y la one-to-many coincidencia compara los valores de varios campos de entrada. Esto significa que si hay alguna combinación `mobile_phone` o `home_phone` coincidencia entre dos registros, la clave de coincidencia «Teléfono» devolverá una coincidencia. Para encontrar una coincidencia, pulse «Teléfono», `Record One mobile_phone = Record Two mobile_phone` `Record One mobile_phone = Record Two home_phone` OR `Record One home_phone = Record Two home_phone` OR`Record One home_phone = Record Two mobile_phone`.

## ID de coincidencia (matchID)
<a name="match-id-defin"></a>

Para la coincidencia basada en reglas y la coincidencia de aprendizaje automático, este es el ID generado AWS Entity Resolution y aplicado a cada conjunto de registros coincidente. Esto forma parte de los [metadatos del flujo de trabajo coincidentes](#matching-workflow-metadata) que se incluirán en la salida.

## Haga coincidir la clave (MatchKey)
<a name="match-key-defn"></a>

La tecla Match indica AWS Entity Resolution qué campos de entrada se deben considerar como datos similares y cuáles se deben considerar como datos diferentes. Esto ayuda a configurar AWS Entity Resolution automáticamente las reglas de coincidencia basadas en reglas y a comparar datos similares almacenados en diferentes campos de entrada. 

Si en tus datos hay varios tipos de información sobre números de teléfono, como un `mobile_phone` campo de `home_phone` entrada y un campo de entrada, que te gustaría comparar entre sí, puedes asignarles a ambos la tecla correspondiente «Teléfono». Luego, la coincidencia basada en reglas se puede configurar para comparar datos utilizando las instrucciones «o» en todos los campos de entrada con la tecla de coincidencia «Teléfono» (consulte las definiciones de [One-to-One coincidencia y [Many-to-Many coincidencia](#many-to-many-defin)](#one-to-one-matching-defn) en la sección Flujo de trabajo coincidente). 

Si quieres que las coincidencias basadas en reglas consideren distintos tipos de información de números de teléfono por separado, puedes crear claves de coincidencia más específicas, como «Mobile\$1Phone» y «Home\$1Phone». A continuación, al configurar un flujo de trabajo de coincidencia, puede especificar cómo se utilizará cada clave de coincidencia de teléfonos en la búsqueda de coincidencias basada en reglas. 

Si MatchKey se especifica un número para un campo de entrada concreto, no se puede usar para la coincidencia, pero se puede llevar a cabo durante el proceso de flujo de trabajo de coincidencia y, si se desea, se puede generar como salida.

## Haga coincidir el nombre de la clave
<a name="match-key-name-defn"></a>

El nombre asignado a una clave de coincidencia.

## Regla de coincidencia (MatchRule)
<a name="match-rule-defn"></a>

En el caso de las coincidencias basadas en reglas, este es el número de regla aplicado que generó un conjunto de registros coincidentes. Esto forma parte de los [metadatos del flujo de trabajo coincidentes](#matching-workflow-metadata) que se incluirán en la salida.

## Coincidencia
<a name="matching-definition"></a>

Proceso de combinar y comparar datos de distintos campos de entrada, tablas o bases de datos y determinar cuáles son iguales (o «coinciden») en función del cumplimiento de ciertos criterios de coincidencia (por ejemplo, mediante reglas o modelos coincidentes).

## Flujo de trabajo correspondiente
<a name="matching-workflow-definition"></a>

El proceso que se configura para especificar los datos de entrada que deben coincidir y cómo se debe realizar la coincidencia.

## Descripción del flujo de trabajo coincidente
<a name="matching-workflow-description"></a>

Una descripción opcional del flujo de trabajo coincidente que puede decidir introducir. Las descripciones le ayudan a diferenciar entre los flujos de trabajo coincidentes si crea más de uno.

## Nombre del flujo de trabajo coincidente
<a name="matching-workflow-name"></a>

El nombre del flujo de trabajo coincidente que especifique. 

**nota**  
Los nombres de los flujos de trabajo coincidentes deben ser únicos. No pueden tener el mismo nombre o se devolverá un error.

## Los metadatos del flujo de trabajo coinciden
<a name="matching-workflow-metadata"></a>

Información generada y generada AWS Entity Resolution durante un trabajo de flujo de trabajo coincidente. Esta información es obligatoria en la salida.

## Normalización (ApplyNormalization)
<a name="normalization-defn"></a>

Elija si desea normalizar los datos de entrada tal y como se define en el esquema. La normalización estandariza los datos al eliminar los espacios adicionales y los caracteres especiales y estandarizarlos al formato en minúsculas. 

Por ejemplo, si un campo de entrada tiene el tipo de atributo [Teléfono completo](#normalization-rule-phone) y los valores de la tabla de entrada tienen el formato correspondiente`(123) 456-7890`, los valores se AWS Entity Resolution normalizarán a. `1234567890`

**nota**  
La normalización solo es compatible con el tipo de grupo correspondiente al [nombre](#normalization-rule-name), la [dirección](#normalization-rule-address), el [teléfono](#normalization-rule-phone) y el [correo electrónico](#normalization-rule-email). 

En las siguientes secciones se describen nuestras reglas de normalización estándar. 

Para obtener información específica sobre la coincidencia basada en ML, consulte[Normalización ()ApplyNormalization: solo basada en ML](#normalization-ML-defn).

**Topics**
+ [Name](#normalization-rule-name)
+ [Correo electrónico](#normalization-rule-email)
+ [Teléfono](#normalization-rule-phone)
+ [Dirección](#normalization-rule-address)
+ [Con un hash](#normalization-rule-hashed)
+ [Source\$1ID](#normalization-rule-source-id)

### Name
<a name="normalization-rule-name"></a>

**nota**  
La normalización solo se admite para el tipo de grupo de **nombres**.   
**El tipo de grupo de nombres aparece como **nombre completo** en la consola y `NAME` en la API.**  
Si quieres normalizar los subtipos del grupo de **nombres**, escribe:   
En la consola, asigne los siguientes subtipos al grupo de **nombres completos**: **nombre**, **segundo nombre** y **apellido**.
En la [CreateSchemaMapping](https://docs.aws.amazon.com/entityresolution/latest/apireference/API_CreateSchemaMapping.html)API, asigne los siguientes **tipos** a `NAME` **GroupName**: `NAME_FIRST``NAME_MIDDLE`, y. `NAME_LAST`
+ **TRIM = Recorta** los espacios en blanco iniciales y finales
+ MINÚSCULAS = Pone en **minúscula todos los caracteres alfabéticos**
+ **CONVERT\$1ACCENT = Convierte una letra acentuada** a una letra normal
+ **REMOVE\$1ALL\$1NON\$1ALPHA = Elimina todos** los caracteres no alfabéticos [A-zA-z]

### Correo electrónico
<a name="normalization-rule-email"></a>

**nota**  
Se admite la normalización para el tipo de grupo **de** correo electrónico.   
**El tipo de grupo de **correo electrónico aparece como dirección** de correo electrónico en la consola y `EMAIL_ADDRESS` en la API.**
+ **TRIM = Recorta** los espacios en blanco iniciales y finales
+ MINÚSCULAS = Pone en **minúscula todos los caracteres alfabéticos**
+ **CONVERT\$1ACCENT = Convierte una letra acentuada** a una letra normal
+ **EMAIL\$1ADDRESS\$1UTIL\$1NORM** = Elimina cualquier punto (.) del nombre de usuario, elimina todo lo que esté después de un signo más (\$1) en el nombre de usuario y estandariza las variaciones de dominio más comunes
+ **REMOVE\$1ALL\$1NON\$1EMAIL\$1CHARS = Elimina todos los caracteres [a-zA-Z0-9] y [.@** -] non-alpha-numeric

### Teléfono
<a name="normalization-rule-phone"></a>

**nota**  
La normalización solo es compatible con el tipo **de** grupo de teléfonos.  
El tipo de grupo de **teléfonos** aparece como **Teléfono completo** en la consola y `PHONE` en la API.  
Si quieres normalizar los subtipos del tipo de grupo de **teléfonos**:   
En la consola, asigne los siguientes subtipos al grupo de **teléfonos completo**: **número de teléfono** y código de **país del teléfono**.
En la [CreateSchemaMapping](https://docs.aws.amazon.com/entityresolution/latest/apireference/API_CreateSchemaMapping.html)API, asigne los siguientes **tipos** a `PHONE` **GroupName**: `PHONE_NUMBER` y. `PHONE_COUNTRYCODE`
+ **TRIM = Recorta** los espacios en blanco iniciales y finales
+ **REMOVE\$1ALL\$1NON\$1NUMERIC = Elimina todos los caracteres no numéricos [0-9**]
+ **REMOVE\$1ALL\$1LEADING\$1ZEROES** = Elimina todos los ceros iniciales
+ **ENSURE\$1PREFIX\$1WITH\$1MAP, "" = Examina cada número de teléfono e intenta compararlo con** los patrones del. phonePrefixMap phonePrefixMap Si se encuentra una coincidencia, la regla añadirá o modificará el prefijo del número de teléfono para garantizar que se ajusta al formato estandarizado especificado en el mapa.

### Dirección
<a name="normalization-rule-address"></a>

**nota**  
La normalización solo se admite para el tipo de grupo **de direcciones**.   
El tipo de grupo de **direcciones** aparece como **dirección completa** en la consola y `ADDRESS ` en la API.  
Si quieres normalizar los subtipos del tipo de grupo de **direcciones**:   
En la consola, asigne los siguientes subtipos al grupo de **direcciones completo**: **dirección 1**, **dirección 2**: nombre de la **dirección 3, nombre** de **la ciudad**, **estado**, **país** y **código postal t**
En la [CreateSchemaMapping](https://docs.aws.amazon.com/entityresolution/latest/apireference/API_CreateSchemaMapping.html)API, asigne los siguientes **tipos** a `ADDRESS` **GroupName**:`ADDRESS_STREET1`,`ADDRESS_STREET2`,`ADDRESS_STREET3`, `ADDRESS_CITY` `ADDRESS_STATE``ADDRESS_COUNTRY`, y. `ADDRESS_POSTALCODE`
+ **TRIM = Recorta** los espacios en blanco iniciales y finales
+ MINÚSCULAS = Pone en **minúscula todos los caracteres alfabéticos**
+ **CONVERT\$1ACCENT = Convierte una letra acentuada** a una letra normal
+ **REMOVE\$1ALL\$1NON\$1ALPHA = Elimina todos** los caracteres no alfabéticos [A-zA-z]
+ **[RENAME\$1WORDS utilizando ADDRESS\$1RENAME\$1WORD\$1MAP = sustituye las palabras de la cadena de direcciones por palabras de ADDRESS\$1RENAME\$1WORD\$1MAP](#ADDRESS_RENAME_WORD_MAP)**
+ **RENAME\$1DELIMITERS mediante ADDRESS\$1RENAME\$1DELIMITER\$1MAP** = reemplazar los delimitadores de la cadena de direcciones por la cadena de [direcciones de ADDRESS\$1RENAME\$1DELIMITER\$1MAP](#ADDRESS_RENAME_DELIMITER_MAP)
+ **RENAME\$1DIRECTIONS utilizando ADDRESS\$1RENAME\$1DIRECTION\$1MAP = reemplazar los delimitadores** de la cadena de direcciones por una cadena de [ADDRESS\$1RENAME\$1DIRECTION\$1MAP](#ADDRESS_RENAME_DIRECTION_MAP)
+ **RENAME\$1NUMBERS con ADDRESS\$1RENAME\$1NUMBER\$1MAP** = reemplaza los números de la cadena de direcciones por una cadena de [ADDRESS\$1RENAME\$1NUMBER\$1MAP](#ADDRESS_RENAME_NUMBER_MAP.title)
+ **RENAME\$1SPECIAL\$1CHARS con ADDRESS\$1RENAME\$1SPECIAL\$1CHAR\$1MAP** [= sustituir los caracteres especiales de la cadena de direcciones por una cadena de ADDRESS\$1RENAME\$1SPECIAL\$1CHAR\$1MAP](#ADDRESS_RENAME_SPECIAL_CHAR_MAP.title)

#### ADDRESS\$1RENAME\$1WORD\$1MAP
<a name="ADDRESS_RENAME_WORD_MAP"></a>

Estas son las palabras a las que se les cambiará el nombre al normalizar la cadena de direcciones.

```
"avenue": "ave",
 "bouled": "blvd",
 "circle": "cir",
 "circles": "cirs",
 "court": "ct",
 "centre": "ctr",
 "center": "ctr",
 "drive": "dr",
 "freeway": "fwy",
 "frwy": "fwy",
 "highway": "hwy",
 "lane": "ln",
 "parks": "park",
 "parkways": "pkwy",
 "pky": "pkwy",
 "pkway": "pkwy",
 "pkwys": "pkwy",
 "parkway": "pkwy",
 "parkwy": "pkwy",
 "place": "pl",
 "plaza": "plz",
 "plza": "plz",
 "road": "rd",
 "square": "sq",
 "squ": "sq",
 "sqr": "sq",
 "street": "st",
 "str": "st",
 "str.": "strasse"
```

#### ADDRESS\$1RENAME\$1DELIMITER\$1MAP
<a name="ADDRESS_RENAME_DELIMITER_MAP"></a>

Estos son los delimitadores a los que se les cambiará el nombre al normalizar la cadena de direcciones.

```
",": " ",
".": " ",
"[": " ",
"]": " ",
"/": " ",
"-": " ",
"#": " number "
```

#### ADDRESS\$1RENAME\$1DIRECTION\$1MAP
<a name="ADDRESS_RENAME_DIRECTION_MAP"></a>

Estos son los identificadores de dirección a los que se les cambiará el nombre al normalizar la cadena de direcciones.

```
"east": "e",
"north": "n",
"south": "s",
"west": "w",
"northeast": "ne",
"northwest": "nw",
"southeast": "se",
"southwest": "sw"
```

#### ADDRESS\$1RENAME\$1NUMBER\$1MAP
<a name="ADDRESS_RENAME_NUMBER_MAP"></a>

Estas son las cadenas numéricas a las que se les cambiará el nombre al normalizar la cadena de direcciones.

```
"número": "number",
 "numero": "number",
 "no": "number",
 "núm": "number",
 "num": "number"
```

#### ADDRESS\$1RENAME\$1SPECIAL\$1CHAR\$1MAP
<a name="ADDRESS_RENAME_SPECIAL_CHAR_MAP"></a>

Estas son las cadenas de caracteres especiales a las que se les cambiará el nombre al normalizar la cadena de direcciones.

```
"ß": "ss",
 "ä": "ae",
 "ö": "oe",
 "ü": "ue",
 "ø": "o",
 "æ": "ae"
```

### Con un hash
<a name="normalization-rule-hashed"></a>
+ **TRIM = Recorta** los espacios en blanco iniciales y finales

### Source\$1ID
<a name="normalization-rule-source-id"></a>
+ **TRIM = Recorta** los espacios en blanco iniciales y finales

## Normalización ()ApplyNormalization: solo basada en ML
<a name="normalization-ML-defn"></a>

Elija si desea normalizar los datos de entrada tal como se define en el esquema. La normalización estandariza los datos al eliminar los espacios adicionales y los caracteres especiales y estandarizarlos al formato en minúsculas. 

Por ejemplo, si un campo de entrada tiene un tipo de atributo de y los valores de `NAME` la tabla de entrada tienen el formato correspondiente`Johns Smith`, los valores se AWS Entity Resolution normalizarán a. `john smith`

En las siguientes secciones se describen las reglas de normalización para los flujos de trabajo de coincidencia [basados en el aprendizaje automático](#ml-matching-defn).

**Topics**
+ [Name](#normalization-ML-defn-name)
+ [Correo electrónico](#normalization-ML-defn-email)
+ [Teléfono](#normalization-ML-defn-phone)

### Name
<a name="normalization-ML-defn-name"></a>
+ **TRIM = Recorta** los espacios en blanco iniciales y finales
+ MINÚSCULAS = Pone en **minúscula todos los caracteres alfabéticos**

### Correo electrónico
<a name="normalization-ML-defn-email"></a>
+ MINÚSCULAS = Pone en **minúscula todos los caracteres alfabéticos**
+ Sustituye únicamente (at) (distingue entre mayúsculas y minúsculas) por el símbolo @
+ Elimina todos los espacios en blanco de cualquier parte del valor 
+ Elimina todo lo que esté fuera del primero, `"<` `>"` si existe

### Teléfono
<a name="normalization-ML-defn-phone"></a>
+ **TRIM = Recorta** los espacios en blanco iniciales y finales
+ **REMOVE\$1ALL\$1NON\$1NUMERIC = Elimina todos los caracteres no numéricos [0-9**]
+ **REMOVE\$1ALL\$1LEADING\$1ZEROES** = Elimina todos los ceros iniciales
+ **ENSURE\$1PREFIX\$1WITH\$1MAP, "" = Examina cada número de teléfono e intenta compararlo con** los patrones del. phonePrefixMap phonePrefixMap Si se encuentra una coincidencia, la regla añadirá o modificará el prefijo del número de teléfono para garantizar que se ajusta al formato estandarizado especificado en el mapa.

## One-to-One coincidente
<a name="one-to-one-matching-defn"></a>

One-to-one la coincidencia compara instancias individuales de datos similares. Los campos de entrada con la misma clave de coincidencia y los valores del mismo campo de entrada se compararán entre sí. 

Por ejemplo, es posible que tengas varios campos de entrada de números de teléfono, como `mobile_phone` y `home_phone` que tengan la misma clave de coincidencia: «Teléfono». Utilice la one-to-one coincidencia para comparar los datos del campo de `mobile_phone` entrada con los datos del campo de `mobile_phone` entrada y para comparar los datos del campo `home_phone` de entrada con los datos del campo `home_phone` de entrada. Los datos del campo `mobile_phone` de entrada no se compararán con los datos del campo `home_phone` de entrada. 

Las reglas de coincidencia evalúan los datos de varios campos de entrada con la misma clave de coincidencia con una operación (o), y la one-to-many coincidencia compara los valores de un solo campo de entrada. Esto significa que si dos registros `home_phone` coinciden `mobile_phone` o coinciden entre ellos, la clave de coincidencia «Teléfono» devolverá una coincidencia. Para encontrar una coincidencia, escriba «Teléfono» `Record One mobile_phone = Record Two mobile_phone` o`Record One home_phone = Record Two home_phone`. 

Las reglas de coincidencia evalúan los datos de los campos de entrada con diferentes claves de coincidencia mediante una operación (y). Si quieres que las coincidencias basadas en reglas consideren distintos tipos de información de números de teléfono por separado, puedes crear claves de coincidencia más específicas, como «mobile\$1phone» y «home\$1phone». Si quieres usar ambas claves de coincidencia en una regla para buscar coincidencias, AND. `Record One mobile_phone = Record Two mobile_phone` `Record One home_phone = Record Two home_phone`

## Output
<a name="output-defn"></a>

Una lista de **OutputAttribute**objetos, cada uno de los cuales tiene los campos **Nombre** y **Hashed.** Cada uno de estos objetos representa una columna que se incluirá en la tabla de AWS Glue resultados y si desea que los valores de la columna estén codificados con un hash.

## Ruta 3 de salida
<a name="output-s3-path"></a>

El destino S3 en el que se AWS Entity Resolution escribirá la tabla de resultados.

## OutputSourceConfig
<a name="output-source-config"></a>

**Una lista de OutputSource objetos, cada uno de los cuales tiene los campos **Outputs3Path** y Output. **ApplyNormalization****

## Coincidencia basada en los servicios del proveedor
<a name="provider-service-matching"></a>

La correspondencia basada en los servicios de los proveedores es un proceso diseñado para hacer coincidir, vincular y mejorar sus registros con los proveedores de servicios de datos preferidos y los conjuntos de datos con licencia. Debe estar suscrito al servicio del proveedor para utilizar esta técnica de comparación. AWS Data Exchange 

AWS Entity Resolution actualmente se integra con los siguientes proveedores de servicios de datos: 
+ LiveRamp
+ TransUnion
+ UID 2.0

## Emparejamiento basado en reglas
<a name="rule-based-matching-defn"></a>

La coincidencia basada en reglas es un proceso diseñado para encontrar coincidencias exactas. La coincidencia basada en reglas es un conjunto jerárquico de reglas de coincidencia en cascada, sugeridas por AWS Entity Resolution, basadas en los datos que usted introduce y que usted puede configurar completamente. Todas las claves de coincidencia incluidas en los criterios de la regla deben coincidir exactamente para que los datos comparados se declaren coincidentes y para que se generen los metadatos asociados. La coincidencia basada en reglas devuelve un [identificador de coincidencia](#match-id-defin) y un número de regla para cada conjunto de datos coincidente.

Recomendamos definir reglas que puedan identificar de forma única a una entidad. Ordene primero sus reglas para encontrar coincidencias más precisas. 

Por ejemplo, supongamos que tienes dos reglas, la **Regla 1** y la **Regla 2**.

Estas reglas tienen las siguientes claves de coincidencia:
+ **La regla 1** incluye el nombre completo y la dirección
+ La **regla 2** incluye el nombre completo, la dirección y el teléfono

Como la **regla 1** se ejecuta primero, la **regla 2** no encontrará coincidencias porque la **regla 1** las habría encontrado todas.

Para buscar coincidencias diferenciadas por teléfono, reordena las reglas de la siguiente manera:
+ **La regla 2** incluye el nombre completo, la dirección y el teléfono
+ **La regla 1** incluye el nombre completo y la dirección

## Esquema
<a name="schema-definition"></a>

Término utilizado para una estructura o diseño que define cómo se organiza y conecta un conjunto de datos.

## Descripción del esquema
<a name="schema-description-defn"></a>

Una descripción opcional del esquema que puede elegir introducir. Las descripciones le ayudan a diferenciar entre las asignaciones de esquemas si crea más de una.

## Nombre del esquema
<a name="schema-name-defn"></a>

El nombre del esquema. 

**nota**  
Los nombres de los esquemas deben ser únicos. No pueden tener el mismo nombre o se devolverá un error.

## Asignación de esquemas
<a name="schema-mapping-definition"></a>

El mapeo de esquemas AWS Entity Resolution es el proceso mediante el cual se indica AWS Entity Resolution cómo interpretar los datos para que coincidan. Usted define el esquema de la tabla de datos de entrada que AWS Entity Resolution desea leer en un flujo de trabajo coincidente.

## ARN de mapeo de esquemas
<a name="schema-arn-defn"></a>

El nombre de recurso de Amazon (ARN) generado para el mapeo del [esquema](#schema-mapping-definition).

## ID único
<a name="unique-id-defn"></a>

Un identificador único que usted designa y que debe asignarse a cada fila de datos de entrada que se AWS Entity Resolution lea.

**Example**  
Por ejemplo: **Primary\$1key**, **Row\$1ID** o **Record\$1ID**.

La columna **de ID único** es obligatoria.

 El **identificador único** debe ser un identificador único dentro de una sola tabla. 

El **identificador único** debe cumplir este patrón: `[a-zA-Z0-9_-]`

En diferentes tablas, el **identificador único** puede tener valores duplicados. 

La longitud máxima del **identificador único** es 38 para un [flujo de trabajo coincidente](#matching-workflow-definition)

La longitud máxima del **identificador único** es de 257 caracteres para un [Flujo de trabajo de asignación de ID](#id-mapping-workflow-defn)

Cuando se ejecute el [flujo de trabajo coincidente](#matching-workflow-definition), el registro se rechazará si el **identificador único**:
+ no está especificado
+ no es único en la misma tabla
+ se superpone en términos de nombre de atributo en todas las fuentes
+ supera los 38 caracteres (solo flujos de trabajo de coincidencia basados en reglas)