Crear un archivo de tesauro - Amazon Kendra

Las traducciones son generadas a través de traducción automática. En caso de conflicto entre la traducción y la version original de inglés, prevalecerá la version en inglés.

Crear un archivo de tesauro

Un archivo de tesauros de Amazon Kendra es un archivo codificado en UTF-8 que contiene una lista de sinónimos en el formato de lista de sinónimos de Solr. El archivo.zip debe tener menos de 5 MB.

Hay dos formas de especificar las asignaciones de sinónimos:

  • Los sinónimos bidireccionales se especifican como una lista de términos separados por comas. Si el usuario consulta alguno de los términos, se utilizarán todos los términos de la lista para buscar documentos, incluido el término original consultado.

  • Los sinónimos unidireccionales se especifican como términos separados por el símbolo “=>” entre ellos para asignar los términos a sus sinónimos. Si el usuario consulta un término a la izquierda del símbolo “=>”, se asigna a un término de la derecha para buscar documentos utilizando el sinónimo. No se mapea al revés, por lo que es unidireccional.

Los sinónimos en sí distinguen mayúsculas de minúsculas, pero los términos a los que se asignan no distinguen mayúsculas de minúsculas. Por ejemplo, ML => Machine Learning significa que si su usuario consulta “ML” o “ml” o utiliza algún otro caso, se mapeará a "Machine Learning". Si tuviera que trazar este mapa a la inversa, Machine Learning => ML, entonces “Machine Learning” o “machine learning” o algún otro caso se asignaría a “ML”.

Un sinónimo no busca una coincidencia exacta con caracteres especiales. Por ejemplo, si busca "dead-letter-queue", Amazon Kendra puede devolver documentos que coincidan con “dead letter queue” (sin guiones). Si los documentos contienen guiones, por ejemplo, “dead-letter-queue”, Amazon Kendra los procesa durante la búsqueda para eliminar los guiones. En el caso de los términos sinónimos genéricos en inglés que estén integrados en Amazon Kendra y que no deban incluirse en un archivo de diccionario, Amazon Kendra puede buscar tanto la versión del término con guion como en la versión sin guion del término. Por ejemplo, si busca “third-party” y “third party”, Amazon Kendra devuelve documentos que coinciden con alguna de las versiones de esos términos.

En el caso de los sinónimos que contienen palabras vacías o palabras de uso común, Amazon Kendra devuelve los documentos que coincidan con los términos, incluidas las palabras vacías. Por ejemplo, puede crear una regla de sinónimos para asignar “on boarding” y “onboarding”. No puede utilizar únicamente palabras vacías como sinónimos. Por ejemplo, si busca “on”, Amazon Kendra no podrá devolver todos los documentos que contengan “on”.

Algunas reglas de sinónimos se ignoran. Por ejemplo, a => b es una regla, pero a => a se ignora y no cuenta como regla.

El número de términos es el número de términos únicos en el archivo de sinónimos. El siguiente archivo de ejemplo incluye los términos AWS CodeStarML, Machine Learning, autoscaling group, ASG y más.

Hay una cantidad máxima de reglas de sinónimos por diccionario y una cantidad máxima de sinónimos por término. Para obtener más información, consulte Cuotas para Amazon Kendra.

En el siguiente ejemplo, se muestra un archivo de diccionario con reglas de sinónimos. Cada línea contiene una única regla de sinónimos. Se ignoran las líneas en blanco y los comentarios.

# Lines starting with pound are comments and blank lines are ignored. # Synonym relationships can be defined as unidirectional or bidirectional relationships. # Unidirection relationships are represented by any term sequence # on the left hand side (LHS) of "=>" followed by synonyms on the right hand side (RHS) CodeStar => AWS CodeStar # This will map CodeStar to AWS CodeStar, but not vice-versa # To map terms vice versa ML => Machine Learning Machine Learning => ML # Multiple synonym relationships may be defined in one line as well by comma seperation. autoscaling group, ASG => Auto Scaling group, autoscaling # The above is equivalent to: # autoscaling group => Auto Scaling group, autoscaling # ASG => Auto Scaling group, autoscaling # Bi-directional synonyms are comma separated terms with no "=>" DNS, Route53, Route 53 # DNS, Route53, and Route 53 map to one another and are interchangeable at match time # The above is equivalent to: # DNS => Route53, Route 53 # Route53 => DNS, Route 53 # Route 53 => DNS, Route53 # Overlapping LHS terms will be merged Beta => Alpha Beta => Gamma Beta, Delta # is equivalent to: # Beta => Alpha, Gamma, Delta # Delta => Beta # Each line contains a single synonym rule. # Synonym rule count is the total number of lines defining synonym relationships # Term count is the total number of unique terms for all rules. # Comments and blanks lines do not count.