Incluya metadatos en una fuente de datos para mejorar la consulta de la base de conocimientos - Amazon Bedrock

Las traducciones son generadas a través de traducción automática. En caso de conflicto entre la traducción y la version original de inglés, prevalecerá la version en inglés.

Incluya metadatos en una fuente de datos para mejorar la consulta de la base de conocimientos

Al ingerir archivos CSV (valores separados por comas), puede hacer que la base de conocimientos trate determinadas columnas como campos de contenido y no como campos de metadatos. En lugar de tener cientos o miles de pares de content/metadata archivos, ahora puedes tener un único archivo CSV y el correspondiente archivo.json de metadatos, lo que proporciona a la base de conocimientos consejos sobre cómo tratar cada columna del CSV.

Hay límites para los metadatos fields/attributes de los documentos por fragmento. Consulte Cuotas de las bases de conocimientos.

Antes de la ingesta de un archivo CSV, asegúrese de que:

  • El CSV está en formato RFC418 0 y está codificado en UTF-8.

  • La primera fila del CSV incluya la información del encabezado.

  • Los campos de metadatos proporcionados en el metadata.json estén presentes como columnas en el archivo CSV.

  • Debe proporcionar un archivo fileName.csv.metadata.json con el siguiente formato:

    { "metadataAttributes": { "${attribute1}": "${value1}", "${attribute2}": "${value2}", ... }, "documentStructureConfiguration": { "type": "RECORD_BASED_STRUCTURE_METADATA", "recordBasedStructureMetadata": { "contentFields": [ { "fieldName": "string" } ], "metadataFieldsSpecification": { "fieldsToInclude": [ { "fieldName": "string" } ], "fieldsToExclude": [ { "fieldName": "string" } ] } } } }

El archivo CSV se analiza fila por fila y la estrategia de fragmentación y la incrustación vectorial se aplican al campo de contenido. Actualmente, las bases de conocimientos de Amazon Bedrock admiten un campo de contenido. El campo de contenido se divide en fragmentos y los campos de metadatos (columnas) que están asociados a cada fragmento se tratan como valores de cadena.

Por ejemplo, supongamos que hay un CSV con una columna “Descripción” y una columna “Fecha de creación”. El campo de descripción es el campo de contenido y la fecha de creación es un campo de metadatos asociado. El texto de la descripción se divide en fragmentos y se convierte en incrustaciones vectoriales para cada fila del archivo CSV. El valor de la fecha de creación se trata como una representación en cadena de la fecha y se asocia a cada fragmento de la descripción.

Si no se proporciona ningún inclusion/exclusion campo, todas las columnas se tratan como columnas de metadatos, excepto la columna de contenido. Si solo se proporcionan campos de inclusión, solo las columnas proporcionadas se tratan como metadatos. Si solo se proporcionan campos de exclusión, todas las columnas se tratan como metadatos, excepto las columnas de exclusión. Si proporciona el mismo fieldName en fieldsToInclude y fieldsToExclude, Amazon Bedrock generará una excepción de validación. Si hay un conflicto entre inclusión y exclusión, se producirá un error.

Las filas en blanco que se encuentran dentro de un CSV se ignoran o se omiten.