Le traduzioni sono generate tramite traduzione automatica. In caso di conflitto tra il contenuto di una traduzione e la versione originale in Inglese, quest'ultima prevarrà.
Inclusione dei metadati in un’origine dati per migliorare la query della knowledge base
Quando si importano file CSV (valori separati da virgola), è possibile configurare la knowledge base in modo che tratti determinate colonne come campi di contenuto anziché campi di metadati. Invece di avere potenzialmente centinaia o migliaia di coppie di file di contenuto/metadati, ora è possibile avere un singolo file CSV e un file metadata.json corrispondente, che fornisce alla knowledge base suggerimenti su come trattare ogni colonna all’interno del CSV.
Esistono limiti per i campi/attributi dei metadati del documento per ogni chunk. Consulta Quote per le knowledge base.
Prima di importare un file CSV, assicurati che:
-
Il file CSV sia in formato RFC4180 e sia codificato in UTF-8.
-
La prima riga del file CSV includa informazioni sull’intestazione.
-
I campi di metadati forniti in metadata.json siano presenti come colonne nel file CSV.
-
Un file fileName.csv.metadata.json venga fornito con il seguente formato:
{ "metadataAttributes": { "${attribute1}": "${value1}", "${attribute2}": "${value2}", ... }, "documentStructureConfiguration": { "type": "RECORD_BASED_STRUCTURE_METADATA", "recordBasedStructureMetadata": { "contentFields": [ { "fieldName": "string" } ], "metadataFieldsSpecification": { "fieldsToInclude": [ { "fieldName": "string" } ], "fieldsToExclude": [ { "fieldName": "string" } ] } } } }
Il file CSV venga analizzato una riga alla volta e la strategia di chunking e l’embedding vettoriale vengano applicati al campo di contenuto. Knowledge Base per Amazon Bedrock attualmente supporta un campo di contenuto. Il campo di contenuto è suddiviso in chunk e i campi di metadati (colonne) associati a ciascun chunk vengono trattati come valori di stringa.
Ad esempio, si consideri un file CSV con una colonna “Description” e una colonna “Creation_Date”. Il campo descrizione è il campo del contenuto e la data di creazione è un campo di metadati associato. Il testo delle descrizione viene suddiviso in chunk e convertito in embedding vettoriali per ogni riga del file CSV. Il valore della data di creazione è trattato come una rappresentazione stringa della data ed è associato a ciascun chunk della descrizione.
Se non vengono forniti campi di inclusione/esclusione, tutte le colonne vengono trattate come colonne di metadati, tranne la colonna del contenuto. Se vengono forniti solo campi di inclusione, solo le colonne fornite vengono trattate come metadati. Se vengono forniti solo campi di esclusione, tutte le colonne, tranne quelle di esclusione, vengono trattate come metadati. Se fornisci lo stesso fieldName in entrambi fieldsToInclude e fieldsToExclude, Amazon Bedrock genera un’eccezione di convalida. Se è presente un conflitto tra inclusione ed esclusione, si verificherà un errore.
Le righe vuote trovate all’interno di un CSV vengono ignorate o saltate.