Intégration de métadonnées dans une source de données pour améliorer les requêtes de la base de connaissances - Amazon Bedrock

Les traductions sont fournies par des outils de traduction automatique. En cas de conflit entre le contenu d'une traduction et celui de la version originale en anglais, la version anglaise prévaudra.

Intégration de métadonnées dans une source de données pour améliorer les requêtes de la base de connaissances

Lors de l’ingestion de fichiers CSV (valeurs séparées par des virgules), vous pouvez faire en sorte que la base de connaissances traite certaines colonnes comme des champs de contenu plutôt que comme des champs de métadonnées. Au lieu d’avoir potentiellement des centaines ou des milliers de paires de fichiers contenu/métadonnées, vous pouvez désormais disposer d’un seul fichier CSV et d’un fichier metadata.json correspondant, ce qui donne à la base de connaissances des indications sur la manière de traiter chaque colonne de votre fichier CSV.

Il existe des limites par fragment pour les champs/attributs de métadonnées des documents. Consultez Quotas pour les bases de connaissances.

Avant l’ingestion un fichier CSV, vérifiez les points suivants :

  • Votre fichier CSV est au format RFC4180 et est codé en UTF-8.

  • La première ligne de votre fichier CSV inclut les informations d’en-tête.

  • Les champs de métadonnées fournis dans votre fichier metadata.json sont présents sous forme de colonnes dans votre fichier CSV.

  • Vous fournissez un fichier fileName.csv.metadata.json au format suivant :

    { "metadataAttributes": { "${attribute1}": "${value1}", "${attribute2}": "${value2}", ... }, "documentStructureConfiguration": { "type": "RECORD_BASED_STRUCTURE_METADATA", "recordBasedStructureMetadata": { "contentFields": [ { "fieldName": "string" } ], "metadataFieldsSpecification": { "fieldsToInclude": [ { "fieldName": "string" } ], "fieldsToExclude": [ { "fieldName": "string" } ] } } } }

Le fichier CSV est analysé ligne par ligne et la stratégie de découpage ainsi que la vectorisation sont appliquées au champ de contenu. Amazon Bedrock Knowledge Bases prend actuellement en charge un champ de contenu. Celui-ci est divisé en fragments, et les champs de métadonnées (colonnes) associés à chaque fragments sont traités comme des valeurs de chaîne.

Par exemple, supposons qu’il existe un fichier CSV avec une colonne « Description » et une colonne « Date_de_création ». Le champ de description est le champ de contenu et la date de création est un champ de métadonnées associé. Le texte de description est divisé en fragments et converti en vectorisations pour chaque ligne du fichier CSV. La valeur de la date de création est traitée comme une représentation de la date sous forme de chaîne et est associée à chaque fragment de la description.

Si aucun champ d’inclusion/exclusion n’est fourni, toutes les colonnes sont traitées comme des colonnes de métadonnées, à l’exception de la colonne de contenu. Si seuls les champs d’inclusion sont fournis, seules les colonnes fournies sont traitées comme des métadonnées. Si seuls les champs d’exclusion sont fournis, toutes les colonnes, à l’exception des colonnes d’exclusion, sont traitées comme des métadonnées. Si vous fournissez le même fieldName dans fieldsToInclude et fieldsToExclude, Amazon Bedrock génère une exception de validation. S’il existe un conflit entre inclusion et exclusion, cela se traduira par un échec.

Les lignes vides présentes dans un fichier CSV sont ignorées ou sautées.