Les traductions sont fournies par des outils de traduction automatique. En cas de conflit entre le contenu d'une traduction et celui de la version originale en anglais, la version anglaise prévaudra.
Fonctionnement du découpage du contenu pour les bases de connaissances
Lorsque de l’ingestion de vos données, Amazon Bedrock divise d’abord vos documents ou votre contenu en fragments faciles à gérer pour une extraction efficace des données. Les segments sont ensuite convertis en vectorisations et écrits dans un index vectoriel (représentation vectorielle des données), tout en conservant un mappage avec le document d’origine. Les vectorisations permettent de comparer quantitativement les textes.
Rubriques
Découpage standard
Amazon Bedrock prend en charge les approches standard suivantes en matière de découpage :
Note
Les stratégies de découpage de texte s'appliquent uniquement aux documents texte. Pour le contenu multimodal (audio, vidéo, images), le découpage se fait au niveau du modèle d'intégration, et non par le biais de ces stratégies basées sur le texte.
-
Fragmentation à taille fixe : vous pouvez configurer la taille de bloc souhaitée en spécifiant le nombre de jetons par bloc et un pourcentage de chevauchement, ce qui vous permet de vous adapter à vos besoins spécifiques. Vous pouvez définir le nombre maximum de jetons qui ne doit pas dépasser pour un bloc et le pourcentage de chevauchement entre des blocs consécutifs.
Note
Pour le contenu analysé (tel que le contenu utilisant des analyseurs avancés ou converti à partir du code HTML), les bases de connaissances Amazon Bedrock peuvent découper le contenu afin de l'optimiser et d'obtenir les meilleurs résultats. Le découpeur respecte les limites logiques du document (telles que les pages ou les sections) et ne fusionne pas le contenu au-delà de ces limites, même si l'augmentation de la taille maximale des jetons permettrait d'obtenir des segments plus importants.
-
Découpage par défaut : divise le contenu en blocs de texte contenant jusqu’à 300 jetons. Le processus de découpage respecte les limites des phrases, garantissant ainsi que les phrases complètes sont préservées dans chaque bloc.
Vous pouvez également choisir de ne pas diviser vos documents. Chaque document est traité comme un seul bloc de texte. Vous souhaiterez peut-être prétraiter vos documents en les divisant en fichiers distincts avant de choisir de ne effectuer de découpage comme dans votre stratégie/approche de découpage. Si vous choisissez de ne pas segmenter vos documents, vous ne pouvez pas afficher le numéro de page dans la citation ni filtrer par le champ/attribut de document-page-number métadonnées x-amz-bedrock-kb-.
Découpage hiérarchique
Le découpage hiérarchique consiste à organiser les informations en structures imbriquées de segments enfant et parent. Lorsque vous créez une source de données, vous pouvez définir la taille du segment parent, la taille du segment enfant et le nombre de jetons qui se chevauchent entre chaque bloc. Lors de l’extraction, le système extrait initialement les fragments enfants, mais les remplace par des fragments parents plus larges afin de fournir au modèle un contexte plus complet.
Les petites vectorisations de texte incorporées sont plus précises, mais l’extraction, vise à fournir un contexte complet. Un système de découpage hiérarchique équilibre ces besoins en remplaçant les fragments enfants extraits par leurs fragments parents, le cas échéant.
Note
-
Étant donné que les fragments enfants sont remplacés par des fragments parents lors de l’extraction, le nombre de résultats renvoyés peut être inférieur au montant demandé.
-
Le découpage hiérarchique n'est pas recommandé lorsque vous utilisez le compartiment vectoriel S3 comme magasin de vecteurs. Lorsque vous utilisez un nombre élevé de jetons pour le découpage (plus de 8 000 jetons combinés), la taille des métadonnées peut être limitée.
Pour le découpage hiérarchique, les bases de connaissances Amazon Bedrock permettent de spécifier deux niveaux ou la profondeur suivante pour le découpage :
-
Parent : vous définissez la taille maximale du jeton de bloc parent.
-
Enfant : vous définissez la taille maximale du jeton de bloc enfant.
Vous définissez également les jetons de superposition entre les fragments. Il s’agit du nombre absolu de jetons de chevauchement entre des segments parents consécutifs et des blocs enfants consécutifs.
Découpage sémantique
Le découpage sémantique est une technique de traitement du langage naturel qui divise le texte en blocs significatifs afin d’améliorer la compréhension et l’extraction d’informations. Il vise à améliorer la précision de l’extraction en se concentrant sur le contenu sémantique plutôt que sur la structure syntaxique. Ce faisant, il peut faciliter une extraction et une manipulation plus précises des informations pertinentes.
Lorsque vous configurez le découpage sémantique, vous avez la possibilité de spécifier les hyperparamètres suivants.
-
Nombre maximum de jetons : nombre maximum de jetons qui doivent être inclus dans un seul bloc, tout en respectant les limites des phrases.
-
Taille de la mémoire tampon : pour une phrase donnée, la taille de la mémoire tampon définit le nombre de phrases environnantes à ajouter pour la création de vectorisations. Par exemple, une taille de tampon de 1 entraîne la combinaison et l’intégration de 3 phrases (phrase actuelle, précédente et suivante). Ce paramètre peut influencer la quantité de texte examinée ensemble pour déterminer les limites de chaque bloc, ce qui a un impact sur la granularité et la cohérence des blocs obtenus. Une taille de tampon plus grande peut capturer plus de contexte mais peut également introduire du bruit, tandis qu’une taille de tampon plus petite peut omettre un contexte important tout en garantissant un découpage plus précis.
-
Seuil de percentile d'arrêt : seuil percentile d'une phrase pour tracer des points de rupture entre distance/dissimilarity les phrases. Un seuil plus élevé nécessite que les phrases soient plus faciles à distinguer afin d’être divisées en différents morceaux. Un seuil plus élevé entraîne une diminution du nombre de blocs et une taille moyenne des blocs généralement plus importante.
Note
L’utilisation du découpage sémantique entraîne des coûts supplémentaires en raison de l’utilisation d’un modèle de fondation. Le coût dépend de la quantité de données dont vous disposez. Consultez Tarification d’Amazon Bedrock
pour en savoir plus sur le coût des modèles de fondation.
Découpage de contenu multimodal
Pour le contenu multimodal (audio, vidéo, images), le comportement de segmentation est différent de celui des documents texte :
-
Nouvelles intégrations multimodales : le découpage se produit au niveau du modèle d'intégration. Vous pouvez configurer la durée des segments audio et vidéo de 1 à 30 secondes (par défaut : 5 secondes). Pour les fichiers vidéo, seule la durée du segment vidéo s'applique, même si la vidéo contient du son. La durée du segment audio ne s'applique qu'aux fichiers audio autonomes.
-
Analyseur Bedrock Data Automation (BDA) : le contenu est d'abord converti en texte (transcriptions et résumés de scènes), puis des stratégies de découpage de texte standard sont appliquées au texte converti.
Note
Lorsque vous utilisez les intégrations multimodales Nova, les stratégies de découpage de texte configurées dans votre base de connaissances n'affectent que les documents texte de votre source de données, et non les fichiers audio, vidéo ou image.