Création d'une base de connaissances pour le contenu multimodal - Amazon Bedrock

Les traductions sont fournies par des outils de traduction automatique. En cas de conflit entre le contenu d'une traduction et celui de la version originale en anglais, la version anglaise prévaudra.

Création d'une base de connaissances pour le contenu multimodal

Vous pouvez créer des bases de connaissances multimodales à l'aide de la console ou de l'API. Choisissez votre approche en fonction de vos besoins en matière de traitement multimodal.

Important

Le support multimodal n'est disponible que lors de la création d'une base de connaissances avec des sources de données non structurées. Les sources de données structurées ne prennent pas en charge le traitement multimodal du contenu.

Console
Pour créer une base de connaissances multimodale à partir de la console
  1. Connectez-vous au AWS Management Console avec une identité IAM autorisée à utiliser la console Amazon Bedrock. Ouvrez ensuite la console Amazon Bedrock à l'adresse https://console.aws.amazon.com/bedrock.

  2. Dans le volet de navigation de gauche, sélectionnez Bases de connaissances.

  3. Dans la section Bases de connaissances, choisissez Créer, puis sélectionnez Base de connaissances avec magasin de vecteurs.

  4. (Facultatif) Sous Détails de la base de connaissances, modifiez le nom par défaut et fournissez une description de votre base de connaissances.

  5. Sous Autorisations IAM, choisissez un rôle IAM qui fournit à Amazon Bedrock les autorisations nécessaires pour accéder à d’autres Services AWS requis. Vous pouvez soit demander à Amazon Bedrock de créer le rôle de service pour vous, soit choisir d'utiliser votre propre rôle personnalisé. Pour les autorisations multimodales, voirAutorisations pour le contenu multimodal.

  6. Choisissez Amazon S3 comme source de données et cliquez sur Suivant pour configurer votre source de données.

    Note

    Vous pouvez ajouter jusqu'à 5 sources de données Amazon S3 lors de la création de la base de connaissances. Des sources de données supplémentaires peuvent être ajoutées après la création de la base de connaissances.

  7. Fournissez l'URI S3 du compartiment contenant votre contenu multimodal et configurez un préfixe d'inclusion si nécessaire. Le préfixe d'inclusion est un chemin de dossier qui peut être utilisé pour limiter le contenu ingéré.

  8. Sous Configurations de découpage et d'analyse, choisissez votre stratégie d'analyse :

    • Analyseur par défaut Bedrock : recommandé pour le traitement de contenu contenant uniquement du texte. Cet analyseur traite les formats de texte courants tout en ignorant les fichiers multimodaux. Prend en charge les documents texte, notamment les fichiers Word, Excel, HTML, Markdown, TXT et CSV.

    • Bedrock Data Automation (BDA) : convertit le contenu multimodal en représentations textuelles consultables. PDFsTraite des images, des fichiers audio et vidéo pour extraire du texte, générer des descriptions pour le contenu visuel et créer des transcriptions pour le contenu audio et vidéo.

    • Analyseur du modèle de base : fournit des fonctionnalités d'analyse avancées pour les structures de documents complexes. Processus PDFs, images, documents structurés, tableaux et contenu visuellement riche pour extraire du texte et générer des descriptions pour les éléments visuels.

  9. Choisissez Next et sélectionnez votre modèle d'intégration et votre approche de traitement multimodal.

    • Amazon Nova Multimodal Embeddings V1.0 : Choisissez Amazon Nova Embeddings V1.0 pour les recherches directes de similarité visuelle et audio. Configurez la durée des segments audio et vidéo (1 à 30 secondes, 5 secondes par défaut) pour contrôler la manière dont le contenu est segmenté.

      Note

      Les paramètres de segmentation audio et vidéo sont configurés au niveau du modèle d'intégration, et non au niveau de la source de données. Une exception de validation se produit si vous fournissez cette configuration pour les modèles d'intégration non multimodaux. Configurez la durée des segments audio et vidéo (par défaut : 5 secondes, plage : 1 à 30 secondes) pour contrôler la manière dont le contenu est segmenté. Les segments plus courts permettent une extraction précise du contenu, tandis que les segments plus longs préservent un contexte plus sémantique.

      Important

      Amazon Nova Embedding v1.0 offre une prise en charge limitée de la recherche de contenu vocal dans les audio/video données. Si vous devez prendre en charge la parole, utilisez Bedrock Data Automation comme analyseur syntaxique.

    • Incorporation de texte avec BDA : Choisissez un modèle d'intégration de texte (tel que Titan Text Embeddings v2) lorsque vous utilisez le traitement BDA. Les modèles d'intégration de texte limitent l'extraction au contenu uniquement textuel, mais vous pouvez activer la récupération multimodale en sélectionnant Amazon Bedrock Data Automation ou Foundation Model comme analyseurs.

      Note

      Si vous utilisez un analyseur BDA avec Nova Multimodal Embeddings, les bases de connaissances Amazon Bedrock utiliseront d'abord l'analyse BDA. Dans ce cas, le modèle d'intégration ne générera pas d'intégrations multimodales natives pour les images, le son et les vidéos, car BDA les convertit en représentations textuelles.

  10. Si vous utilisez Nova Multimodal Embeddings, configurez la destination de stockage multimodal en spécifiant un compartiment Amazon S3 dans lequel les fichiers traités seront stockés pour être récupérés. Les bases de connaissances stockeront les images analysées dans un seul compartiment Amazon S3 avec un dossier créé .bda pour un accès facile.

    Recommandation de politique de cycle de vie

    Lorsque vous utilisez Nova Multimodal Embeddings, Amazon Bedrock stocke les données transitoires dans votre destination de stockage multimodal et tente de les supprimer une fois le traitement terminé. Nous recommandons d'appliquer une politique de cycle de vie au chemin de données transitoire afin de garantir un nettoyage approprié. Pour obtenir des instructions complètes, consultez Gestion des données transitoires avec les politiques de cycle de vie d'Amazon S3.

  11. Dans la section Base de données vectorielle, choisissez votre méthode de stockage vectoriel et configurez les dimensions appropriées en fonction du modèle d'intégration sélectionné.

  12. Choisissez Suivant et passez en revue les détails de la configuration de votre base de connaissances, puis choisissez Créer une base de connaissances.

CLI
Pour créer une base de connaissances multimodale à l'aide du AWS CLI
  • Créez une base de connaissances avec Nova Multimodal Embeddings. Envoyez une CreateKnowledgeBasedemande :

    aws bedrock-agent create-knowledge-base \ --cli-input-json file://kb-nova-mme.json

    Contenu de kb-nova-mme.json (remplacez les valeurs d'espace réservé par votre configuration spécifique) :

    { "knowledgeBaseConfiguration": { "vectorKnowledgeBaseConfiguration": { "embeddingModelArn": "arn:aws:bedrock:us-east-1::foundation-model/amazon.nova-2-multimodal-embeddings-v1:0", "supplementalDataStorageConfiguration": { "storageLocations": [ { "type": "S3", "s3Location": { "uri": "s3://<multimodal-storage-bucket>/" } } ] } }, "type": "VECTOR" }, "storageConfiguration": { "opensearchServerlessConfiguration": { "collectionArn": "arn:aws:aoss:us-east-1:<account-id>:collection/<collection-id>", "vectorIndexName": "<index-name>", "fieldMapping": { "vectorField": "<vector-field>", "textField": "<text-field>", "metadataField": "<metadata-field>" } }, "type": "OPENSEARCH_SERVERLESS" }, "name": "<knowledge-base-name>", "description": "Multimodal knowledge base with Nova Multimodal Embeddings" }

    Remplacez les espaces réservés suivants :

    • <multimodal-storage-bucket>- Compartiment S3 pour le stockage de fichiers multimodaux

    • <account-id>- Votre identifiant de compte AWS

    • <collection-id>- ID de collecte OpenSearch sans serveur

    • <index-name>- Nom de l'index vectoriel dans votre OpenSearch collection (configuré avec les dimensions appropriées pour le modèle d'intégration que vous avez choisi)

    • <vector-field>- Nom du champ pour le stockage des intégrations

    • <text-field>- Nom du champ pour stocker le contenu du texte

    • <metadata-field>- Nom du champ pour le stockage des métadonnées