Création d’une base de connaissances en se connectant à une source de données dans Amazon Bedrock Knowledge Bases

Lorsque vous créez une base de connaissances en vous connectant à une source de données, vous configurez ou spécifiez les éléments suivants :

Informations générales qui définissent et identifient la base de connaissances
Rôle de service avec autorisations d’accès à la base de connaissances
Configurations pour la base de connaissances, y compris le modèle de vectorisation à utiliser lors de la conversion des données à partir de la source de données, les configurations de stockage pour le service dans lequel les vectorisations doivent être stockées et, éventuellement, un emplacement S3 pour stocker les données multimodales

Note

Vous ne pouvez créer aucune base de connaissances avec un utilisateur racine. Connectez-vous avec un utilisateur IAM avant de commencer ces étapes.

Développez la section correspondant à votre cas d’utilisation :

Pour configurer une base de connaissances

Connectez-vous au AWS Management Console avec une identité IAM autorisée à utiliser la console Amazon Bedrock. Ouvrez ensuite la console Amazon Bedrock à l'adresse https://console.aws.amazon.com/bedrock.
Dans le volet de navigation de gauche, sélectionnez Bases de connaissances.
Dans la section Bases de connaissances, cliquez sur le bouton Créer et sélectionnez l’option permettant de créer une base de connaissances avec un magasin de vecteurs.
(Facultatif) Modifiez le nom par défaut et fournissez une description de votre base de connaissances.
Choisissez un rôle Gestion des identités et des accès AWS (IAM) qui autorise Amazon Bedrock à accéder aux autres services requis. AWS Vous pouvez soit laisser Amazon Bedrock créer le rôle de service, soit choisir d’utiliser votre rôle personnalisé que vous avez créé pour l’analytique Neptune.
Choisissez une source de données à laquelle connecter votre base de connaissances.
(Facultatif) Ajoutez des balises à votre base de connaissances. Pour de plus amples informations, veuillez consulter Balisage des ressources Amazon Bedrock.
(Facultatif) Configurez les services pour lesquels vous souhaitez fournir des journaux d’activité pour votre base de connaissances.
Passez à la section suivante et suivez les étapes décrites sous Connexion d’une source de données à votre base de connaissances pour configurer une source de données.
Dans la section Modèle de représentations vectorielles continues, procédez comme suit :
1. Choisissez un modèle de vectorisation pour convertir vos données en vectorisations. Pour les données multimodales (images, audio et vidéo), sélectionnez un modèle d'intégration multimodal tel qu'Amazon Titan Multimodal Embeddings G1 ou Cohere Embed v3.
  
  Note
  Lorsque vous utilisez Amazon Titan Multimodal Embeddings G1, vous devez fournir un compartiment de contenu S3 et vous ne pouvez utiliser que l'analyseur par défaut. Ce modèle est optimisé pour les cas d'utilisation de la recherche d'images. Pour des conseils complets sur le choix entre les approches multimodales, voirCréation d'une base de connaissances pour le contenu multimodal.
2. (Facultatif) Développez la section Configurations supplémentaires pour afficher les options de configuration suivantes (sachant que certains modèles ne prennent pas en charge certaines configurations) :
  - Type de vectorisations : indiquez si vous souhaitez convertir les données en vectorisations à virgule flottante (float32) (plus précises, mais plus coûteuses) ou en vectorisations binaires (moins précises, mais moins coûteuses). Pour savoir quels modèles de vectorisations prennent en charge les vecteurs binaires, consultez les modèles de vectorisations pris en charge.
  - Dimensions vectorielles : des valeurs plus élevées améliorent la précision, mais augmentent le coût et la latence.
Dans la section Base de données vectorielles, procédez comme suit :
1. Choisissez un magasin de vecteurs pour stocker les vectorisations utilisées à des fins d’interrogation. Vous avez les options suivantes :
  - Création rapide d’un magasin de vecteurs : choisissez l’un des magasins de vecteurs disponibles afin qu’Amazon Bedrock le crée. Vous pouvez également éventuellement configurer le chiffrement AWS KMS des clés pour votre magasin de vecteurs.
    
    Note
    Lorsque vous utilisez cette option, Amazon Bedrock gère automatiquement le placement des métadonnées pour chaque magasin de vecteurs.
    Amazon OpenSearch Serverless — Amazon Bedrock Knowledge Bases crée une collection et un index de recherche vectorielle Amazon OpenSearch Serverless et les configure avec les champs obligatoires pour vous.
    
    Amazon Aurora PostgreSQL sans serveur : Amazon Bedrock configure un magasin de vecteurs Amazon Aurora PostgreSQL sans serveur. Ce processus extrait les données texte non structurées d’un compartiment Amazon S3, les transforme en fragments de texte et en vecteurs, puis les stocke dans une base de données PostgreSQL. Pour plus d’informations, consultez Création rapide d’une base de connaissances Aurora PostgreSQL pour Amazon Bedrock.
    
    Analytique Amazon Neptune : Amazon Bedrock améliore les applications d’IA générative à l’aide de techniques de génération à enrichissement contextuel (RAG) associées à des graphiques, afin que les utilisateurs finaux puissent obtenir des réponses plus précises et plus complètes.
    
    Amazon S3 Vectors : Amazon Bedrock Knowledge Bases crée un compartiment vectoriel S3 et un index vectoriel qui stockeront les vectorisations générées à partir de vos sources de données.
    
    Vous pouvez créer une base de connaissances pour les vecteurs Amazon S3 dans tous les Région AWS sites où Amazon Bedrock et Amazon S3 Vectors sont disponibles. Pour plus d’informations sur la disponibilité régionale, consultez Amazon S3 Vectors dans le Guide de l’utilisateur Amazon S3.
    
    Note
    Lorsque vous utilisez des vecteurs Amazon S3 avec les bases de connaissances Amazon Bedrock, vous pouvez joindre jusqu'à 1 Ko de métadonnées personnalisées (y compris des métadonnées filtrables et non filtrables) et 35 clés de métadonnées par vecteur. Pour obtenir des informations détaillées sur les limites relatives aux métadonnées, voir Prise en charge des métadonnées dansConditions préalables à l’utilisation d’un magasin de vecteurs que vous avez créé pour une base de connaissances.
  - Choisir un magasin de vecteurs que vous avez créé : sélectionnez un magasin de vecteurs pris en charge et identifiez les noms des champs vectoriels et les noms des champs de métadonnées dans l’index vectoriel. Pour de plus amples informations, veuillez consulter Conditions préalables à l’utilisation d’un magasin de vecteurs que vous avez créé pour une base de connaissances.
    
    Note
    Si votre source de données est une instance Confluence, Microsoft ou Salesforce SharePoint, le seul service de boutique vectorielle pris en charge est Amazon OpenSearch Serverless.
2. (Facultatif) Développez la section Configurations supplémentaires et modifiez les configurations pertinentes.
Si votre source de données contient des images, spécifiez un URI Amazon S3 dans lequel stocker les images que l’analyseur va extraire des données sous Destination de stockage multimodal. Les images peuvent être renvoyées lors de l’interrogation. Vous pouvez également choisir une clé gérée par le client au lieu de la clé par défaut Clé gérée par AWS pour chiffrer vos données.

Note
Les données multimodales ne sont prises en charge qu’avec Amazon S3 et les sources de données personnalisées.
Note
Lorsque vous utilisez des modèles d'intégration multimodaux :
- Amazon Titan Multimodal Embeddings G1 nécessite un compartiment de contenu S3 et fonctionne mieux avec les ensembles de données contenant uniquement des images à l'aide de l'analyseur par défaut
- Cohere Embed v3 prend en charge les ensembles de données mixtes de texte et d'image et peut être utilisé avec n'importe quelle configuration d'analyseur
- Pour les cas d'utilisation de la recherche d'images, évitez d'utiliser Bedrock Data Automation (BDA) ou des analyseurs de modèles de base avec Titan G1 en raison des limites liées aux jetons
- La destination de stockage multimodale crée des copies de fichiers à des fins de récupération, ce qui peut entraîner des frais de stockage supplémentaires
Cliquez sur Suivant et passez en revue les détails de votre base de connaissances. Vous pouvez modifier toute section avant de créer votre base de connaissances.

Note
Le temps nécessaire pour créer la base de connaissances dépend de vos configurations spécifiques. Une fois la base de connaissances créée, son statut change pour indiquer qu’elle est prête ou disponible.
Une fois votre base de connaissances prête et disponible, synchronisez votre source de données pour la première fois et chaque fois que vous souhaitez tenir votre contenu à jour. Sélectionnez votre base de connaissances dans la console, puis cliquez sur Synchroniser dans la section de présentation des sources de données.

Pour créer une base de connaissances, envoyez une demande CreateKnowledgeBase avec un point de terminaison de compilation pour agents Amazon Bedrock.

Note

Si vous préférez laisser Amazon Bedrock créer et gérer un magasin de vecteurs pour vous, utilisez la console. Pour plus d’informations, développez la section Utilisation de la console de cette rubrique.

Les champs suivants sont obligatoires :

Champ	Description de base
name	Nom de la base de connaissances
roleArn	ARN d’un rôle de service Amazon Bedrock Knowledge Bases.
knowledgeBaseConfiguration	Contient des configurations pour la base de connaissances. Consultez les informations ci-dessous.
storageConfiguration	(Obligatoire seulement si vous vous connectez à une source de données non structurée.) Contient des configurations pour le service de source de données que vous choisissez.

Les champs suivants sont facultatifs :

Champ	Cas d’utilisation
description	Description de la base de connaissances.
clientToken	Pour garantir que la demande d’API n’est exécutée qu’une seule fois. Pour plus d’informations, consultez Garantie de l’idempotence.
tags	Pour associer des balises au flux. Pour de plus amples informations, veuillez consulter Balisage des ressources Amazon Bedrock.

Dans le knowledgeBaseConfiguration champ, qui correspond à un KnowledgeBaseConfigurationobjet, spécifiez-le VECTOR dans le type champ et incluez un VectorKnowledgeBaseConfigurationobjet. Dans l’objet, incluez les champs suivants :

embeddingModelArn : ARN du modèle de vectorisation à utiliser.
embeddingModelConfiguration : configurations pour le modèle de vectorisation. Pour afficher les valeurs possibles que vous pouvez spécifier pour chaque modèle pris en charge, consultez Modèles et régions pris en charge pour les bases de connaissances Amazon Bedrock.
(Si vous prévoyez d'inclure des données multimodales, notamment des images, des figures, des graphiques ou des tableaux, dans votre base de connaissances) supplementalDataStorageConfiguration : correspond à un SupplementalDataStorageLocationobjet, dans lequel vous spécifiez l'emplacement S3 dans lequel vous souhaitez stocker les données extraites. Pour de plus amples informations, veuillez consulter Options d’analyse structurée pour votre source de données.

Dans le storageConfiguration champ, qui correspond à un StorageConfigurationobjet, spécifiez le magasin de vecteurs auquel vous souhaitez vous connecter dans le type champ et incluez le champ correspondant à ce magasin de vecteurs. Consultez chaque type de configuration de magasin vectoriel sur StorageConfigurationpour plus de détails sur les informations que vous devez fournir.

Voici un exemple de demande pour créer une base de connaissances connectée à une collection Amazon OpenSearch Serverless. Les données provenant de sources de données connectées seront converties en intégrations vectorielles binaires avec Amazon Titan Text Embeddings V2 et les données multimodales extraites par l'analyseur seront configurées pour être stockées dans un bucket appelé. MyBucket


PUT /knowledgebases/ HTTP/1.1
Content-type: application/json

{
   "name": "MyKB",
   "description": "My knowledge base",
   "roleArn": "arn:aws:iam::111122223333:role/service-role/AmazonBedrockExecutionRoleForKnowledgeBase_123",
   "knowledgeBaseConfiguration": {
      "type": "VECTOR",
      "vectorKnowledgeBaseConfiguration": { 
         "embeddingModelArn": "arn:aws:bedrock:us-east-1::foundation-model/amazon.titan-embed-text-v2:0",
         "embeddingModelConfiguration": { 
            "bedrockEmbeddingModelConfiguration": { 
               "dimensions": 1024,
               "embeddingDataType": "BINARY"
            }
         },
         "supplementalDataStorageConfiguration": { 
            "storageLocations": [ 
               { 
                  "s3Location": { 
                     "uri": "arn:aws:s3:::MyBucket"
                  },
                  "type": "S3"
               }
            ]
         }
      }
   },
   "storageConfiguration": { 
      "opensearchServerlessConfiguration": { 
         "collectionArn": "arn:aws:aoss:us-east-1:111122223333:collection/abcdefghij1234567890",
         "fieldMapping": { 
            "metadataField": "metadata",
            "textField": "text",
            "vectorField": "vector"
         },
         "vectorIndexName": "MyVectorIndex"
      }
   }
}

Rubriques

Avertissement JavaScript est désactivé ou n'est pas disponible dans votre navigateur.

Pour que vous puissiez utiliser la documentation AWS, Javascript doit être activé. Vous trouverez des instructions sur les pages d'aide de votre navigateur.

Conventions de rédaction

Configuration des autorisations OpenSearch avec contrôle précis des accès

Connexion d’une sources de données