Transformation des données en base de connaissances - Amazon Bedrock

Les traductions sont fournies par des outils de traduction automatique. En cas de conflit entre le contenu d'une traduction et celui de la version originale en anglais, la version anglaise prévaudra.

Transformation des données en base de connaissances

Pour créer une base de connaissances, connectez-vous à une source de données prise en charge à laquelle vous souhaitez que votre base de connaissances puisse accéder. Votre base de connaissances sera en mesure de répondre aux requêtes utilisateur ou de générer des réponses en fonction des données extraites.

Les bases de connaissances Amazon Bedrock prennent en charge divers documents, notamment du texte, des images ou des documents multimodaux contenant des tableaux, des graphiques, des diagrammes et d’autres images. Les données multimodales font référence à une combinaison de données textuelles et visuelles. Des exemples de types de fichiers contenant des données non structurées sont le texte, le markdown, le HTML et. PDFs

Les sections suivantes décrivent les types de données pris en charge par les bases de connaissances Amazon Bedrock et les services auxquels vous pouvez connecter votre base de connaissances pour chaque type de données :

Données non structurées

Les données non structurées font référence aux données qui ne sont pas intégrées de force dans une structure prédéfinie. Les bases de connaissances Amazon Bedrock permettent de se connecter aux services suivants pour ajouter des données non structurées à votre base de connaissances :

  • Amazon S3

  • Confluence (version préliminaire)

  • Microsoft SharePoint (version préliminaire)

  • Salesforce (version préliminaire)

  • Web Crawler (version préliminaire)

  • Source de données personnalisée (permet l’ingestion directe des données dans les bases de connaissances sans qu’il soit nécessaire de les synchroniser)

Une source de données contient la forme brute de vos documents. Pour optimiser le processus de requête, une base de connaissances convertit vos données brutes en vectorisations, une représentation numérique des données, afin de quantifier la similitude avec les requêtes qui sont également converties en vectorisations. Les bases de connaissances Amazon Bedrock utilisent les ressources suivantes pour convertir votre source de données :

  • Modèle de vectorisation : modèle de fondation qui convertit vos données en vectorisations. Pour les données multimodales contenant à la fois du texte et des images, vous pouvez utiliser des modèles d'intégration multimodaux tels qu'Amazon Titan Multimodal Embeddings G1 ou Cohere Embed v3.

  • Magasin de vecteurs : service qui stocke la représentation vectorielle de vos données. Les magasins de vecteurs suivants sont pris en charge :

    • Amazon OpenSearch sans serveur

    • Amazon Neptune

    • Amazon Aurora (RDS)

    • Pinecone

    • Redis Enterprise Cloud

    • Atlas MongoDB

Le processus de conversion de vos données en vectorisations s’appelle l’ingestion. Le processus d’ingestion qui transforme vos données en base de connaissances comprend les étapes suivantes :

Ingestion
  1. Les données sont analysées par l’analyseur que vous avez choisi. Pour en savoir plus sur l’analyse, consultez Options d’analyse structurée pour votre source de données.

  2. Chaque document de votre source de données est divisé en fragments, des subdivisions des données qui peuvent être définies par le nombre de jetons et d’autres paramètres. Pour plus d’informations sur la fragmentation, consultez Fonctionnement du découpage du contenu pour les bases de connaissances.

  3. Le modèle de vectorisation que vous avez choisi convertit les données en vectorisations. Pour le contenu multimodal, les images sont intégrées sous forme de vecteurs visuels tandis que le texte est intégré sous forme de vecteurs de texte, ce qui permet d'effectuer une recherche dans les deux modalités.

  4. Les vectorisations sont écrites dans un index vectoriel dans le magasin de vecteurs de votre choix.

Une fois le processus d’ingestion terminé, votre base de connaissances est prête à être consultée. Pour plus d’informations sur la manière d’interroger et d’extraire des informations dans votre base de connaissances, consultez Extraction d’informations à partir de sources de données à l’aide des bases de connaissances Amazon Bedrock.

Si vous modifiez une source de données, vous devez synchroniser les modifications afin d’intégrer les ajouts, les modifications et les suppressions dans la base de connaissances. Certaines sources de données prennent en charge l’ingestion ou la suppression directes de fichiers dans la base de connaissances, ce qui évite de traiter la modification et l’ingestion des sources de données comme des étapes distinctes et de toujours effectuer des synchronisations complètes. Pour savoir comment intégrer des documents directement dans votre base de connaissances et dans les sources de données qui la prennent en charge, consultez Ingestion des modifications directement dans une base de connaissances.

Les bases de connaissances Amazon Bedrock proposent différentes options pour personnaliser la manière dont vos données sont ingérées. Pour plus d’informations sur la personnalisation de ce processus, consultez Personnalisation d’une base de connaissances.

Données structurées

Les données structurées font référence aux données tabulaires dans un format prédéfini par le magasin de données dans lequel elles se trouvent. Les bases de connaissances Amazon Bedrock se connectent aux magasins de données structurés pris en charge via le moteur de requête Amazon Redshift. Les bases de connaissances Amazon Bedrock fournissent un mécanisme entièrement géré qui analyse les modèles de requête, l’historique des requêtes et les métadonnées de schéma afin de convertir les requêtes en langage naturel en requêtes SQL. Ces requêtes converties sont ensuite utilisées pour extraire des informations pertinentes à partir de sources de données prises en charge.

Les bases de connaissances Amazon Bedrock permettent de se connecter aux services suivants pour ajouter des magasins de données structurés à votre base de connaissances :

  • Amazon Redshift

  • AWS Glue Data Catalog(AWS Lake Formation)

Si vous connectez votre base de connaissances à un magasin de données structuré, vous n’avez pas besoin de convertir les données en vectorisations. Au lieu de cela, les bases de connaissances Amazon Bedrock peuvent directement interroger le magasin de données structurées. Au cours de la requête, les bases de connaissances Amazon Bedrock peuvent convertir les requêtes des utilisateurs en requêtes SQL afin d’extraire les données pertinentes pour la requête utilisateur et de générer des réponses plus précises. Vous pouvez également générer des requêtes SQL sans extraire de données et les utiliser dans d’autres flux de travail.

Par exemple, un référentiel de base de données contient le tableau suivant contenant des informations sur les clients et leurs achats :

ID du client Montant dépensé en 2020 Montant dépensé en 2021 Montant dépensé en 2022 Montant total dépensé à ce jour
1 200 300 500 1 000
2 150 100 120 370
3 300 300 300 900
4 720 180 100 900
5 500 400 100 1 000
6 900 800 1 000 2700
7 470 420 400 1290
8 250 280 250 780
9 620 830 740 2190
10 300 200 300 800

Si une requête utilisateur indique « donnez-moi un résumé des 5 clients les plus dépensiers », la base de connaissances peut effectuer les opérations suivantes :

  • Convertir la requête en requête SQL.

  • Renvoyer un extrait du tableau contenant les éléments suivants :

    • Colonnes du tableau pertinentes « Numéro du client » et « Montant total des achats effectués à ce jour »

    • Lignes du tableau contenant le montant total des achats pour les 10 clients les plus dépensiers

  • Générer une réponse indiquant quels clients sont les 5 clients les plus dépensiers et combien ils ont dépensé.

Voici d’autres exemples de requêtes pour lesquelles une base de connaissances peut générer un extrait de tableau :

  • « les 5 meilleurs clients en termes de dépenses en 2020 »

  • « le meilleur client en termes de montant d’achat en 2020 »

  • « les 5 meilleurs clients en termes de montant d’achat entre 2020 et 2022 »

  • « les 5 clients les plus dépensiers en 2020-2022 »

  • « les clients dont le montant total des achats est inférieur à 10 € »

  • « les 5 clients les moins dépensiers »

Plus une requête est précise ou détaillée, plus la base de connaissances peut affiner les informations exactes à renvoyer. Par exemple, au lieu de la requête « les 10 meilleurs clients en termes de dépenses en 2020 », une requête plus spécifique est « trouvez les 10 clients ayant dépensé le plus haut montant total à ce jour en 2020 ». La requête spécifique fait référence au nom de colonne « Montant total des achats à ce jour » dans le tableau de la base de données des dépenses des clients et indique également que les données doivent être triées selon le « montant le plus élevé ».