Création d'une base de connaissances pour le contenu multimodal - Amazon Bedrock

Les traductions sont fournies par des outils de traduction automatique. En cas de conflit entre le contenu d'une traduction et celui de la version originale en anglais, la version anglaise prévaudra.

Création d'une base de connaissances pour le contenu multimodal

Les bases de connaissances Amazon Bedrock prennent en charge le contenu multimodal, notamment les images, les fichiers audio et vidéo. Vous pouvez effectuer des recherches en utilisant des images comme requêtes, récupérer du contenu visuellement similaire et traiter des fichiers multimédia en même temps que des documents texte traditionnels. Cette fonctionnalité vous permet d'extraire des informations à partir de différents types de données : images autonomes, enregistrements audio et fichiers vidéo stockés au sein de votre entreprise.

Les bases de connaissances Amazon Bedrock vous permettent d'indexer et de récupérer des informations à partir de contenus textuels, visuels et audio. Organisations peuvent désormais effectuer des recherches dans les catalogues de produits à l'aide d'images, trouver des moments spécifiques dans les vidéos de formation et récupérer des segments pertinents à partir des enregistrements d'appels du service client.

Disponibilité par région

Les approches de traitement multimodales ont une disponibilité régionale différente. Pour plus d’informations, consultez Disponibilité par région.

Fonctionnalités et capacités

Les bases de connaissances multimodales fournissent les fonctionnalités clés suivantes :

Requêtes basées sur des images

Soumettez des images sous forme de requêtes de recherche pour trouver du contenu visuellement similaire lorsque vous utilisez Nova Multimodal Embeddings. Prend en charge la mise en correspondance des produits, la recherche de similarité visuelle et la récupération d'images.

Récupération de contenu audio

Recherchez des fichiers audio à l'aide de requêtes textuelles. Récupérez des segments spécifiques à partir d'enregistrements avec des références d'horodatage. La transcription audio permet une recherche textuelle dans le contenu vocal, y compris les réunions, les appels et les podcasts.

Extraction de segments vidéo

Localisez des moments spécifiques dans des fichiers vidéo à l'aide de requêtes textuelles. Récupérez des segments vidéo avec des horodatages précis.

Recherche intermodale

Effectuez des recherches dans différents types de données, notamment des documents texte, des images, des fichiers audio et vidéo. Récupérez le contenu pertinent quel que soit le format d'origine.

Références de source avec horodatage

Les résultats de récupération incluent des références à des fichiers originaux avec des métadonnées temporelles pour l'audio et la vidéo. Permet une navigation précise vers les segments pertinents du contenu multimédia.

Options de traitement flexibles

Choisissez entre les intégrations multimodales natives pour la similitude visuelle ou la conversion de texte pour le contenu vocal. Configurez l'approche de traitement en fonction des caractéristiques du contenu et des exigences de l'application.

Comment ça marche

Les bases de connaissances multimodales traitent et extraient le contenu via un pipeline en plusieurs étapes qui gère les différents types de données de manière appropriée :

Ingestion et traitement
  1. Connexion à une source de données : connectez votre base de connaissances à des compartiments Amazon S3 ou à des sources de données personnalisées contenant des documents texte, des images, des fichiers audio et des fichiers vidéo.

  2. Détection du type de fichier : le système identifie chaque type de fichier par son extension et l'achemine vers le pipeline de traitement approprié.

  3. Traitement du contenu : en fonction de votre configuration, les fichiers sont traités selon l'une des deux approches suivantes :

    • Nova Multimodal Embeddings : préserve le format natif pour la mise en correspondance des similitudes visuelles et audio. Les images, le son et la vidéo sont intégrés directement sans conversion en texte.

    • Bedrock Data Automation (BDA) : convertit le multimédia en représentations textuelles. Le son est transcrit à l'aide de la reconnaissance vocale automatique (ASR), la vidéo est traitée pour extraire les résumés et les transcriptions des scènes, et les images sont soumises à l'OCR et à l'extraction du contenu visuel.

  4. Génération d'intégration : le contenu traité est converti en intégrations vectorielles à l'aide du modèle d'intégration sélectionné. Ces intégrations capturent le sens sémantique et permettent une récupération basée sur la similarité.

  5. Stockage vectoriel : les intégrations sont stockées dans votre base de données vectorielle configurée avec les métadonnées, notamment les références aux fichiers, les horodatages (pour l'audio et la vidéo) et les informations sur le type de contenu.

  6. Stockage multimodal (facultatif) : s'ils sont configurés, les fichiers multimédia d'origine sont copiés vers une destination de stockage multimodale dédiée pour une récupération fiable, garantissant ainsi la disponibilité même si les fichiers source sont modifiés ou supprimés.

Requête et extraction
  1. Traitement des requêtes : les requêtes des utilisateurs (texte ou image) sont converties en intégrations en utilisant le même modèle d'intégration que celui utilisé lors de l'ingestion.

  2. Recherche de similarité : l'intégration des requêtes est comparée aux intégrations stockées dans la base de données vectorielle afin d'identifier le contenu le plus pertinent.

  3. Récupération des résultats : le système renvoie le contenu correspondant avec des métadonnées, notamment :

    • URI source (emplacement du fichier d'origine)

    • Métadonnées d'horodatage (pour les segments audio et vidéo)

    • Informations sur le type de contenu et les modalités

  4. Génération de réponses (facultatif) : pour les RetrieveAndGenerate demandes, le contenu extrait est transmis à un modèle de base afin de générer des réponses textuelles contextuellement pertinentes. Ceci est pris en charge lors de l'utilisation du traitement BDA ou lorsque la base de connaissances contient du contenu textuel.

Important

Le système renvoie des références à des fichiers complets avec des métadonnées d'horodatage pour le contenu audio et vidéo. Votre application doit extraire et lire des segments spécifiques en fonction des horodatages de début et de fin fournis. Le AWS Management Console gère automatiquement.