Choix de votre approche de traitement multimodale - Amazon Bedrock

Les traductions sont fournies par des outils de traduction automatique. En cas de conflit entre le contenu d'une traduction et celui de la version originale en anglais, la version anglaise prévaudra.

Choix de votre approche de traitement multimodale

Les bases de connaissances Amazon Bedrock proposent deux approches pour le traitement du contenu multimodal : Nova Multimodal Embeddings pour les recherches de similarité visuelle, et Bedrock Data Automation (BDA) pour le traitement textuel du contenu multimédia. Vous pouvez également utiliser des modèles de base comme analyseur si votre modalité d'entrée est l'image mais pas pour l'audio ou la vidéo.

Cette section décrit l'utilisation de Nova Multimodal Embeddings et de BDA comme approche de traitement du contenu multimodal. Chaque approche est optimisée pour différents cas d'utilisation et modèles de requêtes.

Approche de traitement multimodale

Le tableau suivant présente une comparaison entre Nova Multimodal Embeddings et BDA pour le traitement du contenu multimodal.

Comparaison des approches de traitement
Caractéristiques Intégrations multimodales Nova Automatisation des données Bedrock (BDA)
Méthode de traitement Génère des intégrations sans conversion de texte intermédiaire Convertit le contenu multimédia en texte, puis crée des intégrations
Types de requêtes pris en charge Requêtes de texte ou requêtes d'images Requêtes textuelles uniquement
Principaux cas d'utilisation Recherche de similarité visuelle, correspondance de produits, découverte d'images Transcription vocale, recherche textuelle, analyse de contenu
Fonctionnalité RAG Limité au contenu textuel uniquement RetrieveAndGenerateSupport complet
Besoins de stockage Destination de stockage multimodale requise Destination de stockage multimodale facultative, mais si elle n'est pas spécifiée, seules les données texte seront traitées par BDA. Pour la saisie autre que du texte, vous devez spécifier une destination de stockage multimodale.

Disponibilité par région

Disponibilité par région
Intégrations multimodales Nova Automatisation des données Bedrock (BDA)
Est des États-Unis (Virginie du Nord) uniquement
  • USA Ouest (Oregon)

  • USA Est (Virginie du Nord)

  • Europe (Francfort)

  • Europe (Londres)

  • Europe (Irlande)

  • Asie-Pacifique (Mumbai)

  • Asie-Pacifique (Sydney)

  • AWSGovCloud (US-Ouest)

Critères de sélection par type de contenu

Utilisez cette matrice de décision pour choisir l'approche de traitement appropriée en fonction de votre contenu et des exigences du cas d'utilisation :

Note

Si vous utilisez l'analyseur BDA avec le modèle d'intégration multimodal Amazon Nova, le modèle d'intégration agira comme un modèle d'intégration de texte. Lorsque vous travaillez avec du contenu multimodal, utilisez l'une des approches de traitement pour obtenir les meilleurs résultats en fonction de votre cas d'utilisation.

Recommandations relatives à l'approche de traitement par type de contenu
Type de contenu Intégrations multimodales Nova Automatisation des données Bedrock (BDA)
Catalogues de produits et images Recommandé : permet la mise en correspondance visuelle des similitudes et les requêtes basées sur des images Limité - Extrait uniquement le texte par OCR
Enregistrements de réunions et appels Impossible de traiter le contenu vocal de manière significative Recommandé : fournit une transcription complète du discours et du texte consultable
Vidéos pédagogiques et de formation Partiel : gère le contenu visuel mais ne tient pas compte de la parole Recommandé - Capture à la fois les transcriptions vocales et les descriptions visuelles
Enregistrements de support client Non recommandé - Le contenu vocal ne peut pas être traité efficacement Recommandé : crée des transcriptions de conversation complètes consultables
Schémas et graphiques techniques Recommandé : excellent pour la similitude visuelle et la correspondance des motifs Limité : extrait les étiquettes de texte mais omet les relations visuelles

Types de fichiers et sources de données pris en charge

Les types de fichiers pris en charge dépendent de l'approche de traitement que vous avez choisie :

Types de fichiers pris en charge par approche de traitement
Type de fichier Intégrations multimodales Nova Automatisation des données Bedrock (BDA)
Images .png, .jpg, .jpeg, .gif, .webp .png, .jpg, .jpeg
Audio .mp3, .ogg, .wav .amr, .flac, .m4a, .mp3, .ogg, .wav
Vidéo .mp4, .mov, .mkv, .webm, .flv, .mpeg, .mpg, .wmv, .3gp .mp4, .mov
Documents Traité sous forme de texte .pdf (plus extraction de texte à partir d'images)
Sources de données prises en charge

Le contenu multimodal est pris en charge par les sources de données suivantes :

  • Amazon S3 : prise en charge complète de tous les types de fichiers multimodaux

  • Sources de données personnalisées : Support pour le contenu en ligne jusqu'à 10 Mo codé en base64

Important

La récupération multimodale n'est actuellement disponible que pour les sources de données Amazon S3. Les autres sources de données (Confluence, Salesforce SharePoint, Web Crawler) ne traitent pas les fichiers multimodaux lors de l'ingestion. Ces fichiers sont ignorés et ne seront pas disponibles pour les requêtes multimodales.

Capacités et limites

Intégrations multimodales Nova

Fonctionnalités clés :

  • Le traitement multimodal natif préserve le format du contenu d'origine pour une correspondance visuelle optimale des similitudes

  • Les requêtes basées sur des images permettent aux utilisateurs de télécharger des images et de trouver du contenu visuellement similaire

  • Excellentes performances pour les catalogues de produits, la recherche visuelle et les applications de découverte de contenu

Limites :

  • Impossible de traiter efficacement le contenu vocal ou audio - les informations vocales ne sont pas consultables

  • RetrieveAndGenerateet la fonctionnalité de référencement est limitée au contenu textuel uniquement

  • Nécessite la configuration d'une destination de stockage multimodale dédiée

Automatisation des données Bedrock (BDA)

Fonctionnalités clés :

  • Transcription vocale complète à l'aide de la technologie de reconnaissance vocale automatique (ASR)

  • L'analyse du contenu visuel génère un texte descriptif pour les images et les scènes vidéo

  • Le RetrieveAndGenerate support complet permet d'utiliser toutes les fonctionnalités RAG pour tous les contenus

  • La recherche basée sur le texte fonctionne de manière cohérente pour tous les types de contenu multimédia

Limites :

  • Aucune prise en charge des requêtes basées sur des images lorsqu'elles sont utilisées sans Nova Multimodal Embeddings - toutes les recherches doivent utiliser la saisie de texte

  • Impossible d'effectuer des image-to-image recherches ou des correspondances visuelles par similarité

  • Temps de traitement d'ingestion plus long en raison des exigences de conversion du contenu

  • Supporte moins de formats de fichiers multimédia par rapport à Nova Multimodal Embeddings

Traitement du contenu vocal

Nova Multimodal Embeddings ne peut pas traiter efficacement le contenu vocal des fichiers audio ou vidéo. Si votre contenu multimédia contient des informations vocales importantes que les utilisateurs doivent rechercher, optez pour l'approche BDA pour garantir une transcription complète et une facilité de recherche.