Approche de traitement multimodale Disponibilité par région Critères de sélection par type de contenu Types de fichiers et sources de données pris en charge Capacités et limites

Choix de votre approche de traitement multimodale

Les bases de connaissances Amazon Bedrock proposent deux approches pour le traitement du contenu multimodal : Nova Multimodal Embeddings pour les recherches de similarité visuelle, et Bedrock Data Automation (BDA) pour le traitement textuel du contenu multimédia. Vous pouvez également utiliser des modèles de base comme analyseur si votre modalité d'entrée est l'image mais pas pour l'audio ou la vidéo.

Cette section décrit l'utilisation de Nova Multimodal Embeddings et de BDA comme approche de traitement du contenu multimodal. Chaque approche est optimisée pour différents cas d'utilisation et modèles de requêtes.

Rubriques

Approche de traitement multimodale
Disponibilité par région
Critères de sélection par type de contenu
Types de fichiers et sources de données pris en charge
Capacités et limites

Approche de traitement multimodale

Le tableau suivant présente une comparaison entre Nova Multimodal Embeddings et BDA pour le traitement du contenu multimodal.

Comparaison des approches de traitement
Caractéristiques	Intégrations multimodales Nova	Automatisation des données Bedrock (BDA)
Méthode de traitement	Génère des intégrations sans conversion de texte intermédiaire	Convertit le contenu multimédia en texte, puis crée des intégrations
Types de requêtes pris en charge	Requêtes de texte ou requêtes d'images	Requêtes textuelles uniquement
Principaux cas d'utilisation	Recherche de similarité visuelle, correspondance de produits, découverte d'images	Transcription vocale, recherche textuelle, analyse de contenu
Fonctionnalité RAG	Limité au contenu textuel uniquement	`RetrieveAndGenerate`Support complet
Besoins de stockage	Destination de stockage multimodale requise	Destination de stockage multimodale facultative, mais si elle n'est pas spécifiée, seules les données texte seront traitées par BDA. Pour la saisie autre que du texte, vous devez spécifier une destination de stockage multimodale.

Disponibilité par région

Disponibilité par région
Intégrations multimodales Nova	Automatisation des données Bedrock (BDA)
Est des États-Unis (Virginie du Nord) uniquement	USA Ouest (Oregon) USA Est (Virginie du Nord) Europe (Francfort) Europe (Londres) Europe (Irlande) Asie-Pacifique (Mumbai) Asie-Pacifique (Sydney) AWSGovCloud (US-Ouest)

Critères de sélection par type de contenu

Utilisez cette matrice de décision pour choisir l'approche de traitement appropriée en fonction de votre contenu et des exigences du cas d'utilisation :

Note

Si vous utilisez l'analyseur BDA avec le modèle d'intégration multimodal Amazon Nova, le modèle d'intégration agira comme un modèle d'intégration de texte. Lorsque vous travaillez avec du contenu multimodal, utilisez l'une des approches de traitement pour obtenir les meilleurs résultats en fonction de votre cas d'utilisation.

Recommandations relatives à l'approche de traitement par type de contenu
Type de contenu	Intégrations multimodales Nova	Automatisation des données Bedrock (BDA)
Catalogues de produits et images	Recommandé : permet la mise en correspondance visuelle des similitudes et les requêtes basées sur des images	Limité - Extrait uniquement le texte par OCR
Enregistrements de réunions et appels	Impossible de traiter le contenu vocal de manière significative	Recommandé : fournit une transcription complète du discours et du texte consultable
Vidéos pédagogiques et de formation	Partiel : gère le contenu visuel mais ne tient pas compte de la parole	Recommandé - Capture à la fois les transcriptions vocales et les descriptions visuelles
Enregistrements de support client	Non recommandé - Le contenu vocal ne peut pas être traité efficacement	Recommandé : crée des transcriptions de conversation complètes consultables
Schémas et graphiques techniques	Recommandé : excellent pour la similitude visuelle et la correspondance des motifs	Limité : extrait les étiquettes de texte mais omet les relations visuelles

Types de fichiers et sources de données pris en charge

Les types de fichiers pris en charge dépendent de l'approche de traitement que vous avez choisie :

Types de fichiers pris en charge par approche de traitement
Type de fichier	Intégrations multimodales Nova	Automatisation des données Bedrock (BDA)
Images	.png, .jpg, .jpeg, .gif, .webp	.png, .jpg, .jpeg
Audio	.mp3, .ogg, .wav	.amr, .flac, .m4a, .mp3, .ogg, .wav
Vidéo	.mp4, .mov, .mkv, .webm, .flv, .mpeg, .mpg, .wmv, .3gp	.mp4, .mov
Documents	Traité sous forme de texte	.pdf (plus extraction de texte à partir d'images)

Sources de données prises en charge

Le contenu multimodal est pris en charge par les sources de données suivantes :

Amazon S3 : prise en charge complète de tous les types de fichiers multimodaux
Sources de données personnalisées : Support pour le contenu en ligne jusqu'à 10 Mo codé en base64

Important

La récupération multimodale n'est actuellement disponible que pour les sources de données Amazon S3. Les autres sources de données (Confluence, Salesforce SharePoint, Web Crawler) ne traitent pas les fichiers multimodaux lors de l'ingestion. Ces fichiers sont ignorés et ne seront pas disponibles pour les requêtes multimodales.

Capacités et limites

Intégrations multimodales Nova

Fonctionnalités clés :

Le traitement multimodal natif préserve le format du contenu d'origine pour une correspondance visuelle optimale des similitudes
Les requêtes basées sur des images permettent aux utilisateurs de télécharger des images et de trouver du contenu visuellement similaire
Excellentes performances pour les catalogues de produits, la recherche visuelle et les applications de découverte de contenu

Limites :

Impossible de traiter efficacement le contenu vocal ou audio - les informations vocales ne sont pas consultables
RetrieveAndGenerateet la fonctionnalité de référencement est limitée au contenu textuel uniquement
Nécessite la configuration d'une destination de stockage multimodale dédiée

Automatisation des données Bedrock (BDA)

Fonctionnalités clés :

Transcription vocale complète à l'aide de la technologie de reconnaissance vocale automatique (ASR)
L'analyse du contenu visuel génère un texte descriptif pour les images et les scènes vidéo
Le RetrieveAndGenerate support complet permet d'utiliser toutes les fonctionnalités RAG pour tous les contenus
La recherche basée sur le texte fonctionne de manière cohérente pour tous les types de contenu multimédia

Limites :

Aucune prise en charge des requêtes basées sur des images lorsqu'elles sont utilisées sans Nova Multimodal Embeddings - toutes les recherches doivent utiliser la saisie de texte
Impossible d'effectuer des image-to-image recherches ou des correspondances visuelles par similarité
Temps de traitement d'ingestion plus long en raison des exigences de conversion du contenu
Supporte moins de formats de fichiers multimédia par rapport à Nova Multimodal Embeddings

Traitement du contenu vocal

Nova Multimodal Embeddings ne peut pas traiter efficacement le contenu vocal des fichiers audio ou vidéo. Si votre contenu multimédia contient des informations vocales importantes que les utilisateurs doivent rechercher, optez pour l'approche BDA pour garantir une transcription complète et une facilité de recherche.

Avertissement JavaScript est désactivé ou n'est pas disponible dans votre navigateur.

Pour que vous puissiez utiliser la documentation AWS, Javascript doit être activé. Vous trouverez des instructions sur les pages d'aide de votre navigateur.

Conventions de rédaction

Création d'une base de connaissances pour le contenu multimodal

Conditions préalables