Les traductions sont fournies par des outils de traduction automatique. En cas de conflit entre le contenu d'une traduction et celui de la version originale en anglais, la version anglaise prévaudra.
Choix de votre approche de traitement multimodale
Les bases de connaissances Amazon Bedrock proposent deux approches pour le traitement du contenu multimodal : Nova Multimodal Embeddings pour les recherches de similarité visuelle, et Bedrock Data Automation (BDA) pour le traitement textuel du contenu multimédia. Vous pouvez également utiliser des modèles de base comme analyseur si votre modalité d'entrée est l'image mais pas pour l'audio ou la vidéo.
Cette section décrit l'utilisation de Nova Multimodal Embeddings et de BDA comme approche de traitement du contenu multimodal. Chaque approche est optimisée pour différents cas d'utilisation et modèles de requêtes.
Rubriques
Approche de traitement multimodale
Le tableau suivant présente une comparaison entre Nova Multimodal Embeddings et BDA pour le traitement du contenu multimodal.
| Caractéristiques | Intégrations multimodales Nova | Automatisation des données Bedrock (BDA) |
|---|---|---|
| Méthode de traitement | Génère des intégrations sans conversion de texte intermédiaire | Convertit le contenu multimédia en texte, puis crée des intégrations |
| Types de requêtes pris en charge | Requêtes de texte ou requêtes d'images | Requêtes textuelles uniquement |
| Principaux cas d'utilisation | Recherche de similarité visuelle, correspondance de produits, découverte d'images | Transcription vocale, recherche textuelle, analyse de contenu |
| Fonctionnalité RAG | Limité au contenu textuel uniquement | RetrieveAndGenerateSupport complet |
| Besoins de stockage | Destination de stockage multimodale requise | Destination de stockage multimodale facultative, mais si elle n'est pas spécifiée, seules les données texte seront traitées par BDA. Pour la saisie autre que du texte, vous devez spécifier une destination de stockage multimodale. |
Disponibilité par région
| Intégrations multimodales Nova | Automatisation des données Bedrock (BDA) |
|---|---|
| Est des États-Unis (Virginie du Nord) uniquement |
|
Critères de sélection par type de contenu
Utilisez cette matrice de décision pour choisir l'approche de traitement appropriée en fonction de votre contenu et des exigences du cas d'utilisation :
Note
Si vous utilisez l'analyseur BDA avec le modèle d'intégration multimodal Amazon Nova, le modèle d'intégration agira comme un modèle d'intégration de texte. Lorsque vous travaillez avec du contenu multimodal, utilisez l'une des approches de traitement pour obtenir les meilleurs résultats en fonction de votre cas d'utilisation.
| Type de contenu | Intégrations multimodales Nova | Automatisation des données Bedrock (BDA) |
|---|---|---|
| Catalogues de produits et images | Recommandé : permet la mise en correspondance visuelle des similitudes et les requêtes basées sur des images | Limité - Extrait uniquement le texte par OCR |
| Enregistrements de réunions et appels | Impossible de traiter le contenu vocal de manière significative | Recommandé : fournit une transcription complète du discours et du texte consultable |
| Vidéos pédagogiques et de formation | Partiel : gère le contenu visuel mais ne tient pas compte de la parole | Recommandé - Capture à la fois les transcriptions vocales et les descriptions visuelles |
| Enregistrements de support client | Non recommandé - Le contenu vocal ne peut pas être traité efficacement | Recommandé : crée des transcriptions de conversation complètes consultables |
| Schémas et graphiques techniques | Recommandé : excellent pour la similitude visuelle et la correspondance des motifs | Limité : extrait les étiquettes de texte mais omet les relations visuelles |
Types de fichiers et sources de données pris en charge
Les types de fichiers pris en charge dépendent de l'approche de traitement que vous avez choisie :
| Type de fichier | Intégrations multimodales Nova | Automatisation des données Bedrock (BDA) |
|---|---|---|
| Images | .png, .jpg, .jpeg, .gif, .webp | .png, .jpg, .jpeg |
| Audio | .mp3, .ogg, .wav | .amr, .flac, .m4a, .mp3, .ogg, .wav |
| Vidéo | .mp4, .mov, .mkv, .webm, .flv, .mpeg, .mpg, .wmv, .3gp | .mp4, .mov |
| Documents | Traité sous forme de texte | .pdf (plus extraction de texte à partir d'images) |
Sources de données prises en charge
Le contenu multimodal est pris en charge par les sources de données suivantes :
-
Amazon S3 : prise en charge complète de tous les types de fichiers multimodaux
-
Sources de données personnalisées : Support pour le contenu en ligne jusqu'à 10 Mo codé en base64
Important
La récupération multimodale n'est actuellement disponible que pour les sources de données Amazon S3. Les autres sources de données (Confluence, Salesforce SharePoint, Web Crawler) ne traitent pas les fichiers multimodaux lors de l'ingestion. Ces fichiers sont ignorés et ne seront pas disponibles pour les requêtes multimodales.
Capacités et limites
- Intégrations multimodales Nova
-
Fonctionnalités clés :
-
Le traitement multimodal natif préserve le format du contenu d'origine pour une correspondance visuelle optimale des similitudes
-
Les requêtes basées sur des images permettent aux utilisateurs de télécharger des images et de trouver du contenu visuellement similaire
-
Excellentes performances pour les catalogues de produits, la recherche visuelle et les applications de découverte de contenu
Limites :
-
Impossible de traiter efficacement le contenu vocal ou audio - les informations vocales ne sont pas consultables
-
RetrieveAndGenerateet la fonctionnalité de référencement est limitée au contenu textuel uniquement -
Nécessite la configuration d'une destination de stockage multimodale dédiée
-
- Automatisation des données Bedrock (BDA)
-
Fonctionnalités clés :
-
Transcription vocale complète à l'aide de la technologie de reconnaissance vocale automatique (ASR)
-
L'analyse du contenu visuel génère un texte descriptif pour les images et les scènes vidéo
-
Le
RetrieveAndGeneratesupport complet permet d'utiliser toutes les fonctionnalités RAG pour tous les contenus -
La recherche basée sur le texte fonctionne de manière cohérente pour tous les types de contenu multimédia
Limites :
-
Aucune prise en charge des requêtes basées sur des images lorsqu'elles sont utilisées sans Nova Multimodal Embeddings - toutes les recherches doivent utiliser la saisie de texte
-
Impossible d'effectuer des image-to-image recherches ou des correspondances visuelles par similarité
-
Temps de traitement d'ingestion plus long en raison des exigences de conversion du contenu
-
Supporte moins de formats de fichiers multimédia par rapport à Nova Multimodal Embeddings
-
Traitement du contenu vocal
Nova Multimodal Embeddings ne peut pas traiter efficacement le contenu vocal des fichiers audio ou vidéo. Si votre contenu multimédia contient des informations vocales importantes que les utilisateurs doivent rechercher, optez pour l'approche BDA pour garantir une transcription complète et une facilité de recherche.