Die vorliegende Übersetzung wurde maschinell erstellt. Im Falle eines Konflikts oder eines Widerspruchs zwischen dieser übersetzten Fassung und der englischen Fassung (einschließlich infolge von Verzögerungen bei der Übersetzung) ist die englische Fassung maßgeblich.
Wählen Sie Ihren multimodalen Verarbeitungsansatz
Amazon Bedrock Knowledge Bases bietet zwei Ansätze für die Verarbeitung multimodaler Inhalte: Nova Multimodal Embeddings für visuelle Ähnlichkeitssuchen und Bedrock Data Automation (BDA) für die textbasierte Verarbeitung von Multimediainhalten. Sie können Foundation Models auch als Parser verwenden, wenn Ihre Eingabemodalität Bild ist, aber nicht für Audio oder Video.
In diesem Abschnitt wird die Verwendung von Nova Multimodal Embeddings und BDA als Verarbeitungsansatz für multimodale Inhalte beschrieben. Jeder Ansatz ist für unterschiedliche Anwendungsfälle und Abfragemuster optimiert.
Themen
Multimodaler Verarbeitungsansatz
Die folgende Tabelle zeigt einen Vergleich zwischen Nova Multimodal Embeddings und BDA für die Verarbeitung multimodaler Inhalte.
| Merkmal | Nova Multimodale Einbettungen | Automatisierung von Grundsteindaten (BDA) |
|---|---|---|
| Methode der Verarbeitung | Generiert Einbettungen ohne zwischenzeitliche Textkonvertierung | Konvertiert Multimedia in Text und erstellt dann Einbettungen |
| Unterstützte Abfragetypen | Text- oder Bildanfragen | Nur Textabfragen |
| Primäre Anwendungsfälle | Suche nach visueller Ähnlichkeit, Produktabgleich, Bilderkennung | Sprachtranskription, textbasierte Suche, Inhaltsanalyse |
| RAG-Funktionalität | Nur auf Textinhalte beschränkt | Volle RetrieveAndGenerate Unterstützung |
| Speicheranforderungen | Multimodales Speicherziel erforderlich | Multimodales Speicherziel optional. Wenn nicht angegeben, werden nur Textdaten von BDA verarbeitet. Für Nicht-Texteingaben müssen Sie ein multimodales Speicherziel angeben. |
Regionale Verfügbarkeit
| Nova Multimodale Einbettungen | Automatisierung von Grundsteindaten (BDA) |
|---|---|
| Nur USA Ost (Nord-Virginia) |
|
Auswahlkriterien nach Inhaltstyp
Verwenden Sie diese Entscheidungsmatrix, um den geeigneten Verarbeitungsansatz auf der Grundlage Ihres Inhalts und Ihrer Anwendungsfallanforderungen auszuwählen:
Anmerkung
Wenn Sie den BDA-Parser mit dem Amazon Nova Multimodal Embeddings-Modell verwenden, verhält sich das Einbettungsmodell wie ein Modell für Texteinbettungen. Wenn Sie mit multimodalen Inhalten arbeiten, verwenden Sie je nach Anwendungsfall einen der Verarbeitungsansätze, um die besten Ergebnisse zu erzielen.
| Inhaltstyp | Nova Multimodale Einbettungen | Automatisierung von Grundsteindaten (BDA) |
|---|---|---|
| Produktkataloge und Bilder | Empfohlen — Ermöglicht den visuellen Ähnlichkeitsabgleich und bildbasierte Abfragen | Eingeschränkt — Extrahiert nur Text per OCR |
| Aufzeichnungen und Anrufe von Besprechungen | Sprachinhalte können nicht sinnvoll verarbeitet werden | Empfohlen — Bietet vollständige Sprachtranskription und durchsuchbaren Text |
| Schulungs- und Lehrvideos | Teilweise — Verarbeitet visuelle Inhalte, übersieht aber Sprache | Empfohlen — Erfasst sowohl Sprachprotokolle als auch visuelle Beschreibungen |
| Aufzeichnungen des Kundensupports | Nicht empfohlen — Sprachinhalte können nicht effektiv verarbeitet werden | Empfohlen — Erstellt vollständige, durchsuchbare Gesprächsprotokolle |
| Technische Diagramme und Tabellen | Empfohlen — Hervorragend geeignet für visuelle Ähnlichkeit und Musterabgleich | Eingeschränkt — Extrahiert Textbeschriftungen, aber es fehlen visuelle Beziehungen |
Unterstützte Dateitypen und Datenquellen
Die unterstützten Dateitypen hängen von Ihrem gewählten Verarbeitungsansatz ab:
| Dateityp | Nova Multimodale Einbettungen | Automatisierung von Grundsteindaten (BDA) |
|---|---|---|
| Bilder | .png, .jpg, .jpeg, .gif, .webp | .png, .jpg, .jpeg |
| Audio | .mp3, .ogg, .wav | .amr, .flac, .m4a, .mp3, .ogg, .wav |
| Video | .mp4, .mov, .mkv, .webm, .flv, .mpeg, .mpg, .wmv, .3gp | .mp4, .mov |
| Dokumente | Als Text verarbeitet | .pdf (plus Textextraktion aus Bildern) |
Unterstützte Datenquellen
Multimodaler Inhalt wird mit den folgenden Datenquellen unterstützt:
-
Amazon S3: Vollständige Unterstützung für alle multimodalen Dateitypen
-
Benutzerdefinierte Datenquellen: Support für Inline-Inhalte bis zu 10 MB, Base64-codiert
Wichtig
Multimodaler Abruf ist derzeit nur für Amazon S3 S3-Datenquellen verfügbar. Andere Datenquellen (Confluence, Salesforce SharePoint, Web Crawler) verarbeiten während der Aufnahme keine multimodalen Dateien. Diese Dateien werden übersprungen und sind für multimodale Abfragen nicht verfügbar.
Fähigkeiten und Einschränkungen
- Nova Multimodale Einbettungen
-
Die wichtigsten Funktionen:
-
Bei der systemeigenen multimodalen Verarbeitung wird das ursprüngliche Inhaltsformat beibehalten, sodass eine optimale visuelle Ähnlichkeit gewährleistet ist
-
Bildbasierte Abfragen ermöglichen es Benutzern, Bilder hochzuladen und visuell ähnliche Inhalte zu finden
-
Hervorragende Leistung für Produktkataloge, visuelle Suche und Content-Discovery-Anwendungen
Einschränkungen:
-
Sprach- oder Audioinhalte können nicht effektiv verarbeitet werden — gesprochene Informationen können nicht durchsucht werden
-
RetrieveAndGenerateund die Reranking-Funktionalität ist nur auf Textinhalte beschränkt -
Erfordert die Konfiguration eines dedizierten multimodalen Speicherziels
-
- Bedrock Data Automation (BDA)
-
Die wichtigsten Funktionen:
-
Umfassende Sprachtranskription mithilfe der ASR-Technologie (Automatic Speech Recognition)
-
Die visuelle Inhaltsanalyse generiert beschreibenden Text für Bilder und Videoszenen
-
Die vollständige
RetrieveAndGenerateUnterstützung ermöglicht die vollständige RAG-Funktionalität für alle Inhalte -
Die textbasierte Suche funktioniert konsistent für alle Arten von Multimedia-Inhalten
Einschränkungen:
-
Keine Unterstützung für bildbasierte Abfragen, wenn sie ohne Nova Multimodal Embeddings verwendet werden — alle Suchen müssen Texteingabe verwenden
-
Es können keine visuellen Ähnlichkeitsabgleiche oder Suchvorgänge durchgeführt werden image-to-image
-
Längere Verarbeitungszeit für die Aufnahme aufgrund von Anforderungen an die Inhaltskonvertierung
-
Unterstützt im Vergleich zu Nova Multimodal Embeddings weniger Multimedia-Dateiformate
-
Verarbeitung von Sprachinhalten
Nova Multimodal Embeddings können Sprachinhalte in Audio- oder Videodateien nicht effektiv verarbeiten. Wenn Ihre Multimediainhalte wichtige gesprochene Informationen enthalten, nach denen Benutzer suchen müssen, wählen Sie den BDA-Ansatz, um eine vollständige Transkription und Durchsuchbarkeit sicherzustellen.