Wählen Sie Ihren multimodalen Verarbeitungsansatz - Amazon Bedrock

Die vorliegende Übersetzung wurde maschinell erstellt. Im Falle eines Konflikts oder eines Widerspruchs zwischen dieser übersetzten Fassung und der englischen Fassung (einschließlich infolge von Verzögerungen bei der Übersetzung) ist die englische Fassung maßgeblich.

Wählen Sie Ihren multimodalen Verarbeitungsansatz

Amazon Bedrock Knowledge Bases bietet zwei Ansätze für die Verarbeitung multimodaler Inhalte: Nova Multimodal Embeddings für visuelle Ähnlichkeitssuchen und Bedrock Data Automation (BDA) für die textbasierte Verarbeitung von Multimediainhalten. Sie können Foundation Models auch als Parser verwenden, wenn Ihre Eingabemodalität Bild ist, aber nicht für Audio oder Video.

In diesem Abschnitt wird die Verwendung von Nova Multimodal Embeddings und BDA als Verarbeitungsansatz für multimodale Inhalte beschrieben. Jeder Ansatz ist für unterschiedliche Anwendungsfälle und Abfragemuster optimiert.

Multimodaler Verarbeitungsansatz

Die folgende Tabelle zeigt einen Vergleich zwischen Nova Multimodal Embeddings und BDA für die Verarbeitung multimodaler Inhalte.

Vergleich des Verarbeitungsansatzes
Merkmal Nova Multimodale Einbettungen Automatisierung von Grundsteindaten (BDA)
Methode der Verarbeitung Generiert Einbettungen ohne zwischenzeitliche Textkonvertierung Konvertiert Multimedia in Text und erstellt dann Einbettungen
Unterstützte Abfragetypen Text- oder Bildanfragen Nur Textabfragen
Primäre Anwendungsfälle Suche nach visueller Ähnlichkeit, Produktabgleich, Bilderkennung Sprachtranskription, textbasierte Suche, Inhaltsanalyse
RAG-Funktionalität Nur auf Textinhalte beschränkt Volle RetrieveAndGenerate Unterstützung
Speicheranforderungen Multimodales Speicherziel erforderlich Multimodales Speicherziel optional. Wenn nicht angegeben, werden nur Textdaten von BDA verarbeitet. Für Nicht-Texteingaben müssen Sie ein multimodales Speicherziel angeben.

Regionale Verfügbarkeit

Regionale Verfügbarkeit
Nova Multimodale Einbettungen Automatisierung von Grundsteindaten (BDA)
Nur USA Ost (Nord-Virginia)
  • USA West (Oregon)

  • USA Ost (Nord-Virginia)

  • Europa (Frankfurt)

  • Europa (London)

  • Europa (Irland)

  • Asien-Pazifik (Mumbai)

  • Asien-Pazifik (Sydney)

  • AWSGovCloud (USA West)

Auswahlkriterien nach Inhaltstyp

Verwenden Sie diese Entscheidungsmatrix, um den geeigneten Verarbeitungsansatz auf der Grundlage Ihres Inhalts und Ihrer Anwendungsfallanforderungen auszuwählen:

Anmerkung

Wenn Sie den BDA-Parser mit dem Amazon Nova Multimodal Embeddings-Modell verwenden, verhält sich das Einbettungsmodell wie ein Modell für Texteinbettungen. Wenn Sie mit multimodalen Inhalten arbeiten, verwenden Sie je nach Anwendungsfall einen der Verarbeitungsansätze, um die besten Ergebnisse zu erzielen.

Empfehlungen für den Verarbeitungsansatz nach Inhaltstyp
Inhaltstyp Nova Multimodale Einbettungen Automatisierung von Grundsteindaten (BDA)
Produktkataloge und Bilder Empfohlen — Ermöglicht den visuellen Ähnlichkeitsabgleich und bildbasierte Abfragen Eingeschränkt — Extrahiert nur Text per OCR
Aufzeichnungen und Anrufe von Besprechungen Sprachinhalte können nicht sinnvoll verarbeitet werden Empfohlen — Bietet vollständige Sprachtranskription und durchsuchbaren Text
Schulungs- und Lehrvideos Teilweise — Verarbeitet visuelle Inhalte, übersieht aber Sprache Empfohlen — Erfasst sowohl Sprachprotokolle als auch visuelle Beschreibungen
Aufzeichnungen des Kundensupports Nicht empfohlen — Sprachinhalte können nicht effektiv verarbeitet werden Empfohlen — Erstellt vollständige, durchsuchbare Gesprächsprotokolle
Technische Diagramme und Tabellen Empfohlen — Hervorragend geeignet für visuelle Ähnlichkeit und Musterabgleich Eingeschränkt — Extrahiert Textbeschriftungen, aber es fehlen visuelle Beziehungen

Unterstützte Dateitypen und Datenquellen

Die unterstützten Dateitypen hängen von Ihrem gewählten Verarbeitungsansatz ab:

Unterstützte Dateitypen je nach Verarbeitungsansatz
Dateityp Nova Multimodale Einbettungen Automatisierung von Grundsteindaten (BDA)
Bilder .png, .jpg, .jpeg, .gif, .webp .png, .jpg, .jpeg
Audio .mp3, .ogg, .wav .amr, .flac, .m4a, .mp3, .ogg, .wav
Video .mp4, .mov, .mkv, .webm, .flv, .mpeg, .mpg, .wmv, .3gp .mp4, .mov
Dokumente Als Text verarbeitet .pdf (plus Textextraktion aus Bildern)
Unterstützte Datenquellen

Multimodaler Inhalt wird mit den folgenden Datenquellen unterstützt:

  • Amazon S3: Vollständige Unterstützung für alle multimodalen Dateitypen

  • Benutzerdefinierte Datenquellen: Support für Inline-Inhalte bis zu 10 MB, Base64-codiert

Wichtig

Multimodaler Abruf ist derzeit nur für Amazon S3 S3-Datenquellen verfügbar. Andere Datenquellen (Confluence, Salesforce SharePoint, Web Crawler) verarbeiten während der Aufnahme keine multimodalen Dateien. Diese Dateien werden übersprungen und sind für multimodale Abfragen nicht verfügbar.

Fähigkeiten und Einschränkungen

Nova Multimodale Einbettungen

Die wichtigsten Funktionen:

  • Bei der systemeigenen multimodalen Verarbeitung wird das ursprüngliche Inhaltsformat beibehalten, sodass eine optimale visuelle Ähnlichkeit gewährleistet ist

  • Bildbasierte Abfragen ermöglichen es Benutzern, Bilder hochzuladen und visuell ähnliche Inhalte zu finden

  • Hervorragende Leistung für Produktkataloge, visuelle Suche und Content-Discovery-Anwendungen

Einschränkungen:

  • Sprach- oder Audioinhalte können nicht effektiv verarbeitet werden — gesprochene Informationen können nicht durchsucht werden

  • RetrieveAndGenerateund die Reranking-Funktionalität ist nur auf Textinhalte beschränkt

  • Erfordert die Konfiguration eines dedizierten multimodalen Speicherziels

Bedrock Data Automation (BDA)

Die wichtigsten Funktionen:

  • Umfassende Sprachtranskription mithilfe der ASR-Technologie (Automatic Speech Recognition)

  • Die visuelle Inhaltsanalyse generiert beschreibenden Text für Bilder und Videoszenen

  • Die vollständige RetrieveAndGenerate Unterstützung ermöglicht die vollständige RAG-Funktionalität für alle Inhalte

  • Die textbasierte Suche funktioniert konsistent für alle Arten von Multimedia-Inhalten

Einschränkungen:

  • Keine Unterstützung für bildbasierte Abfragen, wenn sie ohne Nova Multimodal Embeddings verwendet werden — alle Suchen müssen Texteingabe verwenden

  • Es können keine visuellen Ähnlichkeitsabgleiche oder Suchvorgänge durchgeführt werden image-to-image

  • Längere Verarbeitungszeit für die Aufnahme aufgrund von Anforderungen an die Inhaltskonvertierung

  • Unterstützt im Vergleich zu Nova Multimodal Embeddings weniger Multimedia-Dateiformate

Verarbeitung von Sprachinhalten

Nova Multimodal Embeddings können Sprachinhalte in Audio- oder Videodateien nicht effektiv verarbeiten. Wenn Ihre Multimediainhalte wichtige gesprochene Informationen enthalten, nach denen Benutzer suchen müssen, wählen Sie den BDA-Ansatz, um eine vollständige Transkription und Durchsuchbarkeit sicherzustellen.