Aufbau einer Wissensdatenbank für multimodale Inhalte - Amazon Bedrock

Die vorliegende Übersetzung wurde maschinell erstellt. Im Falle eines Konflikts oder eines Widerspruchs zwischen dieser übersetzten Fassung und der englischen Fassung (einschließlich infolge von Verzögerungen bei der Übersetzung) ist die englische Fassung maßgeblich.

Aufbau einer Wissensdatenbank für multimodale Inhalte

Amazon Bedrock Knowledge Bases unterstützt multimodale Inhalte wie Bilder, Audio- und Videodateien. Sie können anhand von Bildern als Abfragen suchen, visuell ähnliche Inhalte abrufen und Multimediadateien neben herkömmlichen Textdokumenten verarbeiten. Mit dieser Funktion können Sie Erkenntnisse aus verschiedenen Datentypen gewinnen — eigenständigen Bildern, Audioaufzeichnungen und Videodateien, die in Ihrem Unternehmen gespeichert sind.

Mit Amazon Bedrock Knowledge Bases können Sie Informationen aus Text-, Bild- und Audioinhalten indexieren und abrufen. Organizations können jetzt Produktkataloge anhand von Bildern durchsuchen, bestimmte Momente in Schulungsvideos finden und relevante Segmente aus Aufzeichnungen von Kundendienstanrufen abrufen.

Regionale Verfügbarkeit

Multimodale Verarbeitungsansätze sind regional unterschiedlich verfügbar. Weitere Informationen hierzu finden Sie unter Regionale Verfügbarkeit.

Funktionen und Funktionen

Multimodale Wissensdatenbanken bieten die folgenden Schlüsselfunktionen:

Bildbasierte Abfragen

Reichen Sie Bilder als Suchanfragen ein, um visuell ähnliche Inhalte zu finden, wenn Sie Nova Multimodal Embeddings verwenden. Unterstützt den Produktabgleich, die Suche nach visueller Ähnlichkeit und das Abrufen von Bildern.

Abrufen von Audioinhalten

Durchsuchen Sie Audiodateien mithilfe von Textabfragen. Rufen Sie bestimmte Segmente aus Aufzeichnungen mit Zeitstempelreferenzen ab. Die Audiotranskription ermöglicht die textbasierte Suche in gesprochenen Inhalten, einschließlich Besprechungen, Anrufen und Podcasts.

Extraktion von Videosegmenten

Suchen Sie mithilfe von Textabfragen nach bestimmten Momenten in Videodateien. Rufen Sie Videosegmente mit präzisen Zeitstempeln ab.

Modalübergreifende Suche

Suchen Sie in verschiedenen Datentypen, einschließlich Textdokumenten, Bildern, Audio und Video. Rufen Sie relevante Inhalte unabhängig vom Originalformat ab.

Quellenverweise mit Zeitstempeln

Zu den Abrufergebnissen gehören Verweise auf Originaldateien mit zeitlichen Metadaten für Audio und Video. Ermöglicht die präzise Navigation zu relevanten Segmenten innerhalb von Multimediainhalten.

Flexible Verarbeitungsoptionen

Wählen Sie zwischen systemeigenen multimodalen Einbettungen für visuelle Ähnlichkeit oder Textkonvertierung für sprachbasierte Inhalte. Konfigurieren Sie den Verarbeitungsansatz auf der Grundlage von Inhaltsmerkmalen und Anwendungsanforderungen.

Funktionsweise

Multimodale Wissensdatenbanken verarbeiten und rufen Inhalte über eine mehrstufige Pipeline ab, die verschiedene Datentypen angemessen verarbeitet:

Aufnahme und Verarbeitung
  1. Datenquellenverbindung: Connect Sie Ihre Wissensdatenbank mit Amazon S3 S3-Buckets oder benutzerdefinierten Datenquellen, die Textdokumente, Bilder, Audiodateien und Videodateien enthalten.

  2. Erkennung von Dateitypen: Das System identifiziert jeden Dateityp anhand seiner Erweiterung und leitet ihn an die entsprechende Verarbeitungspipeline weiter.

  3. Inhaltsverarbeitung: Abhängig von Ihrer Konfiguration werden Dateien mit einem von zwei Ansätzen verarbeitet:

    • Multimodale Nova-Einbettungen: Behält das native Format für den Abgleich von visueller und akustischer Ähnlichkeit bei. Bilder, Audio und Video werden ohne Konvertierung in Text direkt eingebettet.

    • Bedrock Data Automation (BDA): Konvertiert Multimedia in Textdarstellungen. Audio wird mithilfe der automatischen Spracherkennung (ASR) transkribiert, Video wird verarbeitet, um Szenenzusammenfassungen und Transkripte zu extrahieren, und Bilder werden einer OCR- und visuellen Inhaltsextraktion unterzogen.

  4. Generierung von Einbettungen: Verarbeitete Inhalte werden mithilfe des von Ihnen ausgewählten Einbettungsmodells in Vektoreinbettungen konvertiert. Diese Einbettungen erfassen die semantische Bedeutung und ermöglichen den Abruf auf der Grundlage von Ähnlichkeiten.

  5. Vektorspeicher: Einbettungen werden zusammen mit Metadaten wie Dateiverweisen, Zeitstempeln (für Audio und Video) und Inhaltstypinformationen in Ihrer konfigurierten Vektordatenbank gespeichert.

  6. Multimodaler Speicher (optional): Falls konfiguriert, werden die ursprünglichen Multimediadateien für einen zuverlässigen Abruf in ein spezielles multimodales Speicherziel kopiert, sodass die Verfügbarkeit auch dann gewährleistet ist, wenn Quelldateien geändert oder gelöscht werden.

Abfrage und Abruf
  1. Abfrageverarbeitung: Benutzerabfragen (Text oder Bild) werden in Einbettungen umgewandelt, wobei dasselbe Einbettungsmodell verwendet wird, das bei der Aufnahme verwendet wurde.

  2. Ähnlichkeitssuche: Die Einbettung der Abfrage wird mit den in der Vektordatenbank gespeicherten Einbettungen verglichen, um den relevantesten Inhalt zu ermitteln.

  3. Ergebnisabruf: Das System gibt übereinstimmende Inhalte mit Metadaten zurück, darunter:

    • Quell-URI (Speicherort der ursprünglichen Datei)

    • Timestamp-Metadaten (für Audio- und Videosegmente)

    • Informationen zu Inhaltstyp und Modalität

  4. Generierung von Antworten (optional): Bei RetrieveAndGenerate Anfragen werden abgerufene Inhalte an ein Basismodell übergeben, um kontextrelevante Textantworten zu generieren. Dies wird unterstützt, wenn die BDA-Verarbeitung verwendet wird oder wenn die Wissensdatenbank Textinhalte enthält.

Wichtig

Das System gibt Verweise auf vollständige Dateien mit Zeitstempel-Metadaten für Audio- und Videoinhalte zurück. Ihre Anwendung muss bestimmte Segmente auf der Grundlage der bereitgestellten Start- und Endzeitstempel extrahieren und abspielen. Das AWS-Managementkonsole erledigt das automatisch.