Fügen Sie Datenquellen hinzu Starten Sie einen Aufnahmeauftrag Neusynchronisierung nach dem Löschen der Datenquelle

Datenquellen hinzufügen und mit der Aufnahme beginnen

Nachdem Sie Ihre Wissensdatenbank erstellt haben, fügen Sie Datenquellen hinzu, die Ihre multimodalen Inhalte enthalten, und starten Sie Aufnahmejobs, um die Inhalte zu verarbeiten und zu indizieren.

Verhalten beim Löschen von Datenquellen

Wenn Sie eine Datenquelle löschen, deren Löschrichtlinie auf RETAIN festgelegt ist, verbleibt der aufgenommene Inhalt in der Vektordatenbank und wird weiterhin zum Abrufen verwendet. Der Inhalt wird nur entfernt, wenn Sie die Wissensdatenbank nach dem Löschen der Datenquelle explizit synchronisieren. Datenquellen mit der standardmäßigen DELETE-Richtlinie entfernen beim Löschen automatisch Inhalte aus der Vektordatenbank und dem zusätzlichen Speicherplatz. Dadurch wird sichergestellt, dass Ihre Wissensdatenbank auch dann weiter funktioniert, wenn Quelldateien geändert oder gelöscht werden. Sie sollten sich jedoch bewusst sein, dass gelöschte Datenquellen, für die die RETIN-Richtlinie gilt, dennoch zu Suchergebnissen beitragen können.

Fügen Sie Datenquellen hinzu

Fügen Sie Ihrer Wissensdatenbank Datenquellen hinzu, die Ihre multimodalen Inhalte enthalten.

Wichtig

Für BDA-Datenquellen: Nur Datenquellen, die nach dem Start des audio/video Supports erstellt wurden, verarbeiten Audio- und Videodateien. Bestehende BDA-Datenquellen, die vor dem Start dieser Funktion erstellt wurden, überspringen weiterhin Audio- und Videodateien. Erstellen Sie neue Datenquellen, um die audio/video Verarbeitung vorhandener Wissensdatenbanken zu ermöglichen.

Console

Um eine Datenquelle von der Konsole aus hinzuzufügen

Wählen Sie auf der Detailseite Ihrer Wissensdatenbank die Option Datenquelle hinzufügen aus.
Wählen Sie Amazon S3 als Ihren Datenquellentyp.
Geben Sie einen Namen und eine Beschreibung für Ihre Datenquelle an.
Konfigurieren Sie den Amazon S3 S3-Speicherort, der Ihre multimodalen Dateien enthält, indem Sie den Bucket-URI und alle Inklusionspräfixe angeben.
Konfigurieren Sie unter Content-Parsing und Chunking Ihre Parsing- und Chunking-Methoden:

Anmerkung
Modelle zur Texteinbettung beschränken den Abruf auf reine Textinhalte, aber Sie können den multimodalen Abruf über Text aktivieren, indem Sie entweder Amazon Bedrock Data Automation (für Audio, Video und Bilder) oder Foundation Model als Parser (für Bilder) auswählen.

Wählen Sie aus drei Analysestrategien:
- Bedrock-Standardparser: Wird für die reine Textanalyse empfohlen. Dieser Parser ignoriert multimodale Inhalte und wird häufig mit multimodalen Einbettungsmodellen verwendet.
- Bedrock Data Automation als Parser: Ermöglicht das Parsen und Speichern multimodaler Inhalte als Text-, PDFs Unterstützungs-, Bild-, Audio- und Videodateien.
- Foundation-Modell als Parser: Ermöglicht erweitertes Parsen von Bildern und strukturierten Dokumenten sowie unterstützenden Bildern PDFs, Tabellen und visuell reichhaltigen Dokumenten.
Wählen Sie Datenquelle hinzufügen, um die Datenquelle zu erstellen.

CLI

Um eine Datenquelle hinzuzufügen, verwenden Sie AWS CLI

Erstellen Sie eine Datenquelle für Ihren multimodalen Inhalt. Senden Sie eine CreateDataSourceAnfrage:


aws bedrock-agent create-data-source \
--knowledge-base-id <knowledge-base-id> \
--cli-input-json file://ds-multimodal.json

Verwenden Sie für Nova Multimodal Embeddings (keine spezielle Parsing-Konfiguration erforderlich) diesen Inhalt: ds-multimodal.json


{
    "dataSourceConfiguration": {
        "type": "S3",
        "s3Configuration": {
            "bucketArn": "arn:aws:s3:::<data-source-bucket>",
            "inclusionPrefixes": ["<folder-path>"]
        }
    },
    "name": "multimodal_data_source",
    "description": "Data source with multimodal content",
    "dataDeletionPolicy": "RETAIN"
}

Verwenden Sie für den BDA-Parsing-Ansatz diese Konfiguration:


{
    "dataSourceConfiguration": {
        "type": "S3",
        "s3Configuration": {
            "bucketArn": "arn:aws:s3:::<data-source-bucket>",
            "inclusionPrefixes": ["<folder-path>"]
        }
    },
    "name": "multimodal_data_source_bda",
    "description": "Data source with BDA multimodal parsing",
    "dataDeletionPolicy": "RETAIN",
    "vectorIngestionConfiguration": {
        "parsingConfiguration": {
            "bedrockDataAutomationConfiguration": {
                "parsingModality": "MULTIMODAL"
            }
        }
    }
}

Starten Sie einen Aufnahmeauftrag

Nachdem Sie Ihre Datenquellen hinzugefügt haben, starten Sie einen Aufnahmejob, um Ihre multimodalen Inhalte zu verarbeiten und zu indizieren.

Neusynchronisierung nach dem Löschen der Datenquelle

Wenn Sie eine Datenquelle löschen und ihren Inhalt aus der Wissensdatenbank entfernen möchten, müssen Sie die Wissensdatenbank explizit erneut synchronisieren:

Um gelöschte Datenquelleninhalte zu entfernen

Löschen Sie die Datenquelle mithilfe der Konsole oder DeleteDataSourceAPI.
Starten Sie einen neuen Aufnahmejob für alle verbleibenden Datenquellen, um die Vektordatenbank zu aktualisieren und Inhalte aus der gelöschten Datenquelle zu entfernen.
Stellen Sie sicher, dass Abfragen keine Ergebnisse mehr aus der gelöschten Datenquelle zurückgeben.

Anmerkung

Ohne Neusynchronisierung werden Inhalte aus gelöschten Datenquellen weiterhin in den Suchergebnissen angezeigt, obwohl die Datenquelle nicht mehr vorhanden ist.

Warnung JavaScript ist in Ihrem Browser nicht verfügbar oder deaktiviert.

Zur Nutzung der AWS-Dokumentation muss JavaScript aktiviert sein. Weitere Informationen finden auf den Hilfe-Seiten Ihres Browsers.

Dokumentkonventionen

Erstellen einer Wissensdatenbank

Wissensdatenbank testen und abfragen

Datenquellen hinzufügen und mit der Aufnahme beginnen

Verhalten beim Löschen von Datenquellen

Fügen Sie Datenquellen hinzu

Wichtig

Um eine Datenquelle von der Konsole aus hinzuzufügen

Anmerkung

Um eine Datenquelle hinzuzufügen, verwenden Sie AWS CLI

Starten Sie einen Aufnahmeauftrag

Um die Aufnahme von der Konsole aus zu starten

Um die Aufnahme mit dem zu starten AWS CLI

Neusynchronisierung nach dem Löschen der Datenquelle

Um gelöschte Datenquelleninhalte zu entfernen

Anmerkung