Die vorliegende Übersetzung wurde maschinell erstellt. Im Falle eines Konflikts oder eines Widerspruchs zwischen dieser übersetzten Fassung und der englischen Fassung (einschließlich infolge von Verzögerungen bei der Übersetzung) ist die englische Fassung maßgeblich.
Datenquellen hinzufügen und mit der Aufnahme beginnen
Nachdem Sie Ihre Wissensdatenbank erstellt haben, fügen Sie Datenquellen hinzu, die Ihre multimodalen Inhalte enthalten, und starten Sie Aufnahmejobs, um die Inhalte zu verarbeiten und zu indizieren.
Verhalten beim Löschen von Datenquellen
Wenn Sie eine Datenquelle löschen, deren Löschrichtlinie auf RETAIN festgelegt ist, verbleibt der aufgenommene Inhalt in der Vektordatenbank und wird weiterhin zum Abrufen verwendet. Der Inhalt wird nur entfernt, wenn Sie die Wissensdatenbank nach dem Löschen der Datenquelle explizit synchronisieren. Datenquellen mit der standardmäßigen DELETE-Richtlinie entfernen beim Löschen automatisch Inhalte aus der Vektordatenbank und dem zusätzlichen Speicherplatz. Dadurch wird sichergestellt, dass Ihre Wissensdatenbank auch dann weiter funktioniert, wenn Quelldateien geändert oder gelöscht werden. Sie sollten sich jedoch bewusst sein, dass gelöschte Datenquellen, für die die RETIN-Richtlinie gilt, dennoch zu Suchergebnissen beitragen können.
Fügen Sie Datenquellen hinzu
Fügen Sie Ihrer Wissensdatenbank Datenquellen hinzu, die Ihre multimodalen Inhalte enthalten.
Für BDA-Datenquellen: Nur Datenquellen, die nach dem Start des audio/video Supports erstellt wurden, verarbeiten Audio- und Videodateien. Bestehende BDA-Datenquellen, die vor dem Start dieser Funktion erstellt wurden, überspringen weiterhin Audio- und Videodateien. Erstellen Sie neue Datenquellen, um die audio/video Verarbeitung vorhandener Wissensdatenbanken zu ermöglichen.
- Console
-
Um eine Datenquelle von der Konsole aus hinzuzufügen
-
Wählen Sie auf der Detailseite Ihrer Wissensdatenbank die Option Datenquelle hinzufügen aus.
-
Wählen Sie Amazon S3 als Ihren Datenquellentyp.
-
Geben Sie einen Namen und eine Beschreibung für Ihre Datenquelle an.
-
Konfigurieren Sie den Amazon S3 S3-Speicherort, der Ihre multimodalen Dateien enthält, indem Sie den Bucket-URI und alle Inklusionspräfixe angeben.
-
Konfigurieren Sie unter Content-Parsing und Chunking Ihre Parsing- und Chunking-Methoden:
Modelle zur Texteinbettung beschränken den Abruf auf reine Textinhalte, aber Sie können den multimodalen Abruf über Text aktivieren, indem Sie entweder Amazon Bedrock Data Automation (für Audio, Video und Bilder) oder Foundation Model als Parser (für Bilder) auswählen.
Wählen Sie aus drei Analysestrategien:
-
Bedrock-Standardparser: Wird für die reine Textanalyse empfohlen. Dieser Parser ignoriert multimodale Inhalte und wird häufig mit multimodalen Einbettungsmodellen verwendet.
-
Bedrock Data Automation als Parser: Ermöglicht das Parsen und Speichern multimodaler Inhalte als Text-, PDFs Unterstützungs-, Bild-, Audio- und Videodateien.
-
Foundation-Modell als Parser: Ermöglicht erweitertes Parsen von Bildern und strukturierten Dokumenten sowie unterstützenden Bildern PDFs, Tabellen und visuell reichhaltigen Dokumenten.
-
Wählen Sie Datenquelle hinzufügen, um die Datenquelle zu erstellen.
- CLI
-
Um eine Datenquelle hinzuzufügen, verwenden Sie AWS CLI
-
Erstellen Sie eine Datenquelle für Ihren multimodalen Inhalt. Senden Sie eine CreateDataSourceAnfrage:
aws bedrock-agent create-data-source \
--knowledge-base-id <knowledge-base-id> \
--cli-input-json file://ds-multimodal.json
Verwenden Sie für Nova Multimodal Embeddings (keine spezielle Parsing-Konfiguration erforderlich) diesen Inhalt: ds-multimodal.json
{
"dataSourceConfiguration": {
"type": "S3",
"s3Configuration": {
"bucketArn": "arn:aws:s3:::<data-source-bucket>",
"inclusionPrefixes": ["<folder-path>"]
}
},
"name": "multimodal_data_source",
"description": "Data source with multimodal content",
"dataDeletionPolicy": "RETAIN"
}
Verwenden Sie für den BDA-Parsing-Ansatz diese Konfiguration:
{
"dataSourceConfiguration": {
"type": "S3",
"s3Configuration": {
"bucketArn": "arn:aws:s3:::<data-source-bucket>",
"inclusionPrefixes": ["<folder-path>"]
}
},
"name": "multimodal_data_source_bda",
"description": "Data source with BDA multimodal parsing",
"dataDeletionPolicy": "RETAIN",
"vectorIngestionConfiguration": {
"parsingConfiguration": {
"bedrockDataAutomationConfiguration": {
"parsingModality": "MULTIMODAL"
}
}
}
}
Starten Sie einen Aufnahmeauftrag
Nachdem Sie Ihre Datenquellen hinzugefügt haben, starten Sie einen Aufnahmejob, um Ihre multimodalen Inhalte zu verarbeiten und zu indizieren.
- Console
-
Um die Aufnahme von der Konsole aus zu starten
-
Wählen Sie auf der Seite mit den Datenquellendetails die Option Synchronisieren aus.
-
Überwachen Sie den Synchronisierungsstatus auf der Datenquellenseite. Die Aufnahme kann je nach Größe und Anzahl Ihrer multimodalen Dateien mehrere Minuten dauern.
-
Sobald die Synchronisierung erfolgreich abgeschlossen wurde, können Ihre multimodalen Inhalte abgefragt werden.
- CLI
-
Um die Aufnahme mit dem zu starten AWS CLI
-
Starten Sie einen Aufnahmejob. Senden Sie eine Anfrage StartIngestionJob:
aws bedrock-agent start-ingestion-job \
--knowledge-base-id <knowledge-base-id> \
--data-source-id <data-source-id>
Ersetze die Platzhalter durch:
-
Überwachen Sie den Status des Aufnahmeauftrags mithilfe von. GetIngestionJob
Neusynchronisierung nach dem Löschen der Datenquelle
Wenn Sie eine Datenquelle löschen und ihren Inhalt aus der Wissensdatenbank entfernen möchten, müssen Sie die Wissensdatenbank explizit erneut synchronisieren:
Um gelöschte Datenquelleninhalte zu entfernen
-
Löschen Sie die Datenquelle mithilfe der Konsole oder DeleteDataSourceAPI.
-
Starten Sie einen neuen Aufnahmejob für alle verbleibenden Datenquellen, um die Vektordatenbank zu aktualisieren und Inhalte aus der gelöschten Datenquelle zu entfernen.
-
Stellen Sie sicher, dass Abfragen keine Ergebnisse mehr aus der gelöschten Datenquelle zurückgeben.
Ohne Neusynchronisierung werden Inhalte aus gelöschten Datenquellen weiterhin in den Suchergebnissen angezeigt, obwohl die Datenquelle nicht mehr vorhanden ist.