Parsing-Optionen für Ihre Datenquelle

Parsing bezieht sich auf das Verständnis und die Extraktion von Inhalten aus Rohdaten. Wissensdatenbanken für Amazon Bedrock bietet die folgenden Optionen zum Parsen Ihrer Datenquelle während der Aufnahme:

Standard-Parser für Amazon Bedrock – Parst ausschließlich Text in Textdateien, einschließlich .txt-, .md-, .html-, .doc/.docx-, .xls/.xlsx- und .pdf-Dateien. Für diesen Parser fallen keine Nutzungsgebühren an.

Anmerkung
Da der Standardparser nur Text ausgibt, empfehlen wir, Amazon Bedrock Data Automation oder ein Basismodell anstelle des Standardparsers zu verwenden, wenn Ihre Dokumente Abbildungen, Diagramme, Tabellen oder Bilder enthalten. Amazon Bedrock Data Automation und Basismodelle können diese Elemente aus Ihren Dokumenten extrahieren und als Ausgabe zurückgeben.
Wissensdatenbanken für Amazon Bedrock bietet die folgenden Parser zum Analysieren multimodaler Daten, einschließlich Abbildungen, Diagramme und Tabellen in PDF-Dateien, sowie für JPEG- und PNG-Bilddateien. Diese Parser können diese Abbildungen, Diagramme, Tabellen und Bilder auch extrahieren und als Dateien in einem S3-Ziel speichern, das Sie bei der Erstellung der Wissensdatenbank angeben. Beim Abrufen der Wissensdatenbank können diese Dateien in der Antwort oder in der Quellenangabe zurückgegeben werden.
- Amazon Bedrock Data Automation – Ein vollständig verwalteter Service, der multimodale Daten effektiv verarbeitet, ohne dass zusätzliche Prompts erforderlich werden. Die Kosten für diesen Parser hängen von der Anzahl der Seiten im Dokument oder der Anzahl der zu verarbeitenden Bilder ab. Weitere Informationen zu diesem Service finden Sie unter Amazon Bedrock Data Automation.
- Basismodelle – Verarbeitet multimodale Daten unter Verwendung eines Basismodells. Dieser Parser bietet Ihnen die Möglichkeit, den für die Datenextraktion verwendeten Standardprompt anzupassen. Die Kosten für diesen Parser hängen von der Anzahl der Eingabe- und Ausgabetoken ab, die vom Basismodell verarbeitet werden. Eine Liste der Modelle, die das Parsen von Daten in Wissensdatenbanken für Amazon Bedrock unterstützen, finden Sie unter Unterstützte Modelle und Regionen für die Analyse.

Wichtig

Wenn Sie Amazon Bedrock Data Automation oder Basismodelle als Parser wählen, wird die von Ihnen gewählte Methode verwendet, um alle PDF-Dateien in Ihrer Datenquelle zu analysieren, auch wenn die PDF-Dateien nur Text enthalten. Der Standard-Parser wird nicht verwendet, um diese PDF-Dateien zu analysieren. Für Ihr Konto fallen Gebühren für die Nutzung von Amazon Bedrock Data Automation oder des Basismodells an, wenn diese Dateien analysiert werden.

Berücksichtigen Sie Folgendes bei der Auswahl Ihrer Parsing-Methode für die Datenanalyse:

Ob es sich bei Ihren Daten um reine Textdaten handelt oder ob sie multimodale Daten wie Bilder, Grafiken und Diagramme enthalten, die von der Wissensdatenbank abgefragt werden sollen.
Ob die Option den Prompt anpassen soll, mit dem das Modell angewiesen wird, wie Ihre Daten analysiert werden sollen.
Die Kosten für den Parser. Amazon Bedrock Data Automation verwendet einen Pro-Seite-Preis während der Basismodell-Parser Gebühren auf Grundlage von Eingabe- und Ausgabetoken berechnet. Weitere Informationen finden Sie unter Amazon Bedrock – Preise.
Die Gesamtdateigrößenbeschränkung. Wenn Sie Foundation-Modelle als Parser verwenden, darf die Gesamtdateigröße aller Dateien nicht größer als 100 GB sein.

Um zu erfahren, wie Ihre Wissensbasis geparst wird, sehen Sie sich die Verbindungskonfiguration für Ihre Datenquelle in Verbinden einer Datenquelle mit der Wissensdatenbank an.

Warnung JavaScript ist in Ihrem Browser nicht verfügbar oder deaktiviert.

Zur Nutzung der AWS-Dokumentation muss JavaScript aktiviert sein. Weitere Informationen finden auf den Hilfe-Seiten Ihres Browsers.

Dokumentkonventionen

Inhalts-Chunking

So verwenden Sie eine Lambda-Funktion für die Datenerfassung

Parsing-Optionen für Ihre Datenquelle

Anmerkung

Wichtig