Standardmäßiges Chunking Hierarchisches Chunking Semantisches Chunking Multimodale Aufteilung von Inhalten

So funktioniert das Inhalts-Chunking für Wissensdatenbanken

Bei der Erfassung Ihrer Daten teilt Amazon Bedrock Ihre Dokumente oder Inhalte zunächst in überschaubare Teile auf, um einen effizienten Datenabruf zu gewährleisten. Die Blöcke werden dann in Einbettungen umgewandelt und in einen Vektorindex geschrieben (Vektordarstellung der Daten), wobei die Zuordnung zum Originaldokument beibehalten wird. Die Vektoreinbettungen ermöglichen einen quantitativen Vergleich der Texte.

Standardmäßiges Chunking

Amazon Bedrock unterstützt die folgenden Standardansätze für das Chunking:

Anmerkung

Strategien zum Aufteilen von Text gelten nur für Textdokumente. Bei multimodalen Inhalten (Audio, Video, Bilder) erfolgt das Chunking auf der Ebene des Einbettungsmodells und nicht über diese textbasierten Strategien.

Fixed-size Chunking: Sie können die gewünschte Chunk-Größe konfigurieren, indem Sie die Anzahl der Token pro Chunk und einen Prozentsatz für die Überlappung angeben, sodass Sie flexibel auf Ihre spezifischen Anforderungen eingehen können. Sie können die maximale Anzahl von Token, die für einen Block nicht überschritten werden darf, sowie den Prozentsatz der Überlappungen zwischen aufeinanderfolgenden Blöcken festlegen.

Anmerkung
Für analysierte Inhalte (z. B. Inhalte, die erweiterte Parser verwenden oder aus HTML konvertiert wurden) kann Amazon Bedrock Knowledge Bases Inhalte aufteilen, um optimale Ergebnisse zu erzielen. Der Chunker respektiert logische Dokumentgrenzen (wie Seiten oder Abschnitte) und führt keine Inhalte zusammen, die diese Grenzen überschreiten, auch wenn eine Erhöhung der maximalen Token-Größe andernfalls größere Blöcke ermöglichen würde.
Standard-Chunking: Der Inhalt wird in Textblöcke mit ungefähr 300 Token aufgeteilt. Beim Chunking-Prozess werden die Satzgrenzen berücksichtigt, um sicherzustellen, dass vollständige Sätze innerhalb jedes Blocks erhalten bleiben.

Sie können für Ihre Dokumente auch „Kein Chunking“ auswählen. Jedes Dokument wird als einzelner Textblock behandelt. Möglicherweise möchten Sie Ihre Dokumente vorab verarbeiten, indem Sie sie in separate Dateien aufteilen, bevor Sie „Kein Chunking“ als Chunking auswählen. approach/strategy Wenn Sie für Ihre Dokumente kein Chunking wählen, können Sie die Seitenzahl im Zitat nicht anzeigen oder nach den Metadaten x-amz-bedrock-kb-document-page-number filtern. field/attribute

Hierarchisches Chunking

Beim hierarchischen Chunking werden Informationen in verschachtelten Strukturen bestehend aus untergeordneten und übergeordneten Blöcken organisiert. Beim Erstellen einer Datenquelle können Sie die Größe des übergeordneten Blocks, die Größe des untergeordneten Blocks und die Anzahl der Token definieren, die zwischen den einzelnen Blöcken überlappen. Beim Abrufen ruft das System zunächst untergeordnete Blöcke ab, ersetzt sie jedoch durch breitere übergeordnete Blöcke, um dem Modell einen umfassenderen Kontext zu bieten.

Kleine Texteinbettungen sind präziser, aber beim Abrufen wird ein umfassender Kontext angestrebt. Ein hierarchisches Chunking-System gleicht diese Anforderungen aus, indem abgerufene untergeordnete Blöcke gegebenenfalls durch ihre übergeordneten Blöcke ersetzt werden.

Anmerkung

Da untergeordnete Blöcke beim Abrufen durch übergeordnete Blöcke ersetzt werden, kann die zurückgegebene Anzahl von Ergebnissen unter der angeforderten Menge liegen.
Eine hierarchische Aufteilung wird nicht empfohlen, wenn Sie den S3-Vektor-Bucket als Vektorspeicher verwenden. Wenn Sie eine große Anzahl von Token für das Chunking verwenden (über 8000 Token zusammen), kann es zu Größenbeschränkungen für Metadaten kommen.

Für hierarchisches Chunking unterstützt Wissensdatenbanken für Amazon Bedrock die Angabe von zwei Ebenen oder der folgenden Tiefe für das Chunking:

Übergeordnetes Element: Sie legen die maximale Größe des übergeordneten Chunk-Tokens fest.
Untergeordnetes Element: Sie legen die maximale Größe des untergeordneten Chunk-Tokens fest.

Sie legen auch die Überlappungs-Token zwischen den Blöcken fest. Dies ist die absolute Anzahl von Überlappungs-Token zwischen aufeinanderfolgenden übergeordneten Blöcken und aufeinanderfolgenden untergeordneten Blöcken.

Semantisches Chunking

Semantisches Chunking ist eine Technik zur natürlichen Sprachverarbeitung, bei der Text in aussagekräftige Blöcke unterteilt wird, um das Verständnis und den Informationsabruf zu verbessern. Es zielt darauf ab, die Genauigkeit des Abrufs zu verbessern, indem es sich auf den semantischen Inhalt und nicht nur auf die syntaktische Struktur konzentriert. Auf diese Weise kann es zu einer genaueren Extraktion und Manipulation relevanter Informationen beitragen.

Bei der Konfiguration von semantischem Chunking haben Sie die Möglichkeit, die folgenden Hyperparameter anzugeben.

Maximale Token-Anzahl: Die maximale Token-Anzahl, die in einem einzelnen Block enthalten sein soll, wobei Satzgrenzen berücksichtigt werden.
Puffergröße: Für einen bestimmten Satz definiert die Puffergröße die Anzahl der umgebenden Sätze, die zur Erstellung von Einbettungen hinzugefügt werden sollen. Eine Puffergröße von 1 führt beispielsweise dazu, dass 3 Sätze (aktueller, vorheriger und nächster Satz) kombiniert und eingebettet werden. Dieser Parameter kann beeinflussen, wie viel Text gleichzeitig untersucht wird, um die Grenzen der einzelnen Blöcke zu bestimmen, was sich auf die Granularität und Kohärenz der resultierenden Blöcke auswirkt. Eine größere Puffergröße erfasst möglicherweise mehr Kontext, kann aber auch zu Rauschen führen, während bei einer kleineren Puffergröße möglicherweise wichtiger Kontext übersehen wird, aber ein genaueres Chunking gewährleistet wird.
Perzentilschwelle: Die Perzentilschwelle eines Satzes, um Grenzwerte zwischen Sätzen zu ziehen. distance/dissimilarity Ein höherer Schwellenwert setzt voraus, dass Sätze besser unterscheidbar sind und in verschiedene Abschnitte aufgeteilt werden können. Ein höherer Schwellenwert führt zu weniger Blöcken und in der Regel zu einer größeren durchschnittlichen Blockgröße.

Anmerkung
Die Verwendung von semantischem Chunking ist mit zusätzlichen Kosten verbunden, da dabei ein Basismodell verwendet wird. Die Kosten hängen von der Datenmenge ab, die Sie verarbeiten. Weitere Informationen zu den Kosten von Basismodellen finden Sie unter Amazon Bedrock – Preise.

Multimodale Aufteilung von Inhalten

Bei multimodalen Inhalten (Audio, Video, Bilder) unterscheidet sich das Chunking-Verhalten von Textdokumenten:

Multimodale Nova-Einbettungen: Das Chunking erfolgt auf der Ebene des Einbettungsmodells. Sie können die Dauer von Audio- und Video-Chunks zwischen 1 und 30 Sekunden konfigurieren (Standard: 5 Sekunden). Für Videodateien gilt nur die Dauer des Videoabschnitts, auch wenn das Video Audio enthält. Die Dauer von Audioabschnitten gilt nur für eigenständige Audiodateien.
Bedrock Data Automation (BDA) -Parser: Der Inhalt wird zuerst in Text umgewandelt (Transkripte und Szenenzusammenfassungen), dann werden Standardstrategien für das Aufteilen von Text auf den konvertierten Text angewendet.

Anmerkung

Wenn Sie multimodale Nova-Einbettungen verwenden, wirken sich die in Ihrer Wissensdatenbank konfigurierten Textbruchstrategien nur auf Textdokumente in Ihrer Datenquelle aus, nicht auf Audio-, Video- oder Bilddateien.

Warnung JavaScript ist in Ihrem Browser nicht verfügbar oder deaktiviert.

Zur Nutzung der AWS-Dokumentation muss JavaScript aktiviert sein. Weitere Informationen finden auf den Hilfe-Seiten Ihres Browsers.

Dokumentkonventionen

Anpassen Ihrer Wissensdatenbank

Parsing-Optionen