Die vorliegende Übersetzung wurde maschinell erstellt. Im Falle eines Konflikts oder eines Widerspruchs zwischen dieser übersetzten Fassung und der englischen Fassung (einschließlich infolge von Verzögerungen bei der Übersetzung) ist die englische Fassung maßgeblich.
So funktioniert das Inhalts-Chunking für Wissensdatenbanken
Bei der Erfassung Ihrer Daten teilt Amazon Bedrock Ihre Dokumente oder Inhalte zunächst in überschaubare Teile auf, um einen effizienten Datenabruf zu gewährleisten. Die Blöcke werden dann in Einbettungen umgewandelt und in einen Vektorindex geschrieben (Vektordarstellung der Daten), wobei die Zuordnung zum Originaldokument beibehalten wird. Die Vektoreinbettungen ermöglichen einen quantitativen Vergleich der Texte.
Themen
Standardmäßiges Chunking
Amazon Bedrock unterstützt die folgenden Standardansätze für das Chunking:
Anmerkung
Strategien zum Aufteilen von Text gelten nur für Textdokumente. Bei multimodalen Inhalten (Audio, Video, Bilder) erfolgt das Chunking auf der Ebene des Einbettungsmodells und nicht über diese textbasierten Strategien.
-
Chunking mit fester Größe: Sie können die gewünschte Blockgröße konfigurieren, indem Sie die Anzahl der Token pro Block und einen Überlappungsprozentsatz angeben, sodass Sie flexibel auf Ihre spezifischen Anforderungen eingehen können. Sie können die maximale Anzahl von Token, die für einen Block nicht überschritten werden darf, sowie den Prozentsatz der Überlappungen zwischen aufeinanderfolgenden Blöcken festlegen.
Anmerkung
Für analysierte Inhalte (z. B. Inhalte, die erweiterte Parser verwenden oder aus HTML konvertiert wurden) kann Amazon Bedrock Knowledge Bases Inhalte aufteilen, um optimale Ergebnisse zu erzielen. Der Chunker respektiert logische Dokumentgrenzen (wie Seiten oder Abschnitte) und führt keine Inhalte zusammen, die diese Grenzen überschreiten, auch wenn eine Erhöhung der maximalen Token-Größe andernfalls größere Blöcke ermöglichen würde.
-
Standard-Chunking: Der Inhalt wird in Textblöcke mit ungefähr 300 Token aufgeteilt. Beim Chunking-Prozess werden die Satzgrenzen berücksichtigt, um sicherzustellen, dass vollständige Sätze innerhalb jedes Blocks erhalten bleiben.
Sie können für Ihre Dokumente auch „Kein Chunking“ auswählen. Jedes Dokument wird als einzelner Textblock behandelt. Sie sollten Ihre Dokumente möglicherweise vorbereiten, indem Sie sie in separate Dateien aufteilen, bevor Sie „Kein Chunking“ als Ihren Aufteilungsansatz oder Ihre Strategie auswählen. Wenn Sie für Ihre Dokumente kein Chunking auswählen, können Sie die Seitenzahl nicht in Quellenangaben anzeigen oder nach dem Metadatenfeld/Attribut filtern. x-amz-bedrock-kb document-page-number
Hierarchisches Chunking
Beim hierarchischen Chunking werden Informationen in verschachtelten Strukturen bestehend aus untergeordneten und übergeordneten Blöcken organisiert. Beim Erstellen einer Datenquelle können Sie die Größe des übergeordneten Blocks, die Größe des untergeordneten Blocks und die Anzahl der Token definieren, die zwischen den einzelnen Blöcken überlappen. Beim Abrufen ruft das System zunächst untergeordnete Blöcke ab, ersetzt sie jedoch durch breitere übergeordnete Blöcke, um dem Modell einen umfassenderen Kontext zu bieten.
Kleine Texteinbettungen sind präziser, aber beim Abrufen wird ein umfassender Kontext angestrebt. Ein hierarchisches Chunking-System gleicht diese Anforderungen aus, indem abgerufene untergeordnete Blöcke gegebenenfalls durch ihre übergeordneten Blöcke ersetzt werden.
Anmerkung
-
Da untergeordnete Blöcke beim Abrufen durch übergeordnete Blöcke ersetzt werden, kann die zurückgegebene Anzahl von Ergebnissen unter der angeforderten Menge liegen.
-
Eine hierarchische Aufteilung wird nicht empfohlen, wenn Sie den S3-Vektor-Bucket als Vektorspeicher verwenden. Wenn Sie eine große Anzahl von Token für das Chunking verwenden (über 8000 Token zusammen), kann es zu Größenbeschränkungen für Metadaten kommen.
Für hierarchisches Chunking unterstützt Wissensdatenbanken für Amazon Bedrock die Angabe von zwei Ebenen oder der folgenden Tiefe für das Chunking:
-
Übergeordnetes Element: Sie legen die maximale Größe des übergeordneten Chunk-Tokens fest.
-
Untergeordnetes Element: Sie legen die maximale Größe des untergeordneten Chunk-Tokens fest.
Sie legen auch die Überlappungs-Token zwischen den Blöcken fest. Dies ist die absolute Anzahl von Überlappungs-Token zwischen aufeinanderfolgenden übergeordneten Blöcken und aufeinanderfolgenden untergeordneten Blöcken.
Semantisches Chunking
Semantisches Chunking ist eine Technik zur natürlichen Sprachverarbeitung, bei der Text in aussagekräftige Blöcke unterteilt wird, um das Verständnis und den Informationsabruf zu verbessern. Es zielt darauf ab, die Genauigkeit des Abrufs zu verbessern, indem es sich auf den semantischen Inhalt und nicht nur auf die syntaktische Struktur konzentriert. Auf diese Weise kann eine genauere Extraktion und Manipulation relevanter Informationen ermöglicht werden.
Bei der Konfiguration von semantischem Chunking haben Sie die Möglichkeit, die folgenden Hyperparameter anzugeben.
-
Maximale Token-Anzahl: Die maximale Token-Anzahl, die in einem einzelnen Block enthalten sein soll, wobei Satzgrenzen berücksichtigt werden.
-
Puffergröße: Für einen bestimmten Satz definiert die Puffergröße die Anzahl der umgebenden Sätze, die zur Erstellung von Einbettungen hinzugefügt werden sollen. Eine Puffergröße von 1 führt beispielsweise dazu, dass 3 Sätze (aktueller, vorheriger und nächster Satz) kombiniert und eingebettet werden. Dieser Parameter kann beeinflussen, wie viel Text gleichzeitig untersucht wird, um die Grenzen der einzelnen Blöcke zu bestimmen, was sich auf die Granularität und Kohärenz der resultierenden Blöcke auswirkt. Eine größere Puffergröße erfasst möglicherweise mehr Kontext, kann aber auch zu Rauschen führen, während bei einer kleineren Puffergröße möglicherweise wichtiger Kontext übersehen wird, aber ein genaueres Chunking gewährleistet wird.
-
Schwellenwert für Breakpoint-Perzentile: Der Perzentilschwellenwert eines Satzes, um Breakpoints zwischen Sätzen zu ziehen. distance/dissimilarity Ein höherer Schwellenwert erfordert, dass Sätze besser unterscheidbar sind, damit sie in verschiedene Blöcke aufgeteilt werden können. Ein höherer Schwellenwert führt zu weniger Blöcken und in der Regel zu einer größeren durchschnittlichen Blockgröße.
Anmerkung
Die Verwendung von semantischem Chunking ist mit zusätzlichen Kosten verbunden, da dabei ein Basismodell verwendet wird. Die Kosten hängen von der Datenmenge ab, die Sie verarbeiten. Weitere Informationen zu den Kosten von Basismodellen finden Sie unter Amazon Bedrock – Preise
.
Multimodales Chunking von Inhalten
Bei multimodalen Inhalten (Audio, Video, Bilder) unterscheidet sich das Chunking-Verhalten von Textdokumenten:
-
Multimodale Nova-Einbettungen: Das Chunking erfolgt auf der Ebene des Einbettungsmodells. Sie können die Dauer von Audio- und Video-Chunks zwischen 1 und 30 Sekunden konfigurieren (Standard: 5 Sekunden). Für Videodateien gilt nur die Dauer des Videoabschnitts, auch wenn das Video Audio enthält. Die Dauer von Audioabschnitten gilt nur für eigenständige Audiodateien.
-
Bedrock Data Automation (BDA) -Parser: Der Inhalt wird zuerst in Text umgewandelt (Transkripte und Szenenzusammenfassungen), dann werden Standardstrategien für das Aufteilen von Text auf den konvertierten Text angewendet.
Anmerkung
Wenn Sie multimodale Nova-Einbettungen verwenden, wirken sich die in Ihrer Wissensdatenbank konfigurierten Textbruchstrategien nur auf Textdokumente in Ihrer Datenquelle aus, nicht auf Audio-, Video- oder Bilddateien.