Die vorliegende Übersetzung wurde maschinell erstellt. Im Falle eines Konflikts oder eines Widerspruchs zwischen dieser übersetzten Fassung und der englischen Fassung (einschließlich infolge von Verzögerungen bei der Übersetzung) ist die englische Fassung maßgeblich.
So fügen Sie Metadaten in eine Datenquelle ein, um die Wissensdatenbankabfrage zu verbessern
Wenn Sie CSV-Dateien (durch Kommas getrennte Werte) aufnehmen, können Sie festlegen, dass die Wissensdatenbank bestimmte Spalten als Inhaltsfelder und nicht als Metadatenfelder behandelt. Anstatt möglicherweise Hunderte oder Tausende von Content-/Metadaten-Dateipaaren zu haben, können Sie jetzt eine einzelne CSV-Datei und eine zugehörige metadata.json-Datei verwenden, die der Wissensdatenbank Hinweise darauf gibt, wie jede Spalte in Ihrer CSV behandelt werden soll.
Es gibt Einschränkungen für Metadatenfelder/-attribute von Dokumenten pro Datenblock. Weitere Informationen finden Sie unter Kontingente für Wissensdatenbanken.
Bevor Sie eine CSV-Datei aufnehmen, stellen Sie Folgendes sicher:
-
Ihre CSV-Datei hat das RFC4180-Format und ist UTF-8-codiert.
-
Die erste Zeile Ihrer CSV-Datei enthält Header-Informationen.
-
Die in Ihrer Datei metadata.json bereitgestellten Metadatenfelder sind in Ihrer CSV-Datei als Spalten vorhanden.
-
Sie stellen eine Datei fileName.csv.metadata.json mit dem folgenden Format bereit:
{ "metadataAttributes": { "${attribute1}": "${value1}", "${attribute2}": "${value2}", ... }, "documentStructureConfiguration": { "type": "RECORD_BASED_STRUCTURE_METADATA", "recordBasedStructureMetadata": { "contentFields": [ { "fieldName": "string" } ], "metadataFieldsSpecification": { "fieldsToInclude": [ { "fieldName": "string" } ], "fieldsToExclude": [ { "fieldName": "string" } ] } } } }
Die CSV-Datei wird zeilenweise analysiert, und die Chunking-Strategie und die Vektoreinbettung werden auf das Inhaltsfeld angewendet. Die Wissensdatenbanken in Amazon Bedrock unterstützen aktuell ein Inhaltsfeld. Das Inhaltsfeld ist in Abschnitte aufgeteilt, und die Metadatenfelder (Spalten), die jedem Abschnitt zugeordnet sind, werden als Zeichenfolgenwerte behandelt.
Nehmen wir zum Beispiel an, es gibt eine CSV-Datei mit einer Spalte „Description“ und einer Spalte „Creation_Date“. Das Beschreibungsfeld ist das Inhaltsfeld und das Erstellungsdatum ist ein zugeordnetes Metadatenfeld. Der Beschreibungstext wird in Abschnitte aufgeteilt und für jede Zeile in der CSV-Datei in Vektoreinbettungen umgewandelt. Der Wert für das Erstellungsdatum wird als Zeichenfolgendarstellung des Datums behandelt und den einzelnen Abschnitten für die Beschreibung zugeordnet.
Wenn keine Einschluss-/Ausschlussfelder angegeben werden, werden alle Spalten mit Ausnahme der Inhaltsspalte als Metadatenspalten behandelt. Wenn nur Einschlussfelder angegeben werden, werden nur die angegebenen Spalten als Metadaten behandelt. Wenn nur Ausschlussfelder angegeben werden, werden alle Spalten mit Ausnahme der Ausschlussspalten als Metadaten behandelt. Wenn Sie denselben fieldName in fieldsToInclude und fieldsToExclude angeben, löst Amazon Bedrock eine Validierungsausnahme aus. Wenn es einen Konflikt zwischen Einschluss und Ausschluss gibt, schlägt der Prozess fehl.
Leere Zeilen in einer CSV-Datei werden ignoriert oder übersprungen.