Die vorliegende Übersetzung wurde maschinell erstellt. Im Falle eines Konflikts oder eines Widerspruchs zwischen dieser übersetzten Fassung und der englischen Fassung (einschließlich infolge von Verzögerungen bei der Übersetzung) ist die englische Fassung maßgeblich.
Umwandlung von Daten in eine Wissensdatenbank
Stellen Sie eine Verbindung zu einer unterstützten Datenquelle her, auf die Ihre zu erstellende Wissensdatenbank zugreifen kann. Ihre Wissensdatenbank wird in der Lage sein, auf Benutzeranfragen zu antworten oder Antworten auf Grundlage der abgerufenen Daten zu generieren.
Wissensdatenbanken für Amazon Bedrock unterstützt eine Vielzahl von Dokumenttypen wie Text, Bilder oder multimodale Dokumente, die Tabellen, Diagramme und andere Bilder enthalten. Der Begriff multimodale Daten bezieht sich auf eine Kombination aus Text und visuellen Daten. Beispiele für Dateitypen, die unstrukturierte Daten enthalten, sind Text, Markdown, HTML und. PDFs
In den folgenden Abschnitten werden die Datentypen beschrieben, die Wissensdatenbanken für Amazon Bedrock unterstützt, und die Services, mit denen Sie Ihre Wissensdatenbank für jeden Datentyp verbinden können:
Unstrukturierte Daten
Der Begriff unstrukturierte Daten bezieht sich auf Daten, die nicht in eine vordefinierte Struktur gezwungen werden. Wissensdatenbanken für Amazon Bedrock unterstützt die Verbindung zu den folgenden Services, um Ihrer Wissensdatenbank unstrukturierte Daten hinzuzufügen:
Amazon S3
Confluence (Vorschau)
Microsoft SharePoint (Vorschau)
Salesforce (Vorschau)
Web Crawler (Vorschau)
Benutzerdefinierte Datenquelle (ermöglicht die direkte Aufnahme von Daten in Wissensdatenbanken, ohne dass eine Synchronisierung erforderlich ist)
Eine Datenquelle enthält die Rohform Ihrer Dokumente. Eine Wissensdatenbank konvertiert Ihre Rohdaten in Vektoreinbettungen, also eine numerische Darstellung der Daten, um die Ähnlichkeit mit Abfragen zu quantifizieren, die ebenfalls in Vektoreinbettungen umgewandelt werden, um den Abfrageprozess zu optimieren. Wissensdatenbanken für Amazon Bedrock verwendet die folgenden Ressourcen bei der Konvertierung Ihrer Datenquelle:
-
Einbettungsmodell – Ein Basismodell, das Ihre Daten in Vektoreinbettungen umwandelt. Für multimodale Daten, die sowohl Text als auch Bilder enthalten, können Sie multimodale Einbettungsmodelle wie Amazon Titan Multimodal Embeddings G1 oder Cohere Embed v3 verwenden.
-
Vektorspeicher – Ein Service, der die Vektordarstellung Ihrer Daten speichert. Die folgenden Vektorspeicher werden unterstützt:
-
Amazon OpenSearch Serverlos
-
Amazon Neptune
-
Amazon Aurora (RDS)
-
Pinecone
-
Redis Enterprise Cloud
-
MongoDB-Atlas
-
Der Prozess, mit dem Ihre Daten in Vektoreinbettungen konvertiert werden, nennt sich Erfassung. Der Erfassungsprozess, bei dem Ihre Daten in eine Wissensdatenbank umgewandelt werden, umfasst die folgenden Schritte:
Erfassung
-
Die Daten werden von dem von Ihnen gewählten Parser verarbeitet. Weitere Informationen zum Parsing finden Sie unter Parsing-Optionen für Ihre Datenquelle.
-
Jedes Dokument in Ihrer Datenquelle ist in Blöcke aufgeteilt, also Datenabschnitte, die anhand der Anzahl von Token und anderen Parametern definiert werden können. Weitere Informationen zu Aufteilungen finden Sie unter So funktioniert das Inhalts-Chunking für Wissensdatenbanken.
-
Das von Ihnen gewählte Einbettungsmodell wandelt Ihre Daten in Vektoreinbettungen um. Bei multimodalen Inhalten werden Bilder als visuelle Vektoren und Text als Textvektoren eingebettet, sodass die Suche in beiden Modalitäten möglich ist.
-
Die Vektoreinbettungen werden in einen Vektorindex in Ihrem ausgewählten Vektorspeicher geschrieben.
Nachdem der Aufnahmeprozess abgeschlossen ist, kann Ihre Wissensdatenbank abgefragt werden. Informationen zur Vorgehensweise beim Abfragen und Abrufen von Informationen aus Ihrer Wissensdatenbank finden Sie unter So rufen Sie Informationen aus Datenquellen mithilfe von Wissensdatenbanken für Amazon Bedrock ab.
Wenn Sie Änderungen an Datenquellen vornehmen, müssen Sie die Änderungen synchronisieren, um Ergänzungen, Änderungen und Löschungen in die Wissensdatenbank aufzunehmen. Einige Datenquellen unterstützen das direkte Aufnehmen oder Löschen von Dateien in die Wissensdatenbank, sodass das Ändern und Erfassen von Datenquellen nicht mehr als separate Schritte behandelt werden muss und keine vollständige Synchronisierung erforderlich wird. Informationen darüber, wie Sie Dokumente direkt in Ihre Wissensdatenbank aufnehmen und welche Datenquellen dies unterstützen, finden Sie unter So nehmen Sie Änderungen direkt in eine Wissensdatenbank auf.
Wissensdatenbanken für Amazon Bedrock bietet verschiedene Optionen, mit denen Sie individuell anpassen können, wie Ihre Daten aufgenommen werden. Weitere Informationen zur Anpassung dieses Prozesses finden Sie unter Anpassen Ihrer Wissensdatenbank.
Strukturierte Daten
Der Begriff strukturierte Daten bezieht sich auf tabellarische Daten in einem Format, das durch den Datenspeicher, in dem sie existieren, vordefiniert ist. Wissensdatenbanken für Amazon Bedrock stellt eine Verbindung zu unterstützten strukturierten Datenspeichern über die Abfrage-Engine in Amazon Redshift her. Wissensdatenbanken für Amazon Bedrock bietet einen vollständig verwalteten Mechanismus, der Abfragemuster, Abfrageverlauf und Schemametadaten analysiert, um Abfragen in natürlicher Sprache in SQL-Abfragen umzuwandeln. Diese konvertierten Abfragen werden dann verwendet, um relevante Informationen aus unterstützten Datenquellen abzurufen.
Wissensdatenbanken für Amazon Bedrock unterstützt Verbindungen zu den folgenden Services, um strukturierte Datenspeicher zu Ihrer Wissensdatenbank hinzuzufügen:
Amazon Redshift
AWS Glue Data Catalog(AWS Lake Formation)
Wenn Sie Ihre Wissensdatenbank mit einem strukturierten Datenspeicher verbinden, müssen Sie die Daten nicht in Vektoreinbettungen konvertieren. Stattdessen kann Wissensdatenbanken für Amazon Bedrock den strukturierten Datenspeicher direkt abfragen. Während der Abfrage kann Wissensdatenbanken für Amazon Bedrock Benutzeranfragen in SQL-Abfragen umwandeln, um weitere für die Benutzerabfrage relevante Daten abzurufen und somit genauere Antworten zu generieren. SQL-Abfragen können auch ohne einen Datenabruf generiert werden, und diese in anderen Workflows verwenden.
Ein Datenbank-Repository enthält die folgende Tabelle mit Informationen zu Kunden und ihren Einkäufen:
| Kunden-ID | Summe der Einkäufe im Jahr 2020 | Summe der Einkäufe im Jahr 2021 | Summe der Einkäufe im Jahr 2022 | Summe aller Einkäufe bis heute |
|---|---|---|---|---|
| 1 | 200 | 300 | 500 | 1000 |
| 2 | 150 | 100 | 120 | 370 |
| 3 | 300 | 300 | 300 | 900 |
| 4 | 720 | 180 | 100 | 900 |
| 5 | 500 | 400 | 100 | 1000 |
| 6 | 900 | 800 | 1000 | 2700 |
| 7 | 470 | 420 | 400 | 1290 |
| 8 | 250 | 280 | 250 | 780 |
| 9 | 620 | 830 | 740 | 2190 |
| 10 | 300 | 200 | 300 | 800 |
Wenn eine Benutzeranfrage lautet: „Gib mir eine Zusammenfassung der 5 umsatzstärksten Kunden“, kann die Wissensdatenbank Folgendes tun:
-
Konvertieren der Abfrage in eine SQL-Abfrage.
-
Rückgabe eines Tabellenauszugs wie folgt:
-
Die entsprechenden Tabellenspalten „Kunden-ID“ und „Summe aller Einkäufe bis heute“
-
Tabellenzeilen mit dem Gesamtbetrag der Einkäufe der 10 umsatzstärksten Kunden
-
-
Generieren einer Antwort, die angibt, welche Kunden die 5 umsatzstärksten waren und wie viel sie eingekauft haben.
Weitere Beispiele für Abfragen, für die eine Wissensdatenbank einen Tabellenauszug generieren kann:
-
„Die 5 umsatzstärksten Kunden im Jahr 2020“
-
„Top-Kunde nach Einkaufsvolumen im Jahr 2020"
-
„Top-5 Kunden nach Einkaufsvolumen im Zeitraum 2020-2022"
-
„Die 5 Kunden mit den höchsten Ausgaben in den Jahren 2020-2022"
-
„Kunden mit einem Gesamteinkaufsvolumen unter 10 USD“
-
„Die 5 Kunden mit den niedrigsten Ausgaben“
Je spezifischer oder detaillierter eine Anfrage ist, desto besser kann die Wissensdatenbank die Informationen eingrenzen, die zurückgegeben werden sollen. Anstatt der Abfrage „Die 10 umsatzstärksten Kunden im Jahr 2020“ lautet eine spezifischere Abfrage beispielsweise „Finde die 10 höchsten Gesamtbeträge der Einkäufe bis heute für Kunden im Jahr 2020“. Die spezifische Abfrage bezieht sich auf den Spaltennamen „Summe aller Einkäufe bis heute“ in der Ausgabendatenbanktabelle der Kunden und gibt außerdem an, dass die Daten „absteigend“ sortiert werden sollten.