Die vorliegende Übersetzung wurde maschinell erstellt. Im Falle eines Konflikts oder eines Widerspruchs zwischen dieser übersetzten Fassung und der englischen Fassung (einschließlich infolge von Verzögerungen bei der Übersetzung) ist die englische Fassung maßgeblich.
Anreicherung von Datensätzen
Dataset Enrichment ist eine Funktion in Amazon Quick Sight, mit der Datensatzautoren umfangreiche semantische Metadaten zu ihren Datensätzen hinzufügen können. Durch die Bereitstellung von Beschreibungen, benutzerdefinierten Anweisungen und strukturierten Metadaten stellen Sie sicher, dass sowohl menschliche Verbraucher als auch AI-powered Agenten verstehen, wofür ein Datensatz steht und wie er verwendet wird.
Überblick über die Anreicherung von Datensätzen
Mit der Datensatzanreicherung können Autoren und Autorenexperten Datensätze sowohl auf Datensatz- als auch auf Spaltenebene mit semantischem Kontext annotieren. Diese Metadaten verbinden Rohdaten mit dem Geschäftskontext. Es richtet sich an zwei Zielgruppen:
-
Nutzer von Datensätzen (andere Autoren, Leseexperten) — Verschaffen Sie sich einen besseren Geschäftskontext darüber, was die einzelnen Datensätze enthalten, welchen Zweck sie haben und welche Anwendungsfälle sie bieten.
-
KI-Agenten — Erhalten Sie umfangreichere Kontextinformationen, um genauere Abfragen und Interpretationen bei der Beantwortung von Fragen über Dataset-Fragen und Antworten zu generieren.
Komponenten zur Anreicherung von Datensätzen
Dataset-level Anreicherung
Wichtig
Fügen Sie den Feldern „Datensatzbeschreibung“ oder „Benutzerdefinierte Anweisungen“ keine vertraulichen Informationen hinzu. Diese Informationen sind für alle Datensatz-Betrachter sichtbar.
- Beschreibung des Datensatzes
-
Eine Zusammenfassung auf Unternehmensebene darüber, wofür der Datensatz steht, welchen Umfang er hat und wofür er verwendet werden soll. Diese Beschreibung ist für alle Benutzer des Datensatzes in der Benutzeroberfläche sichtbar, sodass sie den Zweck des Datensatzes schnell verstehen können. Maximale Länge: 5.000 Zeichen.
- Benutzerdefinierte Anweisungen
-
Free-form Textanweisungen, die speziell von KI-Agenten verwendet werden. Diese Anweisungen helfen der KI dabei, den Datensatz zu interpretieren, abzufragen und zu begründen. Maximale Länge: 5.000 Zeichen.
- Datei hochladen
-
Sie können eine einzelne Datei im YAML-, JSON- oder TXT-Format hochladen, die semantische Metadaten in Katalogqualität enthält, die aus Tools von Drittanbietern (z. B. Databricks, dbt oder Alation) exportiert wurden. Auf diese Weise können Hunderte von Spaltendefinitionen, Geschäftsregeln und Metrikberechnungen in einem einzigen Upload erfasst werden, sodass die manuelle Eingabe spaltenweise entfällt. Maximale Länge: 50.000 Zeichen.
Column-level Bereicherung
- Ordner
-
Organisieren Sie Spalten in logischen Gruppierungen, um die Navigation und das Verständnis zu erleichtern.
- Beschreibung der Spalte
-
Eine für Menschen lesbare Beschreibung dessen, wofür jede Spalte steht, welche Werte gültig sind und welche geschäftliche Bedeutung sie haben. Maximale Länge: 500 Zeichen.
- Zusätzliche Hinweise
-
Zusätzlicher Kontext für jede Spalte, z. B. Überlegungen zur Datenqualität, zugehörige Tabellen oder allgemeine Analysemuster. Maximale Länge: 2.000 Zeichen.
Vorteile der Datenanreicherung
-
Genauere Fragen und Antworten zu AI-powered Datensätzen — Ein umfangreicherer semantischer Kontext hilft KI-Agenten dabei, genauere SQL-Abfragen und -Interpretationen zu generieren, was zu deutlich besseren Antworten führt.
-
Besseres Verständnis für Verbraucher — Beschreibungen und Metadaten helfen allen Benutzern im Unternehmen, zu verstehen, was Datensätze enthalten und wie sie richtig verwendet werden.
-
Skalieren von Metadaten aus externen Katalogen — Mit dem Datei-Upload können Autoren umfangreiche Metadaten aus Katalogtools von Drittanbietern in einem einzigen Vorgang importieren, anstatt Definitionen Spalte für Spalte manuell eingeben zu müssen.
Berechtigungen und Anforderungen
Autoren und Autorenprofis mit Enterprise-Lizenzen können jeden Datensatz, den sie besitzen oder verwalten, erweitern.
Zugriff auf Dataset Enrichment
Gehen Sie wie folgt vor, um auf Dataset Enrichment zuzugreifen.
-
Speichern Sie Ihren Datensatz in der Datenaufbereitung.
-
Wählen Sie die Registerkarte Output aus.
-
Geben Sie die Beschreibung des Datensatzes und die benutzerdefinierten Anweisungen ein oder laden Sie eine Datei mit semantischen Metadaten hoch.
Effektive benutzerdefinierte Anweisungen verfassen
Benutzerdefinierte Anweisungen sind die wirkungsvollste Komponente von Dataset Enrichment. Sie unterstützen KI-Agenten direkt bei der Interpretation und Abfrage eines Datensatzes. Im Folgenden finden Sie Beispiele für effektive und ineffektive benutzerdefinierte Anweisungen.
Gute benutzerdefinierte Anweisungen
Beispiel 1 — Umsatzdatensatz
This dataset contains net revenue after returns and discounts, calculated on an accrual basis. Revenue is recognized at the point of sale for retail transactions and upon delivery confirmation for B2B orders. All figures are in USD. The 'revenue' column specifically excludes taxes, shipping fees, and promotional credits. For year-over-year comparisons, use the 'fiscal_year' field rather than 'calendar_year' as our fiscal year runs April–March.
Warum es effektiv ist:
-
Verdeutlicht mehrdeutige Begriffe (Nettoumsatz vs. Bruttoumsatz)
-
Definiert die Berechnungsmethode
-
Gibt Währung und Ausschlüsse an
-
Enthält Anleitungen zur korrekten Verwendung bestimmter Felder
Beispiel 2 — Kundendatensatz
Customer status definitions: 'Active' = purchased within last 12 months; 'Dormant' = 12–24 months since last purchase; 'Churned' = 24+ months inactive. The 'customer_segment' field uses RFM analysis (Recency, Frequency, Monetary). 'Lifetime_value' is calculated as total historical spend, not predictive LTV. When analyzing customer counts, always filter out 'is_test_account = true' to exclude internal test data.
Warum es effektiv ist:
-
Definiert Geschäftslogik und Schwellenwerte
-
Erläutert Akronyme und Methoden
-
Warnt vor Überlegungen zur Datenqualität
-
Leitet zur richtigen Filterung für eine genaue Analyse
Unwirksame benutzerdefinierte Anweisungen
Beispiel — Kundendatensatz
Contains customer information including names, addresses, purchase history, and other details. Use this for customer analysis.
Warum es unwirksam ist:
-
Beschreibt, was bereits aus Spaltennamen ersichtlich ist
-
Stellt keinen Geschäftskontext oder Definitionen bereit
-
Bietet keine Hinweise zur Datenqualität, zu Berechnungen oder zur ordnungsgemäßen Verwendung
-
Hilft der KI nicht, zwischen ähnlichen Konzepten zu unterscheiden
Wichtige Prinzipien für das Schreiben guter benutzerdefinierter Anweisungen
-
Klärung von Unklarheiten — Definieren Sie Begriffe, die mehrfach interpretiert werden können.
-
Erläutern Sie die Geschäftslogik — Dokumentieren Sie Berechnungen, Schwellenwerte und Kategorisierungen.
-
Kontext bereitstellen — Geben Sie Einheiten, Zeiträume, Währungen und Umfang an.
-
Leitfaden zur Verwendung — Erläutern Sie, welche Felder für bestimmte Analysen verwendet werden sollten.
-
Vor Sonderfällen warnen — Notieren Sie Datenqualitätsprobleme, Testaufzeichnungen oder Sonderfälle.
-
Seien Sie konkret — Verwenden Sie konkrete Beispiele und eine präzise Sprache.
Zwei Ansätze zur semantischen Anreicherung
Manuelle Anmerkung UI-based
Die Autoren von Datensätzen fügen über die Quick Sight-Oberfläche direkt Datensatz- und Spaltenbeschreibungen sowie benutzerdefinierte Anweisungen hinzu. Quick Sight zeigt Beschreibungen gut sichtbar in der Benutzeroberfläche an und hilft allen Benutzern, den Inhalt der Datensätze, die Spaltendefinitionen und die entsprechenden Anwendungsfälle zu verstehen.
Datei-Upload aus externen Katalogen
Datensatzautoren können semantische Metadaten aus externen Katalogen exportieren und über die API oder Benutzeroberfläche eine Datei pro Datensatz im YAML-, JSON- oder TXT-Format anhängen. Diese Informationen werden zwar von KI-Modellen verwendet und nicht in der Benutzeroberfläche angezeigt, sie ermöglichen jedoch Metadaten in Katalogqualität in großem Maßstab.
Die Verbrauchsebene: Fragen und Antworten zu Datensätzen
Dataset Q&A ist die Nutzungsebene, die Metadaten zur Datensatzanreicherung verwendet. Es ermöglicht Benutzern, offene Fragen in natürlicher Sprache direkt zu den Datensätzen zu stellen, auf die sie Zugriff haben — ohne vorgefertigte Dashboards oder manuell konfigurierte Themen zu benötigen.
Der KI-Agent verwendet den angereicherten Kontext auf folgende Weise:
-
Bestandserkennung — Der Agent verwendet Datensatzbeschreibungen und semantische Metadaten, um den richtigen Datensatz für die Frage des Benutzers zu identifizieren.
-
Text-to-SQL Generierung — Benutzerdefinierte Anweisungen, Spaltenbeschreibungen und hochgeladene Metadaten unterstützen die KI bei der Generierung genauerer SQL-Abfragen.
-
Kontrollierte Antworten — Alle Antworten entsprechen den Row-Level Sicherheitsregeln (RLS) und Column-Level Sicherheitsregeln (CLS).
Ohne Anreicherung verfügt der AI-Agent nur über Spaltennamen und Datentypen, mit denen er arbeiten kann — die oft mehrdeutig sind. Mit der Anreicherung erhält der Agent den vollständigen Geschäftskontext, den er benötigt, um:
-
Unterscheiden Sie ähnliche Bereiche und Konzepte
-
Wenden Sie korrekte Berechnungen und Filter an
-
Machen Sie sich mit geschäftsspezifischen Schwellenwerten und Kategorisierungen vertraut
-
Schließen Sie Testdaten aus und behandeln Sie Sonderfälle angemessen
Nachdem Sie einem Datensatz einen semantischen Kontext hinzugefügt haben, können Benutzer in Fragen und Antworten auf den Datensatz verweisen und ihn im Chat abfragen. Der KI-Agent verwendet die hinzugefügten Metadaten, um genauere Antworten zu liefern.
Zusammenfassung
Dataset Enrichment fügt den Datensätzen semantische Metadaten zur Analyse hinzu. AI-powered Indem sie ein paar Minuten in das Hinzufügen von Beschreibungen, benutzerdefinierten Anweisungen und Metadatendateien investieren, können die Autoren von Datensätzen die Genauigkeit von Fragen und AI-powered Antworten verbessern und gleichzeitig ihre Datensätze für alle Verbraucher im Unternehmen verständlicher und zugänglicher machen.