-Übersicht Komponenten Vorteile Berechtigungen Zugriff auf Dataset Enrichment Effektive benutzerdefinierte Anweisungen verfassen Zwei Ansätze zur semantischen Anreicherung Fragen und Antworten zu Datensätzen Zusammenfassung

Anreicherung von Datensätzen

Dataset Enrichment ist eine Funktion in Amazon Quick Sight, mit der Datensatzautoren umfangreiche semantische Metadaten zu ihren Datensätzen hinzufügen können. Durch die Bereitstellung von Beschreibungen, benutzerdefinierten Anweisungen und strukturierten Metadaten stellen Sie sicher, dass sowohl menschliche Verbraucher als auch AI-powered Agenten verstehen, wofür ein Datensatz steht und wie er verwendet wird.

Überblick über die Anreicherung von Datensätzen

Mit der Datensatzanreicherung können Autoren und Autorenexperten Datensätze sowohl auf Datensatz- als auch auf Spaltenebene mit semantischem Kontext annotieren. Diese Metadaten verbinden Rohdaten mit dem Geschäftskontext. Es richtet sich an zwei Zielgruppen:

Nutzer von Datensätzen (andere Autoren, Leseexperten) — Verschaffen Sie sich einen besseren Geschäftskontext darüber, was die einzelnen Datensätze enthalten, welchen Zweck sie haben und welche Anwendungsfälle sie bieten.
KI-Agenten — Erhalten Sie umfangreichere Kontextinformationen, um genauere Abfragen und Interpretationen bei der Beantwortung von Fragen über Dataset-Fragen und Antworten zu generieren.

Komponenten zur Anreicherung von Datensätzen

Dataset-level Anreicherung

Wichtig

Fügen Sie den Feldern „Datensatzbeschreibung“ oder „Benutzerdefinierte Anweisungen“ keine vertraulichen Informationen hinzu. Diese Informationen sind für alle Datensatz-Betrachter sichtbar.

Beschreibung des Datensatzes: Eine Zusammenfassung auf Unternehmensebene darüber, wofür der Datensatz steht, welchen Umfang er hat und wofür er verwendet werden soll. Diese Beschreibung ist für alle Benutzer des Datensatzes in der Benutzeroberfläche sichtbar, sodass sie den Zweck des Datensatzes schnell verstehen können. Maximale Länge: 5.000 Zeichen.
Benutzerdefinierte Anweisungen: Free-form Textanweisungen, die speziell von KI-Agenten verwendet werden. Diese Anweisungen helfen der KI dabei, den Datensatz zu interpretieren, abzufragen und zu begründen. Maximale Länge: 5.000 Zeichen.
Datei hochladen: Sie können eine einzelne Datei im YAML-, JSON- oder TXT-Format hochladen, die semantische Metadaten in Katalogqualität enthält, die aus Tools von Drittanbietern (z. B. Databricks, dbt oder Alation) exportiert wurden. Auf diese Weise können Hunderte von Spaltendefinitionen, Geschäftsregeln und Metrikberechnungen in einem einzigen Upload erfasst werden, sodass die manuelle Eingabe spaltenweise entfällt. Maximale Länge: 50.000 Zeichen.

Column-level Bereicherung

Ordner: Organisieren Sie Spalten in logischen Gruppierungen, um die Navigation und das Verständnis zu erleichtern.
Beschreibung der Spalte: Eine für Menschen lesbare Beschreibung dessen, wofür jede Spalte steht, welche Werte gültig sind und welche geschäftliche Bedeutung sie haben. Maximale Länge: 500 Zeichen.
Zusätzliche Hinweise: Zusätzlicher Kontext für jede Spalte, z. B. Überlegungen zur Datenqualität, zugehörige Tabellen oder allgemeine Analysemuster. Maximale Länge: 2.000 Zeichen.

Vorteile der Datenanreicherung

Genauere Fragen und Antworten zu AI-powered Datensätzen — Ein umfangreicherer semantischer Kontext hilft KI-Agenten dabei, genauere SQL-Abfragen und -Interpretationen zu generieren, was zu deutlich besseren Antworten führt.
Besseres Verständnis für Verbraucher — Beschreibungen und Metadaten helfen allen Benutzern im Unternehmen, zu verstehen, was Datensätze enthalten und wie sie richtig verwendet werden.
Skalieren von Metadaten aus externen Katalogen — Mit dem Datei-Upload können Autoren umfangreiche Metadaten aus Katalogtools von Drittanbietern in einem einzigen Vorgang importieren, anstatt Definitionen Spalte für Spalte manuell eingeben zu müssen.

Berechtigungen und Anforderungen

Autoren und Autorenprofis mit Enterprise-Lizenzen können jeden Datensatz, den sie besitzen oder verwalten, erweitern.

Zugriff auf Dataset Enrichment

Gehen Sie wie folgt vor, um auf Dataset Enrichment zuzugreifen.

Speichern Sie Ihren Datensatz in der Datenaufbereitung.
Wählen Sie die Registerkarte Output aus.
Geben Sie die Beschreibung des Datensatzes und die benutzerdefinierten Anweisungen ein oder laden Sie eine Datei mit semantischen Metadaten hoch.

Effektive benutzerdefinierte Anweisungen verfassen

Benutzerdefinierte Anweisungen sind die wirkungsvollste Komponente von Dataset Enrichment. Sie unterstützen KI-Agenten direkt bei der Interpretation und Abfrage eines Datensatzes. Im Folgenden finden Sie Beispiele für effektive und ineffektive benutzerdefinierte Anweisungen.

Gute benutzerdefinierte Anweisungen

Beispiel 1 — Umsatzdatensatz


This dataset contains net revenue after returns and discounts, calculated
on an accrual basis. Revenue is recognized at the point of sale for retail
transactions and upon delivery confirmation for B2B orders. All figures are
in USD. The 'revenue' column specifically excludes taxes, shipping fees,
and promotional credits. For year-over-year comparisons, use the
'fiscal_year' field rather than 'calendar_year' as our fiscal year runs
April–March.

Warum es effektiv ist:

Verdeutlicht mehrdeutige Begriffe (Nettoumsatz vs. Bruttoumsatz)
Definiert die Berechnungsmethode
Gibt Währung und Ausschlüsse an
Enthält Anleitungen zur korrekten Verwendung bestimmter Felder

Beispiel 2 — Kundendatensatz


Customer status definitions: 'Active' = purchased within last 12 months;
'Dormant' = 12–24 months since last purchase; 'Churned' = 24+ months
inactive. The 'customer_segment' field uses RFM analysis (Recency,
Frequency, Monetary). 'Lifetime_value' is calculated as total historical
spend, not predictive LTV. When analyzing customer counts, always filter
out 'is_test_account = true' to exclude internal test data.

Warum es effektiv ist:

Definiert Geschäftslogik und Schwellenwerte
Erläutert Akronyme und Methoden
Warnt vor Überlegungen zur Datenqualität
Leitet zur richtigen Filterung für eine genaue Analyse

Unwirksame benutzerdefinierte Anweisungen

Beispiel — Kundendatensatz


Contains customer information including names, addresses, purchase history,
and other details. Use this for customer analysis.

Warum es unwirksam ist:

Beschreibt, was bereits aus Spaltennamen ersichtlich ist
Stellt keinen Geschäftskontext oder Definitionen bereit
Bietet keine Hinweise zur Datenqualität, zu Berechnungen oder zur ordnungsgemäßen Verwendung
Hilft der KI nicht, zwischen ähnlichen Konzepten zu unterscheiden

Wichtige Prinzipien für das Schreiben guter benutzerdefinierter Anweisungen

Klärung von Unklarheiten — Definieren Sie Begriffe, die mehrfach interpretiert werden können.
Erläutern Sie die Geschäftslogik — Dokumentieren Sie Berechnungen, Schwellenwerte und Kategorisierungen.
Kontext bereitstellen — Geben Sie Einheiten, Zeiträume, Währungen und Umfang an.
Leitfaden zur Verwendung — Erläutern Sie, welche Felder für bestimmte Analysen verwendet werden sollten.
Vor Sonderfällen warnen — Notieren Sie Datenqualitätsprobleme, Testaufzeichnungen oder Sonderfälle.
Seien Sie konkret — Verwenden Sie konkrete Beispiele und eine präzise Sprache.

Zwei Ansätze zur semantischen Anreicherung

Manuelle Anmerkung UI-based

Die Autoren von Datensätzen fügen über die Quick Sight-Oberfläche direkt Datensatz- und Spaltenbeschreibungen sowie benutzerdefinierte Anweisungen hinzu. Quick Sight zeigt Beschreibungen gut sichtbar in der Benutzeroberfläche an und hilft allen Benutzern, den Inhalt der Datensätze, die Spaltendefinitionen und die entsprechenden Anwendungsfälle zu verstehen.

Datei-Upload aus externen Katalogen

Datensatzautoren können semantische Metadaten aus externen Katalogen exportieren und über die API oder Benutzeroberfläche eine Datei pro Datensatz im YAML-, JSON- oder TXT-Format anhängen. Diese Informationen werden zwar von KI-Modellen verwendet und nicht in der Benutzeroberfläche angezeigt, sie ermöglichen jedoch Metadaten in Katalogqualität in großem Maßstab.

Die Verbrauchsebene: Fragen und Antworten zu Datensätzen

Dataset Q&A ist die Nutzungsebene, die Metadaten zur Datensatzanreicherung verwendet. Es ermöglicht Benutzern, offene Fragen in natürlicher Sprache direkt zu den Datensätzen zu stellen, auf die sie Zugriff haben — ohne vorgefertigte Dashboards oder manuell konfigurierte Themen zu benötigen.

Der KI-Agent verwendet den angereicherten Kontext auf folgende Weise:

Bestandserkennung — Der Agent verwendet Datensatzbeschreibungen und semantische Metadaten, um den richtigen Datensatz für die Frage des Benutzers zu identifizieren.
Text-to-SQL Generierung — Benutzerdefinierte Anweisungen, Spaltenbeschreibungen und hochgeladene Metadaten unterstützen die KI bei der Generierung genauerer SQL-Abfragen.
Kontrollierte Antworten — Alle Antworten entsprechen den Row-Level Sicherheitsregeln (RLS) und Column-Level Sicherheitsregeln (CLS).

Ohne Anreicherung verfügt der AI-Agent nur über Spaltennamen und Datentypen, mit denen er arbeiten kann — die oft mehrdeutig sind. Mit der Anreicherung erhält der Agent den vollständigen Geschäftskontext, den er benötigt, um:

Unterscheiden Sie ähnliche Bereiche und Konzepte
Wenden Sie korrekte Berechnungen und Filter an
Machen Sie sich mit geschäftsspezifischen Schwellenwerten und Kategorisierungen vertraut
Schließen Sie Testdaten aus und behandeln Sie Sonderfälle angemessen

Nachdem Sie einem Datensatz einen semantischen Kontext hinzugefügt haben, können Benutzer in Fragen und Antworten auf den Datensatz verweisen und ihn im Chat abfragen. Der KI-Agent verwendet die hinzugefügten Metadaten, um genauere Antworten zu liefern.

Zusammenfassung

Dataset Enrichment fügt den Datensätzen semantische Metadaten zur Analyse hinzu. AI-powered Indem sie ein paar Minuten in das Hinzufügen von Beschreibungen, benutzerdefinierten Anweisungen und Metadatendateien investieren, können die Autoren von Datensätzen die Genauigkeit von Fragen und AI-powered Antworten verbessern und gleichzeitig ihre Datensätze für alle Verbraucher im Unternehmen verständlicher und zugänglicher machen.

Warnung JavaScript ist in Ihrem Browser nicht verfügbar oder deaktiviert.

Zur Nutzung der AWS-Dokumentation muss JavaScript aktiviert sein. Weitere Informationen finden auf den Hilfe-Seiten Ihres Browsers.

Dokumentkonventionen

Häufig gestellte Fragen

Daten beschreiben