Erstellen einer SQL-Analysevorlage - AWS Clean Rooms

Die vorliegende Übersetzung wurde maschinell erstellt. Im Falle eines Konflikts oder eines Widerspruchs zwischen dieser übersetzten Fassung und der englischen Fassung (einschließlich infolge von Verzögerungen bei der Übersetzung) ist die englische Fassung maßgeblich.

Erstellen einer SQL-Analysevorlage

Voraussetzungen

Bevor Sie eine SQL-Analysevorlage erstellen, müssen Sie über Folgendes verfügen:

  • Eine aktive AWS Clean Rooms Zusammenarbeit

  • Zugriff auf mindestens eine konfigurierte Tabelle in der Kollaboration

    Hinweise zur Konfiguration von Tabellen in AWS Clean Rooms finden Sie unterErstellen einer konfigurierten Tabelle in AWS Clean Rooms.

  • Berechtigungen zum Erstellen von Analysevorlagen

  • Grundkenntnisse der SQL-Abfragesyntax

Das folgende Verfahren beschreibt den Prozess der Erstellung einer SQL-Analysevorlage mithilfe der AWS Clean Rooms Konsole.

Informationen zum Erstellen einer SQL-Analysevorlage mithilfe von finden Sie in der AWS Clean Rooms API-Referenz. AWS SDKs

Um eine SQL-Analysevorlage zu erstellen
  1. Melden Sie sich bei der an AWS-Managementkonsole und öffnen Sie die AWS Clean Rooms Konsole mit der AWS-Konto , die als Ersteller der Kollaboration fungiert.

  2. Wählen Sie im linken Navigationsbereich Collaborations aus.

  3. Wählen Sie die Kollaboration aus.

  4. Gehen Sie auf der Registerkarte Vorlagen zum Abschnitt Von Ihnen erstellte Analysevorlagen.

  5. Wählen Sie Analysevorlage erstellen.

  6. Auf der Seite Analysevorlage erstellen für Details

    1. Geben Sie einen Namen für die Analysevorlage ein.

    2. (Optional) Geben Sie eine Beschreibung ein.

    3. Lassen Sie für Format die Option SQL ausgewählt.

  7. Sehen Sie sich unter Tabellen die konfigurierten Tabellen an, die der Kollaboration zugeordnet sind.

  8. Zur Definition

    1. Geben Sie die Definition für die Analysevorlage ein.

    2. Wählen Sie Import aus, um eine Definition zu importieren.

    3. (Optional) Geben Sie einen Parameter im SQL-Editor an, indem Sie vor dem Parameternamen einen Doppelpunkt (:) eingeben.

      Zum Beispiel:

      WHERE table1.date + :date_period > table1.date

  9. Wenn Sie zuvor Parameter hinzugefügt haben, wählen Sie unter Parameter — optional für jeden Parameternamen den Typ und den Standardwert (optional) aus.

  10. Wenn Sie synthetische Daten für das Modelltraining generieren möchten, aktivieren Sie für synthetische Daten das Kontrollkästchen Synthetische Analysevorlagenausgabe erforderlich.

    Weitere Informationen finden Sie unter Generierung synthetischer Datensätze mit verbessertem Datenschutz.

    1. Wählen Sie für die Spaltenklassifizierung eine Spalte aus der Dropdownliste aus. Es sind mindestens fünf Spalten erforderlich.

      1. Wählen Sie eine Klassifizierung aus der Drop-down-Liste aus. Dadurch wird der Datentyp für jede Spalte identifiziert.

        Zu den Klassifizierungstypen gehören:

        • Numerisch — Kontinuierliche numerische Werte wie Messungen oder Zählungen

        • Kategorisch — Diskrete Werte oder Kategorien wie Beschriftungen oder Typen

      2. Um eine Spalte zu entfernen, wählen Sie Entfernen aus.

      3. Um eine weitere Spalte hinzuzufügen, wählen Sie Weitere Spalte hinzufügen aus. Wählen Sie die Spalte und die Klassifizierung aus den Drop-down-Listen aus.

      4. Wählen Sie für Prädiktiver Wert eine Spalte aus der Dropdownliste aus. Dies ist die Spalte, die das benutzerdefinierte Modell für die Vorhersage verwendet, nachdem es mit dem synthetischen Datensatz trainiert wurde.

    2. In den erweiterten Einstellungen können Sie die Datenschutzstufe und den Datenschutzschwellenwert festlegen. Passen Sie die Einstellungen an Ihre Bedürfnisse an.

      1. Geben Sie unter Datenschutzstufe einen Epsilon-Wert ein, um zu bestimmen, wie viel Rauschen das synthetische Modell zum Schutz der Privatsphäre in Ihrem generierten Datensatz hinzufügt. Der Wert muss zwischen 0,0001 und 10 liegen.

        • Niedrigere Werte erhöhen das Rauschen und sorgen für einen besseren Datenschutz, verringern aber möglicherweise den Nutzen eines nachgeschalteten benutzerdefinierten Modells, das mit diesen Daten trainiert wurde.

        • Höhere Werte sorgen für weniger Rauschen, bieten mehr Genauigkeit, beeinträchtigen aber möglicherweise den Datenschutz.

        Geben Sie als Datenschutzschwellenwert die höchste zulässige Wahrscheinlichkeit ein, mit der Mitglieder des ursprünglichen Datensatzes durch einen Angriff auf die Mitgliedschaft identifiziert werden könnten. Der Wert muss zwischen 50,0 und 100 liegen.

        • Werte von 50% deuten darauf hin, dass ein Angriff auf die Zugehörigkeit Mitglieder nicht besser von Nichtmitgliedern unterscheiden kann als durch eine zufällige Vermutung.

        • Wenn Sie keine Datenschutzbegrenzung wünschen, geben Sie 100% ein.

        Der optimale Wert hängt von Ihrem spezifischen Anwendungsfall und Ihren Datenschutzanforderungen ab. Wenn der Datenschutzschwellenwert überschritten wird, schlägt die Erstellung des ML-Eingangskanals fehl und Sie können den synthetischen Datensatz nicht zum Trainieren eines Modells verwenden.

    Warnung

    Die Generierung synthetischer Daten schützt davor, auf individuelle Merkmale zu schließen, unabhängig davon, ob bestimmte Personen im ursprünglichen Datensatz vorhanden sind oder Lernattribute dieser Personen vorhanden sind. Es verhindert jedoch nicht, dass wörtliche Werte aus dem ursprünglichen Datensatz, einschließlich persönlich identifizierbarer Informationen (PII), im synthetischen Datensatz erscheinen.

    Wir empfehlen, Werte im Eingabedatensatz zu vermeiden, die nur einer betroffenen Person zugeordnet sind, da diese eine betroffene Person neu identifizieren können. Wenn beispielsweise nur ein Benutzer in einer Postleitzahl wohnt, würde das Vorhandensein dieser Postleitzahl im synthetischen Datensatz bestätigen, dass sich der Benutzer im ursprünglichen Datensatz befand. Techniken wie das Kürzen von Werten mit hoher Genauigkeit oder das Ersetzen ungewöhnlicher Kataloge durch andere können verwendet werden, um dieses Risiko zu minimieren. Diese Transformationen können Teil der Abfrage sein, die zur Erstellung des ML-Eingabekanals verwendet wird.

  11. Wenn Sie Tags für die Ressource aktivieren möchten, wählen Sie Neues Tag hinzufügen und geben Sie dann das Schlüssel - und Wertepaar ein.

  12. Wählen Sie Erstellen aus.

  13. Sie sind jetzt bereit, Ihr Kollaborationsmitglied darüber zu informieren, dass es eine Analysevorlage überprüfen kann. (Optional, wenn Sie Ihre eigenen Daten abfragen möchten.)