Die vorliegende Übersetzung wurde maschinell erstellt. Im Falle eines Konflikts oder eines Widerspruchs zwischen dieser übersetzten Fassung und der englischen Fassung (einschließlich infolge von Verzögerungen bei der Übersetzung) ist die englische Fassung maßgeblich.
Generierung synthetischer Datensätze mit verbessertem Datenschutz
Ein synthetischer Datensatz hat ähnliche statistische Eigenschaften wie der ursprüngliche Datensatz, auf dem er basiert, enthält jedoch nicht die realen Beobachtungen, die im ursprünglichen Datensatz enthalten sind. Durch die Verwendung von synthetischen Datensätzen mit verbessertem Datenschutz können Sie neue Anwendungsfälle für das Modelltraining mit maschinellem Lernen (ML) erschließen, die bisher aufgrund von Datenschutzproblemen verhindert wurden. Wenn Sie einen ML-Eingabekanal erstellen, können Sie synthetische Daten generieren, um vertrauliche Informationen beim Training von ML-Modellen zu schützen.
Wenn Sie eine Vorlage mit synthetischen Daten erstellen, müssen Sie:
-
Erfordert, dass die Vorlagenausgabe synthetisch ist
-
Klassifizieren Sie die Spalten des Ausgabeschemas als numerisch oder kategorisch
-
Passen Sie synthetische Daten an die Bedürfnisse Ihres Unternehmens an
-
Passen Sie die Datenschutzeinstellungen an:
-
Datenschutzstufe festlegen (Epsilon)
-
Datenschutzschwellenwert konfigurieren
-
Warnung
Die Generierung synthetischer Daten schützt davor, auf individuelle Merkmale zu schließen, unabhängig davon, ob bestimmte Personen im ursprünglichen Datensatz vorhanden sind oder Lernattribute dieser Personen vorhanden sind. Es verhindert jedoch nicht, dass wörtliche Werte aus dem ursprünglichen Datensatz, einschließlich persönlich identifizierbarer Informationen (PII), im synthetischen Datensatz erscheinen.
Wir empfehlen, Werte im Eingabedatensatz zu vermeiden, die nur einer betroffenen Person zugeordnet sind, da diese eine betroffene Person neu identifizieren können. Wenn beispielsweise nur ein Benutzer in einer Postleitzahl wohnt, würde das Vorhandensein dieser Postleitzahl im synthetischen Datensatz bestätigen, dass sich der Benutzer im ursprünglichen Datensatz befand. Techniken wie das Kürzen hochgenauer Werte oder das Ersetzen ungewöhnlicher Kataloge durch andere können verwendet werden, um dieses Risiko zu minimieren. Diese Transformationen können Teil der Abfrage sein, mit der der ML-Eingabekanal erstellt wurde.
Weitere Informationen zum Generieren synthetischer Daten für das Training benutzerdefinierter Modelle finden Sie unterErstellen einer SQL-Analysevorlage.
Analysevorlagen mit synthetischen Ausgaben können nur zur Erstellung von ML-Eingangskanälen verwendet werden. Weitere Informationen finden Sie unter Erstellen eines ML-Eingabekanals in AWS Clean Rooms ML.