Terjemahan disediakan oleh mesin penerjemah. Jika konten terjemahan yang diberikan bertentangan dengan versi bahasa Inggris aslinya, utamakan versi bahasa Inggris.
Pembuatan dataset sintetis yang ditingkatkan privasi
Dataset sintetis memiliki sifat statistik yang mirip dengan kumpulan data asli yang menjadi dasarnya, tetapi tidak berisi pengamatan dunia nyata yang ada dalam kumpulan data asli. Dengan menggunakan kumpulan data sintetis yang ditingkatkan privasi, Anda dapat membuka kasus penggunaan pelatihan model pembelajaran mesin (ML) baru yang sebelumnya dicegah oleh masalah privasi data. Saat membuat saluran input ML, Anda dapat menghasilkan data sintetis untuk melindungi informasi sensitif saat melatih model ML.
Saat membuat template dengan data sintetis, Anda harus:
-
Memerlukan output template menjadi sintetis
-
Klasifikasi kolom skema keluaran sebagai numerik atau kategoris
-
Sesuaikan data sintetis berdasarkan kebutuhan organisasi
-
Sesuaikan pengaturan privasi:
-
Tetapkan tingkat privasi (epsilon)
-
Konfigurasikan ambang privasi
-
Awas
Pembuatan data sintetis melindungi dari menyimpulkan atribut individu apakah individu tertentu hadir dalam kumpulan data asli atau atribut pembelajaran individu tersebut hadir. Namun, itu tidak mencegah nilai literal dari kumpulan data asli, termasuk informasi yang dapat diidentifikasi secara pribadi (PII) muncul di kumpulan data sintetis.
Sebaiknya hindari nilai dalam kumpulan data input yang hanya terkait dengan satu subjek data karena ini dapat mengidentifikasi kembali subjek data. Misalnya, jika hanya satu pengguna yang tinggal dalam kode pos, keberadaan kode pos itu dalam kumpulan data sintetis akan mengonfirmasi bahwa pengguna berada dalam kumpulan data asli. Teknik seperti memotong nilai presisi tinggi atau mengganti katalog yang tidak biasa dengan yang lain dapat digunakan untuk mengurangi risiko ini. Transformasi ini dapat menjadi bagian dari query yang digunakan untuk membuat saluran input ML.
Untuk informasi selengkapnya tentang cara menghasilkan data sintetis untuk pelatihan model kustom, lihatMembuat template analisis SQL.
Template analisis dengan output sintetis hanya dapat digunakan untuk membuat saluran input ML. Untuk informasi selengkapnya, lihat Membuat saluran input ML di AWS Clean Rooms.