Pertimbangan untuk pembuatan data sintetis

Dengan AWS Clean Rooms, anggota kolaborasi dapat membuat kumpulan data sintetis yang secara permanen menghapus identifikasi subjek kumpulan data asli dari kumpulan data kolektif mereka untuk melatih model pembelajaran mesin khusus. Saat membuat kolaborasi, Anda harus mengonfigurasi informasi pembayaran untuk menentukan siapa yang membayar untuk pembuatan data sintetis. Berikut adalah langkah-langkah tingkat tinggi untuk menghasilkan kumpulan data sintetis dan melatih model pembelajaran mesin khusus:

Anggota kolaborasi membuat templat analisis yang mencakup:
- SQL diperlukan untuk mendefinisikan dataset yang akan disintesis.
- Privacy-related konfigurasi yang digunakan untuk memastikan data sintetis memenuhi persyaratan kepatuhan penyedia data.
Setelah semua penyedia data menyetujui templat analisis, pelari kueri kolaborasi membuat saluran input pembelajaran mesin (ML), menggunakan templat.
Clean Rooms MS menghasilkan dataset sintetis dan memverifikasi bahwa itu memenuhi ambang privasi yang ditentukan dalam template analisis.
Jika semua ambang batas terpenuhi, saluran input ML diisi dengan kumpulan data sintetis.
Pelanggan kemudian dapat menggunakan saluran input ML ini untuk melatih model HTML kustom yang terkait dengan kolaborasi.

Pertimbangan penting:

Data sintetis yang dihasilkan di Clean Rooms ML tidak menghapus, menyunting, mengaburkan, atau membersihkan nilai individu apa pun, termasuk informasi identitas pribadi (PII) yang ditemukan dalam kumpulan data asli. Dataset sintetis dihasilkan oleh nilai pengambilan sampel, tetapi tidak seluruh catatan, dari kumpulan data asli.
Jika kumpulan data asli berisi baris yang serupa, ada kemungkinan data sintetis berisi baris yang terlihat identik dengan baris dalam kumpulan data asli.

Persiapan dataset:

Hindari kolom dengan distribusi kelas yang tidak seimbang secara signifikan. Ini sangat penting untuk nilai prediksi atau kolom “Y”. Ketidakseimbangan ekstrim mengurangi privasi keseluruhan kumpulan data sintetis.
Clean Rooms MLtidak mendukung pembuatan data sintetis dari data deret waktu di mana menjaga korelasi di seluruh catatan sekuensial adalah penting.
Clean Rooms ML tidak mendukung pembuatan data sintetis dari teks atau data tidak terstruktur.

tipe data berikut didukung:

Nama tipe data
BIGINT
BOOLEAN
CHAR
DATE
DECIMAL
FLOAT
INTEGER
LONG
REAL
SHORT
SMALLINT
TIME
STAMP_LTZ
TIMESTAMP_NTZ
TINYINT
VARCHAR

Pembatasan:

Untuk pembuatan data sintetis, jumlah maksimum kolom prediktif adalah satu.
Jika kolom target kategoris, jumlah maksimum kategori dalam kumpulan data asli adalah 100.
Dalam kumpulan data asli, jumlah baris harus antara 1.500 dan 2,5 juta dan jumlah kolom maksimum adalah 1.000. Untuk nilai non-null di kolom target, jumlah baris minimum adalah 1.000.

Metrik privasi:

Clean Rooms ML memberikan skor privasi yang mengukur seberapa terlindungi data sintetis yang dihasilkan terhadap serangan inferensi keanggotaan (MIA). Layanan ini menyimpan 5% dari data asli dari proses sintesis untuk menghitung skor ini.
Skor mendekati 50% dianggap baik; skor yang lebih tinggi menunjukkan perlindungan yang lebih sedikit terhadap MIA. Skor secara signifikan di bawah 50% jarang terjadi dan mungkin karena non-representasi pola dari data asli dalam data yang disintesis.

Model kustom hilir:

Data sintetis yang dihasilkan di Clean Rooms ML paling cocok untuk melatih model klasifikasi biner dan model klasifikasi multi-kelas hingga lima kelas.
Model regresi pelatihan menggunakan data sintetis yang dihasilkan di Clean Rooms MLdapat menghasilkan akurasi model yang rendah, yang diukur dengan Root Mean Square Error (RMSE).

Awas Javascript dinonaktifkan atau tidak tersedia di browser Anda.

Untuk menggunakan Dokumentasi AWS, Javascript harus diaktifkan. Lihat halaman Bantuan browser Anda untuk petunjuk.

Konvensi Dokumen

Privacy-enhanced generasi dataset sintetis

Membuat dan bergabung dengan kolaborasi