Terjemahan disediakan oleh mesin penerjemah. Jika konten terjemahan yang diberikan bertentangan dengan versi bahasa Inggris aslinya, utamakan versi bahasa Inggris.
Pertimbangan untuk pembuatan data sintetis
Dengan AWS Clean Rooms, anggota kolaborasi dapat membuat kumpulan data sintetis yang secara permanen menghapus identifikasi subjek kumpulan data asli dari kumpulan data kolektif mereka untuk melatih model pembelajaran mesin khusus. Saat membuat kolaborasi, Anda harus mengonfigurasi informasi pembayaran untuk menentukan siapa yang membayar untuk pembuatan data sintetis. Berikut adalah langkah-langkah tingkat tinggi untuk menghasilkan kumpulan data sintetis dan melatih model pembelajaran mesin khusus:
-
Anggota kolaborasi membuat templat analisis yang mencakup:
-
SQL diperlukan untuk mendefinisikan dataset yang akan disintesis.
-
Konfigurasi terkait privasi yang digunakan untuk memastikan data sintetis memenuhi persyaratan kepatuhan penyedia data.
-
-
Setelah semua penyedia data menyetujui template analisis, pelari kueri kolaborasi membuat saluran input machine learning (ML), menggunakan template.
-
Clean Rooms MS menghasilkan dataset sintetis dan memverifikasi bahwa itu memenuhi ambang privasi yang ditentukan dalam template analisis.
-
Jika semua ambang batas terpenuhi, saluran input ML diisi dengan kumpulan data sintetis.
-
Pelanggan kemudian dapat menggunakan saluran input ML ini untuk melatih model ML kustom yang terkait dengan kolaborasi.
Pertimbangan penting:
-
Data sintetis yang dihasilkan di Clean Rooms ML tidak menghapus, menyunting, mengaburkan, atau membersihkan nilai individu apa pun, termasuk informasi identitas pribadi (PII) yang ditemukan dalam kumpulan data asli. Dataset sintetis dihasilkan oleh nilai pengambilan sampel, tetapi tidak seluruh catatan, dari kumpulan data asli.
-
Jika kumpulan data asli berisi baris yang serupa, ada kemungkinan data sintetis berisi baris yang terlihat identik dengan baris dalam kumpulan data asli.
Persiapan dataset:
-
Hindari kolom dengan distribusi kelas yang tidak seimbang secara signifikan. Ini sangat penting untuk nilai prediksi atau kolom “Y”. Ketidakseimbangan ekstrim mengurangi privasi keseluruhan kumpulan data sintetis.
-
Clean Rooms MLtidak mendukung pembuatan data sintetis dari data deret waktu di mana menjaga korelasi di seluruh catatan sekuensial adalah penting.
-
Clean Rooms ML tidak mendukung pembuatan data sintetis dari teks atau data tidak terstruktur.
-
tipe data berikut didukung:
Nama tipe data BIGINT BOOLEAN CHAR DATE DECIMAL FLOAT INTEGER LONG REAL SHORT SMALLINT TIME STAMP_LTZ TIMESTAMP_NTZ TINYINT VARCHAR
Pembatasan:
-
Untuk pembuatan data sintetis, jumlah maksimum kolom prediktif adalah satu.
-
Jika kolom target kategoris, jumlah maksimum kategori dalam kumpulan data asli adalah 100.
-
Dalam kumpulan data asli, jumlah baris harus antara 1.500 dan 2,5 juta dan jumlah kolom maksimum adalah 1.000. Untuk nilai non-null di kolom target, jumlah baris minimum adalah 1.000.
Metrik privasi:
-
Clean Rooms ML memberikan skor privasi yang mengukur seberapa terlindungi data sintetis yang dihasilkan terhadap serangan inferensi keanggotaan (MIAs). Layanan ini menyimpan 5% dari data asli dari proses sintesis untuk menghitung skor ini.
-
Skor mendekati 50% dianggap baik; skor yang lebih tinggi menunjukkan perlindungan yang lebih sedikit terhadap MIAs. Skor secara signifikan di bawah 50% jarang terjadi dan mungkin karena non-representasi pola dari data asli dalam data yang disintesis.
Model kustom hilir:
-
Data sintetis yang dihasilkan di Clean Rooms ML paling cocok untuk melatih model klasifikasi biner dan model klasifikasi multi-kelas hingga lima kelas.
-
Model regresi pelatihan menggunakan data sintetis yang dihasilkan di Clean Rooms MLdapat menghasilkan akurasi model yang rendah, yang diukur dengan Root Mean Square Error (RMSE).