Membuat template analisis SQL - AWS Clean Rooms

Terjemahan disediakan oleh mesin penerjemah. Jika konten terjemahan yang diberikan bertentangan dengan versi bahasa Inggris aslinya, utamakan versi bahasa Inggris.

Membuat template analisis SQL

Prasyarat

Sebelum Anda membuat template analisis SQL, Anda harus memiliki:

  • AWS Clean Rooms Kolaborasi aktif

  • Akses ke setidaknya satu tabel yang dikonfigurasi dalam kolaborasi

    Untuk informasi tentang mengonfigurasi tabel di AWS Clean Rooms, lihatMembuat tabel yang dikonfigurasi di AWS Clean Rooms.

  • Izin untuk membuat templat analisis

  • Pengetahuan dasar tentang sintaks kueri SQL

Prosedur berikut menjelaskan proses pembuatan template analisis SQL menggunakan AWS Clean Rooms konsol.

Untuk informasi tentang cara membuat template analisis SQL menggunakan AWS SDKs, lihat Referensi AWS Clean Rooms API.

Untuk membuat template analisis SQL
  1. Masuk ke Konsol Manajemen AWS dan buka AWS Clean Rooms konsol dengan Akun AWS yang akan berfungsi sebagai pembuat kolaborasi.

  2. Di panel navigasi kiri, pilih Kolaborasi.

  3. Pilih kolaborasi.

  4. Pada tab Template, buka bagian Analisis template yang dibuat oleh Anda.

  5. Pilih Buat templat analisis.

  6. Pada halaman template Buat analisis, untuk Detail,

    1. Masukkan Nama untuk templat analisis.

    2. (Opsional) Masukkan Deskripsi.

    3. Untuk Format, biarkan opsi SQL dipilih.

  7. Untuk Tabel, lihat tabel yang dikonfigurasi terkait dengan kolaborasi.

  8. Untuk Definisi,

    1. Masukkan definisi untuk templat analisis.

    2. Pilih Impor dari untuk mengimpor definisi.

    3. (Opsional) Tentukan parameter di editor SQL dengan memasukkan titik dua (:) di depan nama parameter.

      Contoh:

      WHERE table1.date + :date_period > table1.date

  9. Jika Anda menambahkan parameter sebelumnya, di bawah Parameter - opsional, untuk setiap nama Parameter, pilih nilai Jenis dan Default (opsional).

  10. Untuk data Sintetis, jika Anda ingin menghasilkan data sintetis untuk pelatihan model, pilih kotak centang Memerlukan keluaran templat analisis menjadi sintetis.

    Untuk informasi selengkapnya, lihat Pembuatan kumpulan data sintetis yang disempurnakan privasi.

    1. Untuk klasifikasi Kolom, pilih Kolom dari daftar dropdown. Setidaknya lima kolom diperlukan.

      1. Pilih Klasifikasi dari daftar dropdown. Ini mengidentifikasi tipe data untuk setiap kolom.

        Jenis klasifikasi meliputi:

        • Numerik — Nilai numerik kontinu seperti pengukuran atau hitungan

        • Kategoris — Nilai atau kategori diskrit seperti label atau jenis

      2. Untuk menghapus kolom, pilih Hapus.

      3. Untuk menambahkan kolom lain, pilih Tambahkan kolom lain. Pilih Kolom dan Klasifikasi dari daftar dropdown.

      4. Untuk nilai Prediktif, pilih Kolom dari daftar dropdown. Ini adalah kolom yang digunakan model khusus untuk prediksi setelah dilatih pada kumpulan data sintetis.

    2. Pengaturan lanjutan memungkinkan Anda untuk mengatur tingkat Privasi dan ambang privasi. Sesuaikan pengaturan agar sesuai dengan kebutuhan Anda.

      1. Untuk tingkat Privasi, masukkan nilai epsilon untuk menentukan seberapa banyak noise yang ditambahkan model sintetis untuk melindungi privasi dalam kumpulan data yang Anda hasilkan. Nilai harus antara 0,0001 dan 10.

        • Nilai yang lebih rendah menambah lebih banyak noise, memberikan perlindungan privasi yang lebih kuat tetapi berpotensi mengurangi utilitas untuk model kustom hilir yang dilatih pada data ini.

        • Nilai yang lebih tinggi menambah lebih sedikit noise, memberikan akurasi lebih tetapi berpotensi mengurangi perlindungan privasi.

        Untuk ambang privasi, masukkan probabilitas tertinggi yang diizinkan bahwa serangan inferensi keanggotaan dapat mengidentifikasi anggota kumpulan data asli. Nilai harus antara 50,0 dan 100.

        • Skor 50% menunjukkan bahwa serangan inferensi keanggotaan tidak berhasil membedakan anggota dari non-anggota lebih baik daripada tebakan acak.

        • Tanpa batas privasi, masukkan 100%.

        Nilai optimal tergantung pada kasus penggunaan spesifik dan persyaratan privasi Anda. Jika ambang privasi terlampaui, pembuatan saluran input ML gagal, dan Anda tidak dapat menggunakan kumpulan data sintetis untuk melatih model.

    Awas

    Pembuatan data sintetis melindungi dari menyimpulkan atribut individu apakah individu tertentu hadir dalam kumpulan data asli atau atribut pembelajaran individu tersebut hadir. Namun, itu tidak mencegah nilai literal dari kumpulan data asli, termasuk informasi yang dapat diidentifikasi secara pribadi (PII) muncul di kumpulan data sintetis.

    Sebaiknya hindari nilai dalam kumpulan data input yang hanya terkait dengan satu subjek data karena ini dapat mengidentifikasi kembali subjek data. Misalnya, jika hanya satu pengguna yang tinggal dalam kode pos, keberadaan kode pos itu dalam kumpulan data sintetis akan mengonfirmasi bahwa pengguna berada dalam kumpulan data asli. Teknik seperti memotong nilai presisi tinggi atau mengganti katalog yang tidak biasa dengan yang lain dapat digunakan untuk mengurangi risiko ini. Transformasi ini dapat menjadi bagian dari query yang digunakan untuk membuat saluran input ML.

  11. Jika Anda ingin mengaktifkan Tag untuk sumber daya, pilih Tambahkan tag baru dan kemudian masukkan pasangan Kunci dan Nilai.

  12. Pilih Buat.

  13. Anda sekarang siap memberi tahu anggota kolaborasi Anda bahwa mereka dapat Meninjau template analisis. (Opsional jika Anda ingin menanyakan data Anda sendiri.)