

Terjemahan disediakan oleh mesin penerjemah. Jika konten terjemahan yang diberikan bertentangan dengan versi bahasa Inggris aslinya, utamakan versi bahasa Inggris.

# Impor
<a name="data-wrangler-import"></a>

Anda dapat menggunakan Amazon SageMaker Data Wrangler untuk mengimpor data dari *sumber data* berikut: Amazon Simple Storage Service (Amazon S3), Amazon Athena, Amazon Redshift, dan Snowflake. Dataset yang Anda impor dapat menyertakan hingga 1000 kolom.

**Topics**
+ [Impor data dari Amazon S3](#data-wrangler-import-s3)
+ [Impor data dari Athena](#data-wrangler-import-athena)
+ [Impor data dari Amazon Redshift](#data-wrangler-import-redshift)
+ [Impor data dari Amazon EMR](#data-wrangler-emr)
+ [Impor data dari Databricks (JDBC)](#data-wrangler-databricks)
+ [Impor data dari Salesforce Data Cloud](#data-wrangler-import-salesforce-data-cloud)
+ [Impor data dari Snowflake](#data-wrangler-snowflake)
+ [Impor Data Dari Perangkat Lunak sebagai Platform Layanan (SaaS)](#data-wrangler-import-saas)
+ [Penyimpanan Data yang Diimpor](#data-wrangler-import-storage)

Beberapa sumber data memungkinkan Anda menambahkan beberapa *koneksi data*:
+ Anda dapat terhubung ke beberapa cluster Amazon Redshift. Setiap cluster menjadi sumber data. 
+ Anda dapat menanyakan database Athena apa pun di akun Anda untuk mengimpor data dari database tersebut.



Ketika Anda mengimpor dataset dari sumber data, itu akan muncul dalam aliran data Anda. Data Wrangler secara otomatis menyimpulkan tipe data setiap kolom dalam kumpulan data Anda. Untuk mengubah jenis ini, pilih langkah **Jenis data** dan pilih **Edit tipe data**.

Saat Anda mengimpor data dari Athena atau Amazon Redshift, data yang diimpor secara otomatis disimpan di bucket AI S3 SageMaker default untuk Wilayah tempat Anda AWS menggunakan Studio Classic. Selain itu, Athena menyimpan data yang Anda pratinjau di Data Wrangler di bucket ini. Untuk mempelajari selengkapnya, lihat [Penyimpanan Data yang Diimpor](#data-wrangler-import-storage).

**penting**  
Bucket Amazon S3 default mungkin tidak memiliki setelan keamanan yang paling tidak permisif, seperti kebijakan bucket dan enkripsi sisi server (SSE). Kami sangat menyarankan Anda [Menambahkan Kebijakan Bucket Untuk Membatasi Akses ke Kumpulan Data yang Diimpor ke Data](https://docs.aws.amazon.com/sagemaker/latest/dg/data-wrangler-security.html#data-wrangler-security-bucket-policy) Wrangler. 

**penting**  
Selain itu, jika Anda menggunakan kebijakan terkelola untuk SageMaker AI, kami sangat menyarankan agar Anda memasukkannya ke kebijakan paling ketat yang memungkinkan Anda melakukan kasus penggunaan. Untuk informasi selengkapnya, lihat [Berikan Izin Peran IAM untuk Menggunakan Data Wrangler](data-wrangler-security.md#data-wrangler-security-iam-policy).

Semua sumber data kecuali Amazon Simple Storage Service (Amazon S3) Simple Storage Service mengharuskan Anda menentukan kueri SQL untuk mengimpor data Anda. Untuk setiap kueri, Anda harus menentukan yang berikut:
+ **Katalog data**
+ **Basis Data**
+ **Tabel**

Anda dapat menentukan nama database atau katalog data di menu drop-down atau dalam kueri. Berikut ini adalah contoh query:
+ `select * from example-data-catalog-name.example-database-name.example-table-name`— Kueri tidak menggunakan apa pun yang ditentukan dalam menu tarik-turun antarmuka pengguna (UI) untuk dijalankan. Ini pertanyaan di `example-table-name` `example-database-name` dalam`example-data-catalog-name`.
+ `select * from example-database-name.example-table-name`— Kueri menggunakan katalog data yang telah Anda tentukan di menu tarik-turun **katalog Data** untuk dijalankan. Ini query `example-table-name` dalam `example-database-name` dalam katalog data yang telah Anda tentukan.
+ `select * from example-table-name`— Kueri mengharuskan Anda untuk memilih bidang untuk **katalog Data** dan menu tarik-turun **nama Database**. Ini query `example-table-name` dalam katalog data dalam database dan katalog data yang telah Anda tentukan.

*Hubungan antara Data Wrangler dan sumber data adalah koneksi.* Anda menggunakan koneksi untuk mengimpor data dari sumber data Anda.

Ada beberapa jenis koneksi berikut:
+ Langsung
+ Dikatalogkan

Data Wrangler selalu memiliki akses ke data terbaru dalam koneksi langsung. Jika data dalam sumber data telah diperbarui, Anda dapat menggunakan koneksi untuk mengimpor data. Misalnya, jika seseorang menambahkan file ke salah satu bucket Amazon S3 Anda, Anda dapat mengimpor file tersebut.

Koneksi yang dikatalogkan adalah hasil dari transfer data. Data dalam koneksi yang dikatalogkan tidak selalu memiliki data terbaru. Misalnya, Anda dapat mengatur transfer data antara Salesforce dan Amazon S3. Jika ada pembaruan pada data Salesforce, Anda harus mentransfer data lagi. Anda dapat mengotomatiskan proses transfer data. Untuk informasi selengkapnya tentang transfer data, lihat[Impor Data Dari Perangkat Lunak sebagai Platform Layanan (SaaS)](#data-wrangler-import-saas).

## Impor data dari Amazon S3
<a name="data-wrangler-import-s3"></a>

Anda dapat menggunakan Amazon Simple Storage Service (Amazon S3) untuk menyimpan dan mengambil sejumlah data, kapan saja, dari mana saja di web. Anda dapat menyelesaikan tugas-tugas ini menggunakan Konsol Manajemen AWS, yang merupakan antarmuka web yang sederhana dan intuitif, dan Amazon S3 API. Jika Anda telah menyimpan kumpulan data secara lokal, kami sarankan Anda menambahkannya ke bucket S3 untuk diimpor ke Data Wrangler. Untuk mempelajari caranya, lihat [Mengunggah objek ke bucket](https://docs.aws.amazon.com/AmazonS3/latest/gsg/PuttingAnObjectInABucket.html) di Panduan Pengguna Layanan Penyimpanan Sederhana Amazon. 

Data Wrangler menggunakan [S3 Select](https://aws.amazon.com/s3/features/#s3-select) untuk memungkinkan Anda melihat pratinjau file Amazon S3 Anda di Data Wrangler. Anda dikenakan biaya standar untuk setiap pratinjau file. Untuk mempelajari lebih lanjut tentang harga, lihat tab **Permintaan & pengambilan data** pada harga [Amazon S3](https://aws.amazon.com/s3/pricing/). 

**penting**  
Jika Anda berencana untuk mengekspor aliran data dan meluncurkan pekerjaan Data Wrangler, memasukkan data ke feature SageMaker store AI, atau membuat pipeline SageMaker AI, ketahuilah bahwa integrasi ini memerlukan data input Amazon S3 untuk ditempatkan di wilayah yang sama. AWS 

**penting**  
Jika Anda mengimpor file CSV, pastikan file tersebut memenuhi persyaratan berikut:  
Catatan dalam kumpulan data Anda tidak boleh lebih dari satu baris.
Garis miring terbalik,`\`, adalah satu-satunya karakter pelarian yang valid.
Dataset Anda harus menggunakan salah satu pembatas berikut:  
Koma — `,`
Usus besar — `:`
Titik koma — `;`
Pipa — `|`
Tab — `[TAB]`
Untuk menghemat ruang, Anda dapat mengimpor file CSV terkompresi.

Data Wrangler memberi Anda kemampuan untuk mengimpor seluruh kumpulan data atau mengambil sampel sebagian darinya. Untuk Amazon S3, ini menyediakan opsi pengambilan sampel berikut:
+ Tidak ada - Impor seluruh dataset.
+ K Pertama - Contoh baris K pertama dari kumpulan data, di mana K adalah bilangan bulat yang Anda tentukan.
+ Acak - Mengambil sampel acak dari ukuran yang Anda tentukan.
+ Bertingkat — Mengambil sampel acak bertingkat. Sampel bertingkat mempertahankan rasio nilai dalam kolom.

Setelah mengimpor data, Anda juga dapat menggunakan transformator sampling untuk mengambil satu atau lebih sampel dari seluruh kumpulan data Anda. Untuk informasi lebih lanjut tentang transformator sampling, lihat[Pengambilan sampel](data-wrangler-transform.md#data-wrangler-transform-sampling).

Anda dapat menggunakan salah satu pengidentifikasi sumber daya berikut untuk mengimpor data Anda:
+ URI Amazon S3 yang menggunakan bucket Amazon S3 atau jalur akses Amazon S3
+ Alias jalur akses Amazon S3
+ Nama Sumber Daya Amazon (ARN) yang menggunakan jalur akses Amazon S3 atau bucket Amazon S3

Titik akses Amazon S3 diberi nama titik akhir jaringan yang dilampirkan ke bucket. Setiap titik akses memiliki izin dan kontrol jaringan yang berbeda yang dapat Anda konfigurasi. Untuk informasi selengkapnya tentang titik akses, lihat [Mengelola akses data dengan jalur akses Amazon S3](https://docs.aws.amazon.com/AmazonS3/latest/userguide/access-points.html).

**penting**  
Jika Anda menggunakan Nama Sumber Daya Amazon (ARN) untuk mengimpor data Anda, itu harus untuk sumber daya yang terletak sama dengan Wilayah AWS yang Anda gunakan untuk mengakses Amazon SageMaker Studio Classic.

Anda dapat mengimpor satu file atau beberapa file sebagai kumpulan data. Anda dapat menggunakan operasi impor multifile ketika Anda memiliki kumpulan data yang dipartisi menjadi file terpisah. Dibutuhkan semua file dari direktori Amazon S3 dan mengimpornya sebagai kumpulan data tunggal. Untuk informasi tentang jenis file yang dapat Anda impor dan cara mengimpornya, lihat bagian berikut.

------
#### [ Single File Import ]

Anda dapat mengimpor file tunggal dalam format berikut:
+ Nilai Terpisah Koma (CSV)
+ Parquet
+ Notasi Objek Javascript (JSON)
+ Kolom Baris yang Dioptimalkan (ORC)
+ Gambar - Data Wrangler menggunakan OpenCV untuk mengimpor gambar. Untuk informasi selengkapnya tentang format gambar yang didukung, lihat [Membaca dan menulis file gambar](https://docs.opencv.org/3.4/d4/da8/group__imgcodecs.html#ga288b8b3da0892bd651fce07b3bbd3a56).

Untuk file yang diformat dalam JSON, Data Wrangler mendukung kedua baris JSON (.jsonl) dan dokumen JSON (.json). Saat Anda melihat pratinjau data Anda, secara otomatis menampilkan JSON dalam format tabel. Untuk dokumen JSON bersarang yang lebih besar dari 5 MB, Data Wrangler menunjukkan skema untuk struktur dan array sebagai nilai dalam kumpulan data. Gunakan operator **array **Flatten structured** dan Explode** untuk menampilkan nilai bersarang dalam format tabel. Untuk informasi selengkapnya, lihat [Data JSON Unnest](data-wrangler-transform.md#data-wrangler-transform-flatten-column) dan [Meledak Array](data-wrangler-transform.md#data-wrangler-transform-explode-array).

Saat memilih kumpulan data, Anda dapat mengganti namanya, menentukan jenis file, dan mengidentifikasi baris pertama sebagai header.

Anda dapat mengimpor kumpulan data yang telah dipartisi menjadi beberapa file di bucket Amazon S3 dalam satu langkah impor.

**Untuk mengimpor dataset ke Data Wrangler dari satu file yang telah Anda simpan di Amazon S3:**

1. Jika saat ini Anda tidak berada di tab **Impor**, pilih **Impor**.

1. Di bawah **Tersedia**, pilih **Amazon S3**.

1. Dari **Impor tabular, gambar, atau data deret waktu dari S3**, lakukan salah satu hal berikut:
   + Pilih bucket Amazon S3 dari tampilan tabular dan navigasikan ke file yang Anda impor.
   + **Untuk **sumber S3**, tentukan bucket Amazon S3 atau URI Amazon S3 dan pilih Go.** Amazon S3 URIs dapat dalam salah satu format berikut:
     + `s3://amzn-s3-demo-bucket/example-prefix/example-file`
     + *example-access-point*- *aqfqprnstn7aefdfbarligizwgyfouse1a* -s3alias/dataset/*example-file*
     + `s3://arn:aws:s3:AWS-Region:111122223333:accesspoint/example-prefix/example-file`

1. Pilih kumpulan data untuk membuka panel **Pengaturan impor**.

1. Jika file CSV Anda memiliki header, pilih kotak centang di sebelah **Tambahkan header ke tabel**.

1. Gunakan tabel **Pratinjau** untuk melihat pratinjau kumpulan data Anda. Tabel ini menunjukkan hingga 100 baris. 

1. Di panel **Detail**, verifikasi atau ubah **Nama** dan **Jenis File** untuk kumpulan data Anda. Jika Anda menambahkan **Nama** yang berisi spasi, spasi ini akan diganti dengan garis bawah saat dataset Anda diimpor. 

1. Tentukan konfigurasi sampling yang ingin Anda gunakan. 

1. Pilih **Impor**.

------
#### [ Multifile Import ]

Berikut ini adalah persyaratan untuk mengimpor beberapa file:
+ File harus berada di folder yang sama dengan bucket Amazon S3 Anda.
+ File harus berbagi header yang sama atau tidak memiliki header.

Setiap file harus dalam salah satu format berikut:
+ CSV
+ Parquet
+ Kolom Baris yang Dioptimalkan (ORC)
+ Gambar - Data Wrangler menggunakan OpenCV untuk mengimpor gambar. Untuk informasi selengkapnya tentang format gambar yang didukung, lihat [Membaca dan menulis file gambar](https://docs.opencv.org/3.4/d4/da8/group__imgcodecs.html#ga288b8b3da0892bd651fce07b3bbd3a56).

Gunakan prosedur berikut untuk mengimpor beberapa file.

**Untuk mengimpor dataset ke Data Wrangler dari beberapa file yang telah disimpan di direktori Amazon S3**

1. Jika saat ini Anda tidak berada di tab **Impor**, pilih **Impor**.

1. Di bawah **Tersedia**, pilih **Amazon S3**.

1. Dari **Impor tabular, gambar, atau data deret waktu dari S3**, lakukan salah satu hal berikut:
   + Pilih bucket Amazon S3 dari tampilan tabular dan navigasikan ke folder yang berisi file yang Anda impor.
   + **Untuk **sumber S3**, tentukan bucket Amazon S3 atau URI Amazon S3 dengan file Anda, lalu pilih Go.** Berikut ini valid URIs:
     + `s3://amzn-s3-demo-bucket/example-prefix/example-prefix`
     + `example-access-point-aqfqprnstn7aefdfbarligizwgyfouse1a-s3alias/example-prefix/`
     + `s3://arn:aws:s3:AWS-Region:111122223333:accesspoint/example-prefix`

1. Pilih folder yang berisi file yang ingin Anda impor. Setiap file harus dalam salah satu format yang didukung. File Anda harus memiliki tipe data yang sama.

1. Jika folder Anda berisi file CSV dengan header, pilih kotak centang di sebelah **Baris pertama** adalah header.

1. Jika file Anda bersarang di dalam folder lain, pilih kotak centang di samping **Sertakan direktori bersarang**.

1. (Opsional) Pilih **Tambahkan kolom nama file** tambahkan kolom ke kumpulan data yang menunjukkan nama file untuk setiap pengamatan.

1. (Opsional) Secara default, Data Wrangler tidak menampilkan pratinjau folder. Anda dapat mengaktifkan pratinjau dengan memilih tombol **mati Pratinjau** biru. Pratinjau menunjukkan 10 baris pertama dari 10 file pertama di folder.

1. Di panel **Detail**, verifikasi atau ubah **Nama** dan **Jenis File** untuk kumpulan data Anda. Jika Anda menambahkan **Nama** yang berisi spasi, spasi ini akan diganti dengan garis bawah saat dataset Anda diimpor. 

1. Tentukan konfigurasi sampling yang ingin Anda gunakan. 

1. Pilih **Impor dataset**.

------

Anda juga dapat menggunakan parameter untuk mengimpor subset file yang cocok dengan pola. Parameter membantu Anda memilih file yang Anda impor secara lebih selektif. Untuk mulai menggunakan parameter, edit sumber data dan terapkan ke jalur yang Anda gunakan untuk mengimpor data. Untuk informasi selengkapnya, lihat [Menggunakan Kembali Alur Data untuk Kumpulan Data yang Berbeda](data-wrangler-parameterize.md).

## Impor data dari Athena
<a name="data-wrangler-import-athena"></a>

Gunakan Amazon Athena untuk mengimpor data Anda dari Amazon Simple Storage Service (Amazon S3) ke Data Wrangler. Di Athena, Anda menulis kueri SQL standar untuk memilih data yang Anda impor dari Amazon S3. Untuk informasi lebih lanjut, lihat [Apa itu Amazon Athena?](https://docs.aws.amazon.com/athena/latest/ug/what-is.html)

Anda dapat menggunakan Konsol Manajemen AWS untuk mengatur Amazon Athena. Anda harus membuat setidaknya satu database di Athena sebelum Anda mulai menjalankan kueri. Untuk informasi lebih lanjut tentang memulai dengan Athena, lihat [Memulai](https://docs.aws.amazon.com/athena/latest/ug/getting-started.html).

Athena terintegrasi langsung dengan Data Wrangler. Anda dapat menulis kueri Athena tanpa harus meninggalkan UI Data Wrangler.

Selain menulis kueri Athena sederhana di Data Wrangler, Anda juga dapat menggunakan:
+ Kelompok kerja Athena untuk manajemen hasil kueri. Untuk informasi selengkapnya tentang kelompok kerja, lihat[Mengelola hasil kueri](#data-wrangler-import-manage-results).
+ Konfigurasi siklus hidup untuk menyetel periode retensi data. Untuk informasi selengkapnya tentang retensi data, lihat[Mengatur periode retensi data](#data-wrangler-import-athena-retention).

### Pertanyaan Athena dalam Data Wrangler
<a name="data-wrangler-import-athena-query"></a>

**catatan**  
Data Wrangler tidak mendukung kueri federasi.

Jika Anda menggunakan AWS Lake Formation Athena, pastikan izin IAM Lake Formation Anda tidak mengganti izin IAM untuk database. `sagemaker_data_wrangler`

Data Wrangler memberi Anda kemampuan untuk mengimpor seluruh kumpulan data atau mengambil sampel sebagian darinya. Untuk Athena, ini menyediakan opsi pengambilan sampel berikut:
+ Tidak ada - Impor seluruh dataset.
+ K Pertama - Contoh baris K pertama dari kumpulan data, di mana K adalah bilangan bulat yang Anda tentukan.
+ Acak - Mengambil sampel acak dari ukuran yang Anda tentukan.
+ Bertingkat — Mengambil sampel acak bertingkat. Sampel bertingkat mempertahankan rasio nilai dalam kolom.

Prosedur berikut menunjukkan cara mengimpor dataset dari Athena ke Data Wrangler.

**Untuk mengimpor dataset ke Data Wrangler dari Athena**

1. Masuk ke [Amazon SageMaker AI Console](https://console.aws.amazon.com/sagemaker).

1. Pilih **Studio**.

1. Pilih **Luncurkan aplikasi**.

1. **Dari daftar dropdown, pilih Studio.**

1. Pilih ikon Beranda.

1. Pilih **Data**.

1. Pilih **Data Wrangler**.

1. Pilih **Impor data**.

1. Di bawah **Tersedia**, pilih **Amazon Athena**.

1. Untuk **Katalog Data**, pilih katalog data.

1. Gunakan daftar dropdown **Database** untuk memilih database yang ingin Anda kueri. Ketika Anda memilih database, Anda dapat melihat pratinjau semua tabel dalam database Anda menggunakan **Tabel** yang tercantum di bawah **Detail**.

1. (Opsional) Pilih **Konfigurasi lanjutan**.

   1. Pilih **Workgroup**.

   1. Jika grup kerja Anda belum menerapkan lokasi keluaran Amazon S3 atau jika Anda tidak menggunakan grup kerja, tentukan nilai untuk lokasi hasil kueri Amazon **S3**.

   1. (Opsional) Untuk **periode penyimpanan data**, pilih kotak centang untuk mengatur periode penyimpanan data dan tentukan jumlah hari untuk menyimpan data sebelum dihapus.

   1. (Opsional) Secara default, Data Wrangler menyimpan koneksi. Anda dapat memilih untuk membatalkan pilihan kotak centang dan tidak menyimpan koneksi.

1. Untuk **Sampling**, pilih metode pengambilan sampel. Pilih **Tidak Ada** untuk mematikan pengambilan sampel.

1. Masukkan kueri Anda di editor kueri dan gunakan tombol **Jalankan** untuk menjalankan kueri. Setelah kueri berhasil, Anda dapat melihat pratinjau hasil Anda di bawah editor.
**catatan**  
Data Salesforce menggunakan tipe. `timestamptz` Jika Anda menanyakan kolom stempel waktu yang telah Anda impor ke Athena dari Salesforce, transmisikan data di kolom ke jenisnya. `timestamp` Kueri berikut melemparkan kolom stempel waktu ke jenis yang benar.  

   ```
   # cast column timestamptz_col as timestamp type, and name it as timestamp_col
   select cast(timestamptz_col as timestamp) as timestamp_col from table
   ```

1. Untuk mengimpor hasil kueri Anda, pilih **Impor**.

Setelah Anda menyelesaikan prosedur sebelumnya, kumpulan data yang Anda kueri dan impor akan muncul di alur Data Wrangler.

Secara default, Data Wrangler menyimpan pengaturan koneksi sebagai koneksi baru. Saat Anda mengimpor data, kueri yang telah Anda tentukan akan muncul sebagai koneksi baru. Koneksi tersimpan menyimpan informasi tentang workgroup Athena dan bucket Amazon S3 yang Anda gunakan. Saat Anda menghubungkan ke sumber data lagi, Anda dapat memilih koneksi yang disimpan.

### Mengelola hasil kueri
<a name="data-wrangler-import-manage-results"></a>

Data Wrangler mendukung penggunaan workgroup Athena untuk mengelola hasil kueri dalam akun. AWS Anda dapat menentukan lokasi keluaran Amazon S3 untuk setiap workgroup. Anda juga dapat menentukan apakah output kueri dapat masuk ke lokasi Amazon S3 yang berbeda. Untuk informasi selengkapnya, lihat [Menggunakan Grup Kerja untuk Mengontrol Akses dan Biaya Kueri](https://docs.aws.amazon.com/athena/latest/ug/manage-queries-control-costs-with-workgroups.html).

Workgroup Anda mungkin dikonfigurasi untuk menerapkan lokasi keluaran kueri Amazon S3. Anda tidak dapat mengubah lokasi keluaran hasil kueri untuk kelompok kerja tersebut.

Jika Anda tidak menggunakan grup kerja atau menentukan lokasi keluaran untuk kueri, Data Wrangler menggunakan bucket Amazon S3 default di AWS Wilayah yang sama tempat instance Studio Classic Anda berada untuk menyimpan hasil kueri Athena. Ini membuat tabel sementara dalam database ini untuk memindahkan output kueri ke bucket Amazon S3 ini. Ini menghapus tabel ini setelah data telah diimpor; Namun database,`sagemaker_data_wrangler`, tetap ada. Untuk mempelajari selengkapnya, lihat [Penyimpanan Data yang Diimpor](#data-wrangler-import-storage).

Untuk menggunakan workgroup Athena, siapkan kebijakan IAM yang memberikan akses ke workgroup. Jika Anda menggunakan a`SageMaker AI-Execution-Role`, sebaiknya tambahkan kebijakan ke peran tersebut. Untuk informasi selengkapnya tentang kebijakan IAM untuk grup kerja, lihat [kebijakan IAM untuk](https://docs.aws.amazon.com/athena/latest/ug/workgroups-iam-policy.html) mengakses grup kerja. Misalnya kebijakan grup kerja, lihat Kebijakan [contoh Workgroup](https://docs.aws.amazon.com/athena/latest/ug/example-policies-workgroup.html).

### Mengatur periode retensi data
<a name="data-wrangler-import-athena-retention"></a>

Data Wrangler secara otomatis menetapkan periode retensi data untuk hasil kueri. Hasilnya dihapus setelah lamanya periode retensi. Misalnya, periode retensi default adalah lima hari. Hasil kueri dihapus setelah lima hari. Konfigurasi ini dirancang untuk membantu Anda membersihkan data yang tidak lagi Anda gunakan. Membersihkan data Anda mencegah pengguna yang tidak sah mendapatkan akses. Ini juga membantu mengontrol biaya penyimpanan data Anda di Amazon S3.

Jika Anda tidak menyetel periode retensi, konfigurasi siklus hidup Amazon S3 menentukan durasi penyimpanan objek. Kebijakan penyimpanan data yang telah Anda tentukan untuk konfigurasi siklus hidup menghapus hasil kueri yang lebih lama dari konfigurasi siklus hidup yang telah Anda tentukan. Untuk informasi selengkapnya, lihat [Menyetel konfigurasi siklus hidup pada bucket](https://docs.aws.amazon.com/AmazonS3/latest/userguide/how-to-set-lifecycle-configuration-intro.html).

Data Wrangler menggunakan konfigurasi siklus hidup Amazon S3 untuk mengelola retensi dan kedaluwarsa data. Anda harus memberikan izin peran eksekusi Amazon SageMaker Studio Classic IAM untuk mengelola konfigurasi siklus hidup bucket. Gunakan prosedur berikut untuk memberikan izin.

Untuk memberikan izin untuk mengelola konfigurasi siklus hidup lakukan hal berikut.

1. Masuk ke Konsol Manajemen AWS dan buka konsol IAM di [https://console.aws.amazon.com/iam/](https://console.aws.amazon.com/iam/).

1. Pilih **Peran**.

1. Di bilah pencarian, tentukan peran eksekusi Amazon SageMaker AI yang digunakan Amazon SageMaker Studio Classic.

1. Pilih peran.

1. Pilih **Tambahkan izin**.

1. Pilih **Buat kebijakan sebaris**.

1. Untuk **Layanan**, tentukan **S3** dan pilih.

1. Di bawah bagian **Baca**, pilih **GetLifecycleConfiguration**.

1. Di bawah bagian **Tulis**, pilih **PutLifecycleConfiguration**.

1. Untuk **Sumber daya**, pilih **Spesifik**.

1. Untuk **Tindakan**, pilih ikon panah di sebelah **Manajemen izin**.

1. Pilih **PutResourcePolicy**.

1. Untuk **Sumber daya**, pilih **Spesifik**.

1. Pilih kotak centang di sebelah **Apa saja di akun ini**.

1. Pilih **Tinjau kebijakan**.

1. Untuk **Nama**, tentukan nama.

1. Pilih **Buat kebijakan**.

## Impor data dari Amazon Redshift
<a name="data-wrangler-import-redshift"></a>

Amazon Redshift adalah layanan gudang data dengan skala petabyte yang terkelola penuh di cloud. Langkah pertama untuk membuat gudang data adalah meluncurkan satu set node, yang disebut cluster Amazon Redshift. Setelah menyediakan klaster, Anda dapat mengunggah kumpulan data dan kemudian melakukan kueri analisis data. 

Anda dapat terhubung ke dan menanyakan satu atau beberapa cluster Amazon Redshift di Data Wrangler. Untuk menggunakan opsi impor ini, Anda harus membuat setidaknya satu cluster di Amazon Redshift. Untuk mempelajari caranya, lihat [Memulai Amazon Redshift](https://docs.aws.amazon.com/redshift/latest/gsg/getting-started.html).

Anda dapat menampilkan hasil kueri Amazon Redshift Anda di salah satu lokasi berikut:
+ Bucket Amazon S3 default
+ Lokasi keluaran Amazon S3 yang Anda tentukan

Anda dapat mengimpor seluruh kumpulan data atau mengambil sampel sebagian darinya. Untuk Amazon Redshift, ini menyediakan opsi pengambilan sampel berikut:
+ Tidak ada - Impor seluruh dataset.
+ K Pertama - Contoh baris K pertama dari kumpulan data, di mana K adalah bilangan bulat yang Anda tentukan.
+ Acak - Mengambil sampel acak dari ukuran yang Anda tentukan.
+ Bertingkat — Mengambil sampel acak bertingkat. Sampel bertingkat mempertahankan rasio nilai dalam kolom.

Bucket Amazon S3 default berada di AWS Wilayah yang sama tempat instans Studio Classic Anda berada untuk menyimpan hasil kueri Amazon Redshift. Untuk informasi selengkapnya, lihat [Penyimpanan Data yang Diimpor](#data-wrangler-import-storage).

Untuk bucket Amazon S3 default atau bucket yang Anda tentukan, Anda memiliki opsi enkripsi berikut:
+ Enkripsi AWS sisi layanan default dengan kunci terkelola Amazon S3 (SSE-S3)
+  Kunci AWS Key Management Service (AWS KMS) yang Anda tentukan

 AWS KMS Kunci adalah kunci enkripsi yang Anda buat dan kelola. Untuk informasi lebih lanjut tentang kunci KMS, lihat [AWS Key Management Service](https://docs.aws.amazon.com//kms/latest/developerguide/overview.html).

Anda dapat menentukan AWS KMS kunci menggunakan kunci ARN atau ARN akun Anda. AWS 

Jika Anda menggunakan kebijakan terkelola IAM`AmazonSageMakerFullAccess`, untuk memberikan izin peran untuk menggunakan Data Wrangler di Studio Classic, nama **Pengguna Database** Anda harus memiliki awalan. `sagemaker_access`

Gunakan prosedur berikut untuk mempelajari cara menambahkan cluster baru. 

**catatan**  
Data Wrangler menggunakan Amazon Redshift Data API dengan kredensi sementara. Untuk mempelajari lebih lanjut tentang API ini, lihat [Menggunakan API Data Amazon Redshift](https://docs.aws.amazon.com//redshift/latest/mgmt/data-api.html) di Panduan Manajemen Pergeseran Merah Amazon. 

**Untuk terhubung ke cluster Amazon Redshift**

1. Masuk ke [Amazon SageMaker AI Console](https://console.aws.amazon.com/sagemaker).

1. Pilih **Studio**.

1. Pilih **Luncurkan aplikasi**.

1. **Dari daftar dropdown, pilih Studio.**

1. Pilih ikon Beranda.

1. Pilih **Data**.

1. Pilih **Data Wrangler**.

1. Pilih **Impor data**.

1. Di bawah **Tersedia**, pilih **Amazon Athena**.

1. Pilih **Amazon Redshift**.

1. **Pilih **Temporary credentials (IAM)** untuk Type.**

1. Masukkan **Nama Koneksi**. Ini adalah nama yang digunakan oleh Data Wrangler untuk mengidentifikasi koneksi ini. 

1. Masukkan **Cluster Identifier** untuk menentukan cluster mana yang ingin Anda sambungkan. Catatan: Masukkan hanya pengidentifikasi klaster dan bukan titik akhir penuh klaster Amazon Redshift.

1. Masukkan **Nama Database** dari database yang ingin Anda sambungkan.

1. Masukkan **Pengguna Database** untuk mengidentifikasi pengguna yang ingin Anda gunakan untuk terhubung ke database. 

1. Untuk **UNLOAD IAM Role**, masukkan ARN peran IAM dari peran yang harus diasumsikan oleh cluster Amazon Redshift untuk memindahkan dan menulis data ke Amazon S3. Untuk informasi selengkapnya tentang peran ini, lihat [Mengotorisasi Amazon Redshift untuk mengakses layanan AWS lain atas nama Anda di](https://docs.aws.amazon.com/redshift/latest/mgmt/authorizing-redshift-service.html) Panduan Manajemen Amazon Redshift. 

1. Pilih **Hubungkan**.

1. (Opsional) Untuk **lokasi keluaran Amazon S3**, tentukan URI S3 untuk menyimpan hasil kueri.

1. (Opsional) Untuk **ID kunci KMS**, tentukan ARN kunci atau AWS KMS alias. Gambar berikut menunjukkan di mana Anda dapat menemukan salah satu kunci di Konsol Manajemen AWS.  
![\[Lokasi alias ARN, nama AWS KMS alias, dan kunci ARN di konsol. AWS KMS\]](http://docs.aws.amazon.com/id_id/sagemaker/latest/dg/images/studio/mohave/kms-alias-redacted.png)

Gambar berikut menunjukkan semua bidang dari prosedur sebelumnya.

![\[Panel koneksi Add Amazon Redshift.\]](http://docs.aws.amazon.com/id_id/sagemaker/latest/dg/images/studio/mohave/redshift-connection.png)


Setelah koneksi Anda berhasil dibuat, itu muncul sebagai sumber data di bawah **Impor Data**. Pilih sumber data ini untuk menanyakan database Anda dan mengimpor data.

**Untuk kueri dan impor data dari Amazon Redshift**

1. Pilih koneksi yang ingin Anda kueri dari **Sumber Data**.

1. Pilih **Skema**. Untuk mempelajari selengkapnya tentang Skema Amazon Redshift, lihat Skema di Panduan Pengembang [Database](https://docs.aws.amazon.com/redshift/latest/dg/r_Schemas_and_tables.html) Amazon Redshift.

1. (Opsional) Di bawah **Konfigurasi lanjutan**, tentukan metode **Sampling** yang ingin Anda gunakan.

1. Masukkan kueri Anda di editor kueri dan pilih **Jalankan** untuk menjalankan kueri. Setelah kueri berhasil, Anda dapat melihat pratinjau hasil Anda di bawah editor.

1. Pilih **Impor dataset** untuk mengimpor dataset yang telah ditanyakan. 

1. Masukkan **nama Dataset**. Jika Anda menambahkan **nama Dataset** yang berisi spasi, spasi ini akan diganti dengan garis bawah saat dataset Anda diimpor. 

1. Pilih **Tambahkan**.

Untuk mengedit kumpulan data, lakukan hal berikut.

1. Arahkan ke alur Data Wrangler Anda.

1. Pilih \$1 di sebelah **Sumber - Sampel**.

1. Ubah data yang Anda impor.

1. Pilih **Terapkan**

## Impor data dari Amazon EMR
<a name="data-wrangler-emr"></a>

Anda dapat menggunakan Amazon EMR sebagai sumber data untuk aliran Amazon SageMaker Data Wrangler Anda. Amazon EMR adalah platform cluster terkelola yang dapat Anda gunakan untuk memproses dan menganalisis data dalam jumlah besar. Untuk informasi selengkapnya tentang Amazon EMR, lihat [Apa itu Amazon EMR](https://docs.aws.amazon.com/emr/latest/ManagementGuide/emr-what-is-emr.html)? . Untuk mengimpor dataset dari EMR, Anda menghubungkannya dan menanyakannya. 

**penting**  
Anda harus memenuhi prasyarat berikut untuk terhubung ke cluster EMR Amazon:  
Anda memiliki VPC Amazon di Wilayah yang Anda gunakan untuk meluncurkan Amazon SageMaker Studio Classic dan Amazon EMR.
Baik Amazon EMR dan Amazon SageMaker Studio Classic harus diluncurkan dalam subnet pribadi. Mereka bisa berada di subnet yang sama atau di subnet yang berbeda.
Amazon SageMaker Studio Classic harus dalam mode VPC saja.  
Untuk informasi selengkapnya tentang membuat VPC, lihat [Membuat VPC](https://docs.aws.amazon.com/vpc/latest/userguide/working-with-vpcs.html#Create-VPC).  
Untuk informasi selengkapnya tentang membuat VPC, lihat [Connect SageMaker Studio Classic Notebook di VPC ke Sumber](https://docs.aws.amazon.com/vpc/latest/userguide/studio-notebooks-and-internet-access.html) Daya Eksternal.
Cluster EMR Amazon yang Anda jalankan harus berada di VPC Amazon yang sama.
Cluster EMR Amazon dan VPC Amazon harus berada di akun yang sama. AWS 
Cluster EMR Amazon Anda menjalankan Hive atau Presto.  
Kluster sarang harus mengizinkan lalu lintas masuk dari grup keamanan Studio Classic di port 10000.
Cluster Presto harus mengizinkan lalu lintas masuk dari grup keamanan Studio Classic di port 8889.  
Nomor port berbeda untuk cluster EMR Amazon yang menggunakan peran IAM. Arahkan ke akhir bagian prasyarat untuk informasi lebih lanjut.
Amazon SageMaker Studio Classic harus menjalankan Jupyter Lab Versi 3. Untuk informasi tentang memperbarui Versi Lab Jupyter, lihat. [Lihat dan perbarui JupyterLab versi aplikasi dari konsol](studio-jl.md#studio-jl-view)
Amazon SageMaker Studio Classic memiliki peran IAM yang mengontrol akses pengguna. Peran IAM default yang Anda gunakan untuk menjalankan Amazon SageMaker Studio Classic tidak memiliki kebijakan yang dapat memberi Anda akses ke kluster EMR Amazon. Anda harus melampirkan izin pemberian kebijakan ke peran IAM. Untuk informasi selengkapnya, lihat [Konfigurasikan daftar kluster EMR Amazon](studio-notebooks-configure-discoverability-emr-cluster.md).
Peran IAM juga harus memiliki kebijakan berikut terlampir`secretsmanager:PutResourcePolicy`.
Jika Anda menggunakan domain Studio Classic yang telah Anda buat, pastikan domain tersebut dalam `AppNetworkAccessType` mode khusus VPC. Untuk informasi tentang memperbarui domain agar menggunakan mode khusus VPC, lihat. [Matikan dan Perbarui Amazon SageMaker Studio Classic](studio-tasks-update-studio.md)
Anda harus menginstal Hive atau Presto di cluster Anda.
Rilis Amazon EMR harus versi 5.5.0 atau yang lebih baru.  
Amazon EMR mendukung penghentian otomatis. Penghentian otomatis menghentikan cluster idle agar tidak berjalan dan mencegah Anda mengeluarkan biaya. Berikut ini adalah rilis yang mendukung penghentian otomatis:  
Untuk rilis 6.x, versi 6.1.0 atau yang lebih baru.
Untuk rilis 5.x, versi 5.30.0 atau yang lebih baru.
Gunakan halaman berikut untuk menyiapkan peran runtime IAM untuk klaster EMR Amazon. Anda harus mengaktifkan enkripsi dalam transit saat menggunakan peran runtime:  
[Prasyarat untuk meluncurkan cluster EMR Amazon dengan peran runtime](https://docs.aws.amazon.com/emr/latest/ManagementGuide/emr-steps-runtime-roles.html#emr-steps-runtime-roles-configure)
[Luncurkan kluster EMR Amazon dengan kontrol akses berbasis peran](https://docs.aws.amazon.com/emr/latest/ManagementGuide/emr-steps-runtime-roles.html#emr-steps-runtime-roles-launch)
Anda harus Lake Formation sebagai alat tata kelola untuk data dalam database Anda. Anda juga harus menggunakan pemfilteran data eksternal untuk kontrol akses.  
Untuk informasi lebih lanjut tentang Lake Formation, lihat [Apa itu AWS Lake Formation?](https://docs.aws.amazon.com/lake-formation/latest/dg/what-is-lake-formation.html)
Untuk informasi selengkapnya tentang mengintegrasikan Lake Formation ke Amazon EMR, [lihat Mengintegrasikan layanan pihak ketiga dengan Lake](https://docs.aws.amazon.com/lake-formation/latest/dg/Integrating-with-LakeFormation.html) Formation.
Versi cluster Anda harus 6.9.0 atau yang lebih baru.
Akses ke AWS Secrets Manager. Untuk informasi selengkapnya tentang Secrets Manager lihat [Apa itu AWS Secrets Manager?](https://docs.aws.amazon.com/secretsmanager/latest/userguide/intro.html)
Kluster sarang harus mengizinkan lalu lintas masuk dari grup keamanan Studio Classic di port 10000.

VPC Amazon adalah jaringan virtual yang secara logis terisolasi dari jaringan lain di cloud. AWS Amazon SageMaker Studio Classic dan kluster EMR Amazon Anda hanya ada di dalam VPC Amazon.

Gunakan prosedur berikut untuk meluncurkan Amazon SageMaker Studio Classic di Amazon VPC.

Untuk meluncurkan Studio Classic dalam VPC, lakukan hal berikut.

1. Arahkan ke konsol SageMaker AI di [https://console.aws.amazon.com/sagemaker/](https://console.aws.amazon.com/sagemaker/).

1. Pilih **Launch SageMaker Studio Classic**.

1. Pilih **Pengaturan standar**.

1. Untuk **peran eksekusi default**, pilih peran IAM untuk menyiapkan Studio Classic.

1. Pilih VPC tempat Anda meluncurkan kluster EMR Amazon.

1. Untuk **Subnet**, pilih subnet pribadi.

1. Untuk **grup Keamanan**, tentukan grup keamanan yang Anda gunakan untuk mengontrol antara VPC Anda.

1. Pilih **VPC Saja**.

1. (Opsional) AWS menggunakan kunci enkripsi default. Anda dapat menentukan AWS Key Management Service kunci untuk mengenkripsi data Anda.

1. Pilih **Berikutnya**.

1. Di bawah **Pengaturan Studio**, pilih konfigurasi yang paling cocok untuk Anda.

1. Pilih **Berikutnya** untuk melewati pengaturan SageMaker Canvas.

1. Pilih **Berikutnya** untuk melewati RStudio pengaturan.

Jika Anda tidak memiliki kluster EMR Amazon yang siap, Anda dapat menggunakan prosedur berikut untuk membuatnya. Untuk informasi selengkapnya tentang Amazon EMR, lihat [Apa itu Amazon EMR](https://docs.aws.amazon.com/emr/latest/ManagementGuide/emr-what-is-emr.html)?

Untuk membuat cluster, lakukan hal berikut.

1. Arahkan ke Konsol Manajemen AWS.

1. Di bilah pencarian, tentukan**Amazon EMR**.

1. Pilih **Buat klaster**.

1. Untuk **nama Cluster**, tentukan nama cluster Anda.

1. Untuk **Rilis**, pilih versi rilis cluster.
**catatan**  
Amazon EMR mendukung penghentian otomatis untuk rilis berikut:  
Untuk rilis 6.x, rilis 6.1.0 atau yang lebih baru
Untuk rilis 5.x, rilis 5.30.0 atau yang lebih baru
Penghentian otomatis menghentikan cluster idle agar tidak berjalan dan mencegah Anda mengeluarkan biaya.

1. (Opsional) Untuk **Aplikasi**, pilih **Presto**.

1. Pilih aplikasi yang Anda jalankan di cluster.

1. Di bawah **Jaringan**, untuk **konfigurasi Perangkat Keras**, tentukan pengaturan konfigurasi perangkat keras.
**penting**  
Untuk **Networking**, pilih VPC yang menjalankan Amazon SageMaker Studio Classic dan pilih subnet pribadi.

1. Di bawah **Keamanan dan akses**, tentukan pengaturan keamanan.

1. Pilih **Buat**.

Untuk tutorial tentang membuat klaster EMR Amazon, lihat [Memulai Amazon EMR](https://docs.aws.amazon.com/emr/latest/ManagementGuide/emr-gs.html). Untuk informasi tentang praktik terbaik untuk mengonfigurasi klaster, lihat [Pertimbangan dan praktik terbaik](https://docs.aws.amazon.com/emr/latest/ManagementGuide/emr-plan-ha-considerations.html).

**catatan**  
Untuk praktik terbaik keamanan, Data Wrangler hanya dapat terhubung ke subnet VPCs pribadi. Anda tidak dapat terhubung ke node master kecuali Anda menggunakan AWS Systems Manager untuk instans EMR Amazon Anda. Untuk informasi selengkapnya, lihat [Mengamankan akses ke kluster EMR menggunakan](https://aws.amazon.com/blogs/big-data/securing-access-to-emr-clusters-using-aws-systems-manager/). AWS Systems Manager

Saat ini Anda dapat menggunakan metode berikut untuk mengakses kluster EMR Amazon:
+ Tidak ada otentikasi
+ Protokol Akses Direktori Ringan (LDAP)
+ IAM (Peran runtime)

Tidak menggunakan autentikasi atau menggunakan LDAP dapat mengharuskan Anda membuat beberapa cluster dan profil instans Amazon EC2. Jika Anda seorang administrator, Anda mungkin perlu menyediakan grup pengguna dengan tingkat akses yang berbeda ke data. Metode ini dapat menghasilkan overhead administratif yang membuatnya lebih sulit untuk mengelola pengguna Anda.

Sebaiknya gunakan peran runtime IAM yang memberi banyak pengguna kemampuan untuk terhubung ke cluster EMR Amazon yang sama. Peran runtime adalah peran IAM yang dapat Anda tetapkan ke pengguna yang terhubung ke kluster EMR Amazon. Anda dapat mengonfigurasi peran IAM runtime agar memiliki izin yang khusus untuk setiap grup pengguna.

Gunakan bagian berikut untuk membuat cluster EMR Presto atau Hive Amazon dengan LDAP diaktifkan.

------
#### [ Presto ]

**penting**  
Untuk digunakan AWS Glue sebagai metastore untuk tabel Presto, pilih **Gunakan** **metadata tabel Presto** untuk menyimpan hasil kueri EMR Amazon Anda dalam AWS Glue katalog data saat meluncurkan klaster EMR. Menyimpan hasil kueri dalam katalog AWS Glue data dapat menyelamatkan Anda dari biaya yang dikenakan.  
Untuk menanyakan kumpulan data besar di kluster EMR Amazon, Anda harus menambahkan properti berikut ke file konfigurasi Presto di kluster EMR Amazon Anda:  

```
[{"classification":"presto-config","properties":{
"http-server.max-request-header-size":"5MB",
"http-server.max-response-header-size":"5MB"}}]
```
Anda juga dapat mengubah pengaturan konfigurasi saat meluncurkan kluster EMR Amazon.  
File konfigurasi untuk kluster EMR Amazon Anda terletak di bawah jalur berikut:. `/etc/presto/conf/config.properties`

Gunakan prosedur berikut untuk membuat cluster Presto dengan LDAP diaktifkan.

Untuk membuat cluster, lakukan hal berikut.

1. Arahkan ke Konsol Manajemen AWS.

1. Di bilah pencarian, tentukan**Amazon EMR**.

1. Pilih **Buat klaster**.

1. Untuk **nama Cluster**, tentukan nama cluster Anda.

1. Untuk **Rilis**, pilih versi rilis cluster.
**catatan**  
Amazon EMR mendukung penghentian otomatis untuk rilis berikut:  
Untuk rilis 6.x, rilis 6.1.0 atau yang lebih baru
Untuk rilis 5.x, rilis 5.30.0 atau yang lebih baru
Penghentian otomatis menghentikan cluster idle agar tidak berjalan dan mencegah Anda mengeluarkan biaya.

1. Pilih aplikasi yang Anda jalankan di cluster.

1. Di bawah **Jaringan**, untuk **konfigurasi Perangkat Keras**, tentukan pengaturan konfigurasi perangkat keras.
**penting**  
Untuk **Networking**, pilih VPC yang menjalankan Amazon SageMaker Studio Classic dan pilih subnet pribadi.

1. Di bawah **Keamanan dan akses**, tentukan pengaturan keamanan.

1. Pilih **Buat**.

------
#### [ Hive ]

**penting**  
Untuk digunakan AWS Glue sebagai metastore untuk tabel Hive, pilih **Gunakan** **metadata tabel Hive** untuk menyimpan hasil kueri EMR Amazon Anda dalam AWS Glue katalog data saat meluncurkan klaster EMR. Menyimpan hasil kueri dalam katalog AWS Glue data dapat menyelamatkan Anda dari biaya yang dikenakan.  
Untuk dapat menanyakan kumpulan data besar di kluster EMR Amazon, tambahkan properti berikut ke file konfigurasi Hive di kluster EMR Amazon Anda:  

```
[{"classification":"hive-site", "properties"
:{"hive.resultset.use.unique.column.names":"false"}}]
```
Anda juga dapat mengubah pengaturan konfigurasi saat meluncurkan kluster EMR Amazon.  
File konfigurasi untuk kluster EMR Amazon Anda terletak di bawah jalur berikut:. `/etc/hive/conf/hive-site.xml` Anda dapat menentukan properti berikut dan memulai ulang cluster:  

```
<property>
    <name>hive.resultset.use.unique.column.names</name>
    <value>false</value>
</property>
```

Gunakan prosedur berikut untuk membuat cluster Hive dengan LDAP diaktifkan.

Untuk membuat cluster Hive dengan LDAP diaktifkan, lakukan hal berikut.

1. Arahkan ke Konsol Manajemen AWS.

1. Di bilah pencarian, tentukan**Amazon EMR**.

1. Pilih **Buat klaster**.

1. Pilih **Pergi ke opsi lanjutan**.

1. Untuk **Rilis**, pilih versi rilis Amazon EMR.

1. Opsi konfigurasi **Hive** dipilih secara default. Pastikan opsi **Hive** memiliki kotak centang di sebelahnya.

1. (Opsional) Anda juga dapat memilih **Presto** sebagai opsi konfigurasi untuk mengaktifkan Hive dan Presto di cluster Anda.

1. (Opsional) Pilih **Gunakan untuk metadata tabel Hive** untuk menyimpan hasil kueri EMR Amazon Anda dalam katalog data. AWS Glue Menyimpan hasil kueri dalam AWS Glue katalog dapat menyelamatkan Anda dari biaya yang dikenakan. Untuk informasi selengkapnya, lihat [Menggunakan Katalog AWS Glue Data sebagai metastore untuk](https://docs.aws.amazon.com/emr/latest/ReleaseGuide/emr-hive-metastore-glue.html) Hive.
**catatan**  
Menyimpan hasil kueri dalam katalog data memerlukan Amazon EMR versi 5.8.0 atau yang lebih baru.

1. Di bawah **Enter konfigurasi**, tentukan JSON berikut:

   ```
   [
     {
       "classification": "hive-site",
       "properties": {
         "hive.server2.authentication.ldap.baseDN": "dc=example,dc=org",
         "hive.server2.authentication": "LDAP",
         "hive.server2.authentication.ldap.url": "ldap://ldap-server-dns-name:389"
       }
     }
   ]
   ```
**catatan**  
Sebagai praktik keamanan terbaik, sebaiknya aktifkan SSL HiveServer dengan menambahkan beberapa properti di JSON situs sarang sebelumnya. Untuk informasi selengkapnya, lihat [Mengaktifkan SSL di HiveServer 2](https://docs.cloudera.com/HDPDocuments/HDP3/HDP-3.0.1/configuring-wire-encryption/content/enable_ssl_on_hiveserver2.html).

1. Tentukan pengaturan cluster yang tersisa dan buat cluster.

------

Gunakan bagian berikut untuk menggunakan otentikasi LDAP untuk klaster EMR Amazon yang telah Anda buat.

------
#### [ LDAP for Presto ]

Menggunakan LDAP pada cluster yang menjalankan Presto memerlukan akses ke koordinator Presto melalui HTTPS. Lakukan hal berikut untuk menyediakan akses:
+ Aktifkan akses pada port 636
+ Aktifkan SSL untuk koordinator Presto

Gunakan template berikut untuk mengkonfigurasi Presto:

```
- Classification: presto-config
     ConfigurationProperties:
        http-server.authentication.type: 'PASSWORD'
        http-server.https.enabled: 'true'
        http-server.https.port: '8889'
        http-server.http.port: '8899'
        node-scheduler.include-coordinator: 'true'
        http-server.https.keystore.path: '/path/to/keystore/path/for/presto'
        http-server.https.keystore.key: 'keystore-key-password'
        discovery.uri: 'http://master-node-dns-name:8899'
- Classification: presto-password-authenticator
     ConfigurationProperties:
        password-authenticator.name: 'ldap'
        ldap.url: !Sub 'ldaps://ldap-server-dns-name:636'
        ldap.user-bind-pattern: "uid=${USER},dc=example,dc=org"
        internal-communication.authentication.ldap.user: "ldap-user-name"
        internal-communication.authentication.ldap.password: "ldap-password"
```

Untuk informasi tentang pengaturan LDAP di Presto, lihat sumber daya berikut:
+ [Otentikasi LDAP](https://prestodb.io/docs/current/security/ldap.html)
+ [Menggunakan Otentikasi LDAP untuk Presto di Amazon EMR](https://docs.aws.amazon.com/emr/latest/ReleaseGuide/emr-presto-ldap.html)

**catatan**  
Sebagai praktik keamanan terbaik, kami sarankan mengaktifkan SSL untuk Presto. Untuk informasi selengkapnya, lihat [Komunikasi Internal yang Aman](https://prestodb.io/docs/current/security/internal-communication.html).

------
#### [ LDAP for Hive ]

Untuk menggunakan LDAP for Hive untuk klaster yang telah Anda buat, gunakan prosedur berikut [Mengkonfigurasi ulang grup instans di konsol](https://docs.aws.amazon.com/emr/latest/ReleaseGuide/emr-configure-apps-running-cluster.html#emr-configure-apps-running-cluster-considerations).

Anda menentukan nama cluster yang Anda hubungkan.

```
[
  {
    "classification": "hive-site",
    "properties": {
      "hive.server2.authentication.ldap.baseDN": "dc=example,dc=org",
      "hive.server2.authentication": "LDAP",
      "hive.server2.authentication.ldap.url": "ldap://ldap-server-dns-name:389"
    }
  }
]
```

------

Gunakan prosedur berikut untuk mengimpor data dari cluster.

Untuk mengimpor data dari cluster, lakukan hal berikut.

1. Buka alur Data Wrangler.

1. Pilih **Buat Koneksi**.

1. Pilih **Amazon EMR**.

1. Lakukan salah satu dari berikut ini.
   + (Opsional) Untuk **Rahasia ARN**, tentukan Nomor Sumber Daya Amazon (ARN) database dalam cluster. Rahasia memberikan keamanan tambahan. Untuk informasi lebih lanjut tentang rahasia, lihat [Apa itu AWS Secrets Manager?](https://docs.aws.amazon.com/secretsmanager/latest/userguide/intro.html) Untuk informasi tentang membuat rahasia untuk klaster Anda, lihat[Membuat AWS Secrets Manager rahasia untuk cluster Anda](#data-wrangler-emr-secrets-manager).
**penting**  
Anda harus menentukan rahasia jika Anda menggunakan peran runtime IAM untuk otentikasi.
   + Dari tabel dropdown, pilih cluster.

1. Pilih **Berikutnya**.

1. Untuk **Pilih titik akhir untuk *example-cluster-name* cluster**, pilih mesin kueri.

1. (Opsional) Pilih **Simpan koneksi**.

1. Pilih **Berikutnya, pilih login** dan pilih salah satu dari berikut ini:
   + Tidak ada otentikasi
   + LDAP
   + IAM

1. Untuk **Login ke *example-cluster-name* cluster**, tentukan **Username** dan **Password** untuk cluster.

1. Pilih **Hubungkan**.

1. Di editor kueri tentukan kueri SQL.

1. Pilih **Jalankan**.

1. Pilih **Impor**.

### Membuat AWS Secrets Manager rahasia untuk cluster Anda
<a name="data-wrangler-emr-secrets-manager"></a>

Jika Anda menggunakan peran runtime IAM untuk mengakses klaster EMR Amazon Anda, Anda harus menyimpan kredensyal yang Anda gunakan untuk mengakses Amazon EMR sebagai rahasia Secrets Manager. Anda menyimpan semua kredensil yang Anda gunakan untuk mengakses cluster dalam rahasia.

Anda harus menyimpan informasi berikut secara rahasia:
+ Titik akhir JDBC — `jdbc:hive2://`
+ Nama DNS — Nama DNS dari kluster EMR Amazon Anda. Ini adalah titik akhir untuk node utama atau nama host.
+ Pelabuhan — `8446`

Anda juga dapat menyimpan informasi tambahan berikut dalam rahasia:
+ Peran IAM — Peran IAM yang Anda gunakan untuk mengakses cluster. Data Wrangler menggunakan peran eksekusi SageMaker AI Anda secara default.
+ Jalur Truststore - Secara default, Data Wrangler membuat jalur truststore untuk Anda. Anda juga dapat menggunakan jalur truststore Anda sendiri. Untuk informasi selengkapnya tentang jalur truststore, lihat [Enkripsi dalam transit di 2](https://docs.aws.amazon.com/emr/latest/ReleaseGuide/hs2-encryption-intransit.html). HiveServer
+ Kata sandi Truststore - Secara default, Data Wrangler membuat kata sandi truststore untuk Anda. Anda juga dapat menggunakan jalur truststore Anda sendiri. Untuk informasi selengkapnya tentang jalur truststore, lihat [Enkripsi dalam transit di 2](https://docs.aws.amazon.com/emr/latest/ReleaseGuide/hs2-encryption-intransit.html). HiveServer

Gunakan prosedur berikut untuk menyimpan kredensil dalam rahasia Secrets Manager.

Untuk menyimpan kredensil Anda sebagai rahasia, lakukan hal berikut.

1. Arahkan ke Konsol Manajemen AWS.

1. Di bilah pencarian, tentukan Secrets Manager.

1. Pilih **AWS Secrets Manager**.

1. Pilih **Simpan rahasia baru**.

1. Untuk **Tipe rahasia**, pilih **Tipe rahasia lainnya**.

1. **Di bawah pasangan **kunci/nilai**, pilih Plaintext.**

1. Untuk cluster yang menjalankan Hive, Anda dapat menggunakan template berikut untuk otentikasi IAM.

   ```
   {"jdbcURL": ""
    "iam_auth": {"endpoint": "jdbc:hive2://", #required
                   "dns": "ip-xx-x-xxx-xxx.ec2.internal", #required 
                   "port": "10000", #required
                 "cluster_id": "j-xxxxxxxxx", #required
                 "iam_role": "arn:aws:iam::xxxxxxxx:role/xxxxxxxxxxxx", #optional
                 "truststore_path": "/etc/alternatives/jre/lib/security/cacerts", #optional
                 "truststore_password": "changeit" #optional
                 
                 }}
   ```
**catatan**  
Setelah mengimpor data, Anda menerapkan transformasi ke data tersebut. Anda kemudian mengekspor data yang telah Anda ubah ke lokasi tertentu. Jika Anda menggunakan notebook Jupyter untuk mengekspor data yang diubah ke Amazon S3, Anda harus menggunakan jalur truststore yang ditentukan dalam contoh sebelumnya.

Rahasia Secrets Manager menyimpan URL JDBC dari cluster Amazon EMR sebagai rahasia. Menggunakan rahasia lebih aman daripada langsung memasukkan kredensil Anda.

Gunakan prosedur berikut untuk menyimpan URL JDBC sebagai rahasia.

Untuk menyimpan URL JDBC sebagai rahasia, lakukan hal berikut.

1. Arahkan ke Konsol Manajemen AWS.

1. Di bilah pencarian, tentukan Secrets Manager.

1. Pilih **AWS Secrets Manager**.

1. Pilih **Simpan rahasia baru**.

1. Untuk **Tipe rahasia**, pilih **Tipe rahasia lainnya**.

1. Untuk **pasangan kunci/nilai**, tentukan `jdbcURL` sebagai kunci dan URL JDBC yang valid sebagai nilainya.

   Format URL JDBC yang valid tergantung pada apakah Anda menggunakan otentikasi dan apakah Anda menggunakan Hive atau Presto sebagai mesin kueri. Daftar berikut menunjukkan format URL JBDC yang valid untuk berbagai kemungkinan konfigurasi.
   + Sarang, tidak ada otentikasi - `jdbc:hive2://emr-cluster-master-public-dns:10000/;`
   + Hive, otentikasi LDAP - `jdbc:hive2://emr-cluster-master-public-dns-name:10000/;AuthMech=3;UID=david;PWD=welcome123;`
   + Untuk Hive dengan SSL diaktifkan, format URL JDBC tergantung pada apakah Anda menggunakan File Keystore Java untuk konfigurasi TLS. File Keystore Java membantu memverifikasi identitas simpul master cluster EMR Amazon. Untuk menggunakan File Keystore Java, buat di cluster EMR dan unggah ke Data Wrangler. Untuk menghasilkan file, gunakan perintah berikut di cluster EMR Amazon,. `keytool -genkey -alias hive -keyalg RSA -keysize 1024 -keystore hive.jks` Untuk informasi tentang menjalankan perintah di klaster EMR Amazon, lihat [Mengamankan akses ke kluster EMR](https://aws.amazon.com/blogs/big-data/securing-access-to-emr-clusters-using-aws-systems-manager/) menggunakan. AWS Systems Manager Untuk mengunggah file, pilih panah ke atas pada navigasi sebelah kiri UI Data Wrangler.

     Berikut ini adalah format URL JDBC yang valid untuk Hive dengan SSL diaktifkan:
     + Tanpa File Keystore Java - `jdbc:hive2://emr-cluster-master-public-dns:10000/;AuthMech=3;UID=user-name;PWD=password;SSL=1;AllowSelfSignedCerts=1;`
     + Dengan File Keystore Java - `jdbc:hive2://emr-cluster-master-public-dns:10000/;AuthMech=3;UID=user-name;PWD=password;SSL=1;SSLKeyStore=/home/sagemaker-user/data/Java-keystore-file-name;SSLKeyStorePwd=Java-keystore-file-passsword;`
   + Presto, tidak ada otentikasi — jdbc:presto: //:8889/; *emr-cluster-master-public-dns*
   + Untuk Presto dengan otentikasi LDAP dan SSL diaktifkan, format URL JDBC tergantung pada apakah Anda menggunakan File Keystore Java untuk konfigurasi TLS. File Keystore Java membantu memverifikasi identitas simpul master cluster EMR Amazon. Untuk menggunakan File Keystore Java, buat di cluster EMR dan unggah ke Data Wrangler. Untuk mengunggah file, pilih panah ke atas pada navigasi sebelah kiri UI Data Wrangler. Untuk informasi tentang membuat File Keystore Java untuk Presto, lihat File [Keystore Java](https://prestodb.io/docs/current/security/tls.html#server-java-keystore) untuk TLS. Untuk informasi tentang menjalankan perintah di klaster EMR Amazon, lihat [Mengamankan akses ke kluster EMR](https://aws.amazon.com/blogs/big-data/securing-access-to-emr-clusters-using-aws-systems-manager/) menggunakan. AWS Systems Manager
     + Tanpa File Keystore Java - `jdbc:presto://emr-cluster-master-public-dns:8889/;SSL=1;AuthenticationType=LDAP Authentication;UID=user-name;PWD=password;AllowSelfSignedServerCert=1;AllowHostNameCNMismatch=1;`
     + Dengan File Keystore Java - `jdbc:presto://emr-cluster-master-public-dns:8889/;SSL=1;AuthenticationType=LDAP Authentication;SSLTrustStorePath=/home/sagemaker-user/data/Java-keystore-file-name;SSLTrustStorePwd=Java-keystore-file-passsword;UID=user-name;PWD=password;`

Selama proses mengimpor data dari kluster EMR Amazon, Anda mungkin mengalami masalah. Untuk informasi tentang pemecahan masalah, lihat. [Memecahkan masalah dengan Amazon EMR](data-wrangler-trouble-shooting.md#data-wrangler-trouble-shooting-emr)

## Impor data dari Databricks (JDBC)
<a name="data-wrangler-databricks"></a>

Anda dapat menggunakan Databricks sebagai sumber data untuk aliran Amazon SageMaker Data Wrangler Anda. Untuk mengimpor dataset dari Databricks, gunakan fungsi impor JDBC (Java Database Connectivity) untuk mengakses database Databricks Anda. Setelah Anda mengakses database, tentukan kueri SQL untuk mendapatkan data dan mengimpornya.

Kami berasumsi bahwa Anda memiliki cluster Databricks yang sedang berjalan dan Anda telah mengonfigurasi driver JDBC Anda untuk itu. Untuk informasi selengkapnya, lihat halaman dokumentasi Databricks berikut:
+ [Pengemudi JDBC](https://docs.databricks.com/integrations/bi/jdbc-odbc-bi.html#jdbc-driver)
+ [Konfigurasi JDBC dan parameter koneksi](https://docs.databricks.com/integrations/bi/jdbc-odbc-bi.html#jdbc-configuration-and-connection-parameters)
+ [Parameter otentikasi](https://docs.databricks.com/integrations/bi/jdbc-odbc-bi.html#authentication-parameters)

Data Wrangler menyimpan URL JDBC Anda di. AWS Secrets Manager Anda harus memberikan izin peran eksekusi Amazon SageMaker Studio Classic IAM untuk menggunakan Secrets Manager. Gunakan prosedur berikut untuk memberikan izin.

Untuk memberikan izin kepada Secrets Manager, lakukan hal berikut.

1. Masuk ke Konsol Manajemen AWS dan buka konsol IAM di [https://console.aws.amazon.com/iam/](https://console.aws.amazon.com/iam/).

1. Pilih **Peran**.

1. Di bilah pencarian, tentukan peran eksekusi Amazon SageMaker AI yang digunakan Amazon SageMaker Studio Classic.

1. Pilih peran.

1. Pilih **Tambahkan izin**.

1. Pilih **Buat kebijakan sebaris**.

1. Untuk **Layanan**, tentukan **Secrets Manager** dan pilih.

1. Untuk **Tindakan**, pilih ikon panah di sebelah **Manajemen izin**.

1. Pilih **PutResourcePolicy**.

1. Untuk **Sumber daya**, pilih **Spesifik**.

1. Pilih kotak centang di sebelah **Apa saja di akun ini**.

1. Pilih **Tinjau kebijakan**.

1. Untuk **Nama**, tentukan nama.

1. Pilih **Buat kebijakan**.

Anda dapat menggunakan partisi untuk mengimpor data Anda lebih cepat. Partisi memberikan Data Wrangler kemampuan untuk memproses data secara paralel. Secara default, Data Wrangler menggunakan 2 partisi. Untuk sebagian besar kasus penggunaan, 2 partisi memberi Anda kecepatan pemrosesan data yang hampir optimal.

Jika Anda memilih untuk menentukan lebih dari 2 partisi, Anda juga dapat menentukan kolom untuk mempartisi data. Jenis nilai di kolom harus numerik atau tanggal.

Sebaiknya gunakan partisi hanya jika Anda memahami struktur data dan cara pengolahannya.

Anda dapat mengimpor seluruh kumpulan data atau mengambil sampel sebagian darinya. Untuk database Databricks, ini menyediakan opsi pengambilan sampel berikut:
+ Tidak ada - Impor seluruh dataset.
+ K Pertama - Contoh baris K pertama dari kumpulan data, di mana K adalah bilangan bulat yang Anda tentukan.
+ Acak - Mengambil sampel acak dari ukuran yang Anda tentukan.
+ Bertingkat — Mengambil sampel acak bertingkat. Sampel bertingkat mempertahankan rasio nilai dalam kolom.

Gunakan prosedur berikut untuk mengimpor data Anda dari database Databricks.

Untuk mengimpor data dari Databricks, lakukan hal berikut.

1. Masuk ke [Amazon SageMaker AI Console](https://console.aws.amazon.com/sagemaker).

1. Pilih **Studio**.

1. Pilih **Luncurkan aplikasi**.

1. **Dari daftar dropdown, pilih Studio.**

1. **Dari tab **Impor data** alur Data Wrangler Anda, pilih Databricks.**

1. Tentukan bidang berikut:
   + **Nama Dataset** — Nama yang ingin Anda gunakan untuk kumpulan data dalam alur Data Wrangler Anda.
   + **Pengemudi** — **com.simba.spark.jdbc.driver**.
   + URL **JDBC — URL** dari database Databricks. Pemformatan URL dapat bervariasi antara instance Databricks. Untuk informasi tentang menemukan URL dan menentukan parameter di dalamnya, lihat [konfigurasi JDBC dan](https://docs.databricks.com/integrations/bi/jdbc-odbc-bi.html#jdbc-configuration-and-connection-parameters) parameter koneksi. Berikut ini adalah contoh bagaimana URL dapat diformat: jdbc:spark://aws-sagemaker-datawrangler.cloud.databricks.com:443/default; transportMode = http; ssl=1; httpPATH= /3122619508517275/0909-200301-cut318; =3; UID =; PWD =. sql/protocolv1/o AuthMech *token* *personal-access-token*
**catatan**  
Anda dapat menentukan ARN rahasia yang berisi URL JDBC alih-alih menentukan URL JDBC itu sendiri. Rahasianya harus berisi pasangan kunci-nilai dengan format berikut:. `jdbcURL:JDBC-URL` Untuk informasi selengkapnya, lihat [Apa itu Secrets Manager?](https://docs.aws.amazon.com/secretsmanager/latest/userguide/intro.html) .

1. Tentukan pernyataan SQL SELECT.
**catatan**  
Data Wrangler tidak mendukung Common Table Expressions (CTE) atau tabel sementara dalam kueri.

1. Untuk **Sampling**, pilih metode pengambilan sampel.

1. Pilih **Jalankan**. 

1. (Opsional) Untuk **PREVIEW**, pilih roda gigi untuk membuka **pengaturan Partisi**. 

   1. Tentukan jumlah partisi. Anda dapat mempartisi berdasarkan kolom jika Anda menentukan jumlah partisi:
     + **Masukkan jumlah partisi** - Tentukan nilai yang lebih besar dari 2.
     + (Opsional) **Partisi demi kolom** - Tentukan bidang berikut. Anda hanya dapat partisi dengan kolom jika Anda telah menentukan nilai untuk **Masukkan jumlah partisi.**
       + **Pilih kolom** - Pilih kolom yang Anda gunakan untuk partisi data. Tipe data kolom harus numerik atau tanggal.
       + **Batas atas** - Dari nilai di kolom yang telah Anda tentukan, batas atas adalah nilai yang Anda gunakan di partisi. Nilai yang Anda tentukan tidak mengubah data yang Anda impor. Itu hanya mempengaruhi kecepatan impor. Untuk kinerja terbaik, tentukan batas atas yang mendekati maksimum kolom.
       + Batas **bawah** - Dari nilai di kolom yang telah Anda tentukan, batas bawah adalah nilai yang Anda gunakan di partisi. Nilai yang Anda tentukan tidak mengubah data yang Anda impor. Itu hanya mempengaruhi kecepatan impor. Untuk kinerja terbaik, tentukan batas bawah yang mendekati minimum kolom.

1. Pilih **Impor**.

## Impor data dari Salesforce Data Cloud
<a name="data-wrangler-import-salesforce-data-cloud"></a>

Anda dapat menggunakan Salesforce Data Cloud sebagai sumber data di Amazon Data Wrangler untuk menyiapkan SageMaker data di Salesforce Data Cloud Anda untuk pembelajaran mesin.

Dengan Salesforce Data Cloud sebagai sumber data di Data Wrangler, Anda dapat dengan cepat terhubung ke data Salesforce Anda tanpa menulis satu baris kode pun. Anda dapat menggabungkan data Salesforce Anda dengan data dari sumber data lain di Data Wrangler.

Setelah Anda terhubung ke cloud data, Anda dapat melakukan hal berikut:
+ Visualisasikan data Anda dengan visualisasi bawaan
+ Memahami data dan mengidentifikasi potensi kesalahan dan nilai ekstrim
+ Transformasi data dengan lebih dari 300 transformasi bawaan
+ Ekspor data yang telah Anda ubah

**Topics**
+ [Pengaturan administrator](#data-wrangler-import-salesforce-data-cloud-administrator)
+ [Panduan Ilmuwan Data](#data-wrangler-salesforce-data-cloud-ds)

### Pengaturan administrator
<a name="data-wrangler-import-salesforce-data-cloud-administrator"></a>

**penting**  
Sebelum memulai, pastikan pengguna Anda menjalankan Amazon SageMaker Studio Classic versi 1.3.0 atau yang lebih baru. Untuk informasi tentang memeriksa versi Studio Classic dan memperbaruinya, lihat[Siapkan Data ML dengan Amazon SageMaker Data Wrangler](data-wrangler.md).

Saat menyiapkan akses ke Salesforce Data Cloud, Anda harus menyelesaikan tugas-tugas berikut:
+ Mendapatkan URL Domain Salesforce Anda. Salesforce juga mengacu pada URL Domain sebagai URL organisasi Anda.
+ Mendapatkan OAuth kredensi dari Salesforce. 
+ Mendapatkan URL otorisasi dan URL token untuk Domain Salesforce Anda.
+ Membuat AWS Secrets Manager rahasia dengan OAuth konfigurasi.
+ Membuat konfigurasi siklus hidup yang digunakan Data Wrangler untuk membaca kredensil dari rahasia.
+ Memberikan izin Data Wrangler untuk membaca rahasianya.

Setelah Anda melakukan tugas-tugas sebelumnya, pengguna Anda dapat masuk ke Salesforce Data Cloud menggunakan. OAuth

**catatan**  
Pengguna Anda mungkin mengalami masalah setelah Anda mengatur semuanya. Untuk informasi tentang pemecahan masalah, lihat. [Pemecahan masalah dengan Salesforce](data-wrangler-trouble-shooting.md#data-wrangler-troubleshooting-salesforce-data-cloud)

Gunakan prosedur berikut untuk mendapatkan URL Domain.

1. Arahkan ke halaman login [Salesforce](login.salesforce.com).

1. Untuk **Pencarian cepat, tentukan** **Domain Saya**.

1. Salin nilai **URL Domain Saya Saat Ini** ke file teks.

1. Tambahkan `https://` ke awal URL. 

Setelah Anda mendapatkan URL Domain Salesforce, Anda dapat menggunakan prosedur berikut untuk mendapatkan kredensil login dari Salesforce dan memungkinkan Data Wrangler untuk mengakses data Salesforce Anda.

Untuk mendapatkan kredensi log in dari Salesforce dan memberikan akses ke Data Wrangler, lakukan hal berikut.

1. Arahkan ke URL Domain Salesforce Anda dan masuk ke akun Anda.

1. Pilih ikon roda gigi.

1. Di bilah pencarian yang muncul, tentukan **Manajer Aplikasi**.

1. Pilih **Aplikasi Terhubung Baru**.

1. Tentukan bidang berikut:
   + Nama Aplikasi Terhubung — Anda dapat menentukan nama apa pun, tetapi sebaiknya pilih nama yang menyertakan Data Wrangler. Misalnya, Anda dapat menentukan Integrasi **Wrangler Data Cloud Data Salesforce**.
   + Nama API - Gunakan nilai default.
   + Email Kontak - Tentukan alamat email Anda.
   + Di bawah **judul API (Aktifkan OAuth Pengaturan)**, pilih kotak centang untuk mengaktifkan OAuth pengaturan.
   + Untuk URL **Callback, tentukan URL** Amazon SageMaker Studio Classic. Untuk mendapatkan URL Studio Classic, akses dari Konsol Manajemen AWS dan salin URL.

1. Di bawah ** OAuth Lingkup Terpilih**, pindahkan yang berikut ini dari Cakupan yang **Tersedia ke OAuth Lingkup** **Terpilih OAuth**:
   + Mengelola data pengguna melalui APIs (`api`)
   + Lakukan permintaan kapan saja (`refresh_token`,`offline_access`)
   + Lakukan kueri ANSI SQL pada data Salesforce Data Cloud () `cdp_query_api`
   + Mengelola data profil Platform Data Pelanggan Salesforce () `cdp_profile_api`

1. Pilih **Simpan**. Setelah Anda menyimpan perubahan, Salesforce membuka halaman baru.

1. Pilih **Continue** (Lanjutkan)

1. Arahkan ke **Kunci Konsumen dan Rahasia**.

1. Pilih **Kelola Detail Konsumen**. Salesforce mengarahkan Anda ke halaman baru di mana Anda mungkin harus melewati otentikasi dua faktor.

1. 
**penting**  
Salin Kunci Konsumen dan Rahasia Konsumen ke editor teks. Anda memerlukan informasi ini untuk menghubungkan cloud data ke Data Wrangler.

1. Arahkan kembali ke **Kelola Aplikasi Terhubung**.

1. Arahkan ke **Nama Aplikasi Terhubung** dan nama aplikasi Anda.

1. Pilih **Kelola**.

   1. Pilih **Edit Kebijakan**.

   1. Ubah **Relaksasi IP ke Relaksasi** **pembatasan IP**.

   1. Pilih **Simpan**.

Setelah Anda memberikan akses ke Salesforce Data Cloud, Anda perlu memberikan izin untuk pengguna Anda. Gunakan prosedur berikut untuk memberi mereka izin.

Untuk memberikan izin kepada pengguna Anda, lakukan hal berikut.

1. Arahkan ke halaman beranda pengaturan.

1. Di navigasi sebelah kiri, cari **Pengguna** dan pilih item menu **Pengguna**.

1. Pilih hyperlink dengan nama pengguna Anda.

1. Arahkan ke **Izin Set Tugas.**

1. Pilih **Edit Tugas.**

1. Tambahkan izin berikut:
   + **Admin Platform Data Pelanggan**
   + **Spesialis Sadar Data Platform Data Pelanggan**

1. Pilih **Simpan**.

Setelah Anda mendapatkan informasi untuk Domain Salesforce Anda, Anda harus mendapatkan URL otorisasi dan URL token untuk AWS Secrets Manager rahasia yang Anda buat.

Gunakan prosedur berikut untuk mendapatkan URL otorisasi dan URL token.

**Untuk mendapatkan URL otorisasi dan URL token**

1. Arahkan ke URL Domain Salesforce Anda.

1. Gunakan salah satu metode berikut untuk mendapatkan URLs. Jika Anda menggunakan distribusi Linux dengan `curl` dan `jq` diinstal, kami sarankan menggunakan metode yang hanya berfungsi di Linux.
   + (Hanya Linux) Tentukan perintah berikut di terminal Anda.

     ```
     curl salesforce-domain-URL/.well-known/openid-configuration | \
     jq '. | { authorization_url: .authorization_endpoint, token_url: .token_endpoint }' | \
     jq '.  += { identity_provider: "SALESFORCE", client_id: "example-client-id", client_secret: "example-client-secret" }'
     ```
   + 

     1. Arahkan ke **example-org-URL*/.well-known/openid-configuration* di browser Anda.

     1. Salin `authorization_endpoint` dan `token_endpoint` ke editor teks.

     1. Buat objek JSON berikut:

        ```
        {
          "identity_provider": "SALESFORCE",
          "authorization_url": "example-authorization-endpoint", 
          "token_url": "example-token-endpoint",
          "client_id": "example-consumer-key",
          "client_secret": "example-consumer-secret"
        }
        ```

Setelah Anda membuat objek OAuth konfigurasi, Anda dapat membuat AWS Secrets Manager rahasia yang menyimpannya. Gunakan prosedur berikut untuk membuat rahasia.

Untuk membuat rahasia, lakukan hal berikut.

1. Navigasikan ke [konsol AWS Secrets Manager](https://console.aws.amazon.com/secretsmanager/) tersebut.

1. Pilih **Simpan rahasia**.

1. Pilih **Jenis rahasia lainnya**.

1. **Di bawah pasangan **kunci/nilai** pilih Plaintext.**

1. Ganti JSON kosong dengan pengaturan konfigurasi berikut.

   ```
   {
     "identity_provider": "SALESFORCE",
     "authorization_url": "example-authorization-endpoint", 
     "token_url": "example-token-endpoint",
     "client_id": "example-consumer-key",
     "client_secret": "example-consumer-secret"
   }
   ```

1. Pilih **Berikutnya**.

1. Untuk **Nama Rahasia**, tentukan nama rahasianya.

1. Di bawah **Tag**, pilih **Tambah**.

   1. Untuk **Kunci**, tentukan **sagemaker:partner**. Untuk **Nilai**, sebaiknya tentukan nilai yang mungkin berguna untuk kasus penggunaan Anda. Namun, Anda dapat menentukan apa saja.
**penting**  
Anda harus membuat kuncinya. Anda tidak dapat mengimpor data dari Salesforce jika Anda tidak membuatnya.

1. Pilih **Berikutnya**.

1. Pilih **Toko**.

1. Pilih rahasia yang telah Anda buat.

1. Catat bidang-bidang berikut:
   + Nomor Sumber Daya Amazon (ARN) rahasia
   + Nama rahasianya

Setelah Anda membuat rahasia, Anda harus menambahkan izin untuk Data Wrangler untuk membaca rahasianya. Gunakan prosedur berikut untuk menambahkan izin.

Untuk menambahkan izin baca untuk Data Wrangler, lakukan hal berikut.

1. Arahkan ke [konsol Amazon SageMaker AI](https://console.aws.amazon.com/sagemaker/).

1. Pilih **domain**.

1. Pilih domain yang Anda gunakan untuk mengakses Data Wrangler.

1. Pilih **Profil Pengguna** Anda.

1. Di bawah **Detail**, temukan **peran Eksekusi**. ARN-nya dalam format berikut:. `arn:aws:iam::111122223333:role/example-role` Catat peran eksekusi SageMaker AI. Di dalam ARN, semuanya setelahnya. `role/`

1. Arahkan ke [konsol IAM](https://console.aws.amazon.com/iam).

1. Di bilah **pencarian IAM** Search, tentukan nama peran eksekusi SageMaker AI.

1. Pilih peran.

1. Pilih **Tambahkan izin**.

1. Pilih **Buat kebijakan sebaris**.

1. Pilih tab JSON.

1. Tentukan kebijakan berikut di dalam editor.

------
#### [ JSON ]

****  

   ```
   {
    "Version":"2012-10-17",		 	 	 
    "Statement": [
        {
            "Effect": "Allow",
            "Action": [
                "secretsmanager:GetSecretValue",
                "secretsmanager:PutSecretValue"
            ],
            "Resource": "arn:aws:secretsmanager:*:*:secret:*",
            "Condition": {
                "ForAnyValue:StringLike": {
                    "aws:ResourceTag/sagemaker:partner": "*"
                }
            }
        },
        {
            "Effect": "Allow",
            "Action": [
                "secretsmanager:UpdateSecret"
            ],
            "Resource": "arn:aws:secretsmanager:*:*:secret:AmazonSageMaker-*"
        }
    ]
   }
   ```

------

1. Pilih **Tinjau Kebijakan**.

1. Untuk **Nama**, tentukan nama.

1. Pilih **Buat kebijakan**.

Setelah Anda memberikan izin Data Wrangler untuk membaca rahasia, Anda harus menambahkan Konfigurasi Siklus Hidup yang menggunakan rahasia Secrets Manager ke profil pengguna Amazon SageMaker Studio Classic Anda.

Gunakan prosedur berikut untuk membuat konfigurasi siklus hidup dan menambahkannya ke profil Studio Classic.

Untuk membuat konfigurasi siklus hidup dan menambahkannya ke profil Studio Classic, lakukan hal berikut.

1. Arahkan ke [konsol Amazon SageMaker AI](console.aws.amazon.com/sagemaker).

1. Pilih **domain**.

1. Pilih domain yang Anda gunakan untuk mengakses Data Wrangler.

1. Pilih **Profil Pengguna** Anda.

1. Jika Anda melihat aplikasi berikut, hapus:
   + KernelGateway
   + JupyterKernel
**catatan**  
Menghapus pembaruan aplikasi Studio Classic. Butuh beberapa saat agar pembaruan terjadi.

1. Saat Anda menunggu pembaruan terjadi, pilih Konfigurasi **Siklus Hidup**.

1. Pastikan halaman yang Anda kunjungi mengatakan konfigurasi **Siklus Hidup Studio Classic**.

1. Pilih **Buat konfigurasi**.

1. Pastikan **aplikasi server Jupyter** telah dipilih.

1. Pilih **Berikutnya**.

1. Untuk **Nama**, tentukan nama untuk konfigurasi.

1. Untuk **Skrip**, tentukan skrip berikut:

   ```
   #!/bin/bash
   set -eux
   
   cat > ~/.sfgenie_identity_provider_oauth_config <<EOL
   {
       "secret_arn": "secrets-arn-containing-salesforce-credentials"
   }
   EOL
   ```

1. Pilih **Kirim**.

1. Di navigasi sebelah kiri, pilih **domain**.

1. Pilih domain Anda.

1. Pilih **Lingkungan**.

1. **Di bawah **Konfigurasi Siklus Hidup untuk aplikasi Studio Classic pribadi**, pilih Lampirkan.** 

1. Pilih **Konfigurasi yang ada**.

1. Di bawah konfigurasi **Siklus Hidup Studio Classic pilih konfigurasi** siklus hidup yang telah Anda buat.

1. Pilih **Lampirkan ke domain**.

1. Pilih kotak centang di samping konfigurasi siklus hidup yang telah Anda lampirkan.

1. Pilih **Tetapkan sebagai default**.

Anda mungkin mengalami masalah saat menyiapkan konfigurasi siklus hidup Anda. Untuk informasi tentang debugging mereka, lihat[Debug Konfigurasi Siklus Hidup di Amazon Studio Classic SageMaker](studio-lcc-debug.md).

### Panduan Ilmuwan Data
<a name="data-wrangler-salesforce-data-cloud-ds"></a>

Gunakan yang berikut ini untuk menghubungkan Salesforce Data Cloud dan mengakses data Anda di Data Wrangler.

**penting**  
Administrator Anda perlu menggunakan informasi di bagian sebelumnya untuk menyiapkan Salesforce Data Cloud. Jika Anda mengalami masalah, hubungi mereka untuk bantuan pemecahan masalah.

Untuk membuka Studio Classic dan memeriksa versinya, lihat prosedur berikut.

1. Gunakan langkah-langkah [Prasyarat](data-wrangler-getting-started.md#data-wrangler-getting-started-prerequisite) untuk mengakses Data Wrangler melalui Amazon SageMaker Studio Classic.

1. Di samping pengguna yang ingin Anda gunakan untuk meluncurkan Studio Classic, pilih **Luncurkan aplikasi**.

1. Pilih **Studio**.

**Untuk membuat dataset di Data Wrangler dengan data dari Salesforce Data Cloud**

1. Masuk ke [Amazon SageMaker AI Console](https://console.aws.amazon.com/sagemaker).

1. Pilih **Studio**.

1. Pilih **Luncurkan aplikasi**.

1. **Dari daftar dropdown, pilih Studio.**

1. Pilih ikon Beranda.

1. Pilih **Data**.

1. Pilih **Data Wrangler**.

1. Pilih **Impor data**.

1. Di bawah **Tersedia**, pilih **Salesforce Data Cloud**.

1. Untuk **nama Connection**, tentukan nama untuk koneksi Anda ke Salesforce Data Cloud.

1. Untuk **URL Org**, tentukan URL organisasi di akun Salesforce Anda. Anda bisa mendapatkan URL dari administrator Anda

1. Pilih **Hubungkan**.

1. Tentukan kredensyal Anda untuk masuk ke Salesforce.

Anda dapat mulai membuat kumpulan data menggunakan data dari Salesforce Data Cloud setelah Anda terhubung dengannya.

Setelah Anda memilih tabel, Anda dapat menulis kueri dan menjalankannya. Output kueri Anda ditampilkan di bawah **Hasil kueri**.

Setelah Anda menyelesaikan output kueri Anda, Anda kemudian dapat mengimpor output kueri Anda ke dalam aliran Data Wrangler untuk melakukan transformasi data. 

Setelah membuat kumpulan data, arahkan ke layar **Aliran data** untuk mulai mengubah data Anda.

## Impor data dari Snowflake
<a name="data-wrangler-snowflake"></a>

Anda dapat menggunakan Snowflake sebagai sumber data di Data Wrangler untuk menyiapkan SageMaker data di Snowflake untuk pembelajaran mesin.

Dengan Snowflake sebagai sumber data di Data Wrangler, Anda dapat dengan cepat terhubung ke Snowflake tanpa menulis satu baris kode pun. Anda dapat menggabungkan data Anda di Snowflake dengan data dari sumber data lain di Data Wrangler.

Setelah terhubung, Anda dapat secara interaktif menanyakan data yang disimpan di Snowflake, mengubah data dengan lebih dari 300 transformasi data yang telah dikonfigurasi sebelumnya, memahami data, dan mengidentifikasi potensi kesalahan dan nilai ekstrem dengan serangkaian templat visualisasi yang telah dikonfigurasi sebelumnya, dengan cepat mengidentifikasi inkonsistensi dalam alur kerja persiapan data Anda, dan mendiagnosis masalah sebelum model digunakan ke dalam produksi. Terakhir, Anda dapat mengekspor alur kerja persiapan data ke Amazon S3 untuk digunakan dengan fitur AI SageMaker lainnya seperti Amazon Autopilot, SageMaker Amazon Feature Store, dan SageMaker Amazon Pipelines. SageMaker 

Anda dapat mengenkripsi output kueri Anda menggunakan AWS Key Management Service kunci yang telah Anda buat. Untuk informasi lebih lanjut tentang AWS KMS, lihat [AWS Key Management Service](https://docs.aws.amazon.com//kms/latest/developerguide/overview.html).

**Topics**
+ [Panduan Administrator](#data-wrangler-snowflake-admin)
+ [Panduan Ilmuwan Data](#data-wrangler-snowflake-ds)

### Panduan Administrator
<a name="data-wrangler-snowflake-admin"></a>

**penting**  
Untuk mempelajari lebih lanjut tentang kontrol akses terperinci dan praktik terbaik, lihat [Kontrol Akses Keamanan](https://docs.snowflake.com/en/user-guide/security-access-control.html). 

Bagian ini untuk administrator Snowflake yang menyiapkan akses ke Snowflake dari dalam Data Wrangler. SageMaker 

**penting**  
Anda bertanggung jawab untuk mengelola dan memantau kontrol akses dalam Snowflake. Data Wrangler tidak menambahkan lapisan kontrol akses sehubungan dengan Snowflake.   
Kontrol akses meliputi:  
Data yang diakses pengguna
(Opsional) Integrasi penyimpanan yang menyediakan Snowflake kemampuan untuk menulis hasil kueri ke bucket Amazon S3
Kueri yang dapat dijalankan pengguna

#### (Opsional) Konfigurasikan Izin Impor Data Kepingan Salju
<a name="data-wrangler-snowflake-admin-config"></a>

Secara default, Data Wrangler menanyakan data di Snowflake tanpa membuat salinannya di lokasi Amazon S3. Gunakan informasi berikut jika Anda mengonfigurasi integrasi penyimpanan dengan Snowflake. Pengguna Anda dapat menggunakan integrasi penyimpanan untuk menyimpan hasil kueri mereka di lokasi Amazon S3.

Pengguna Anda mungkin memiliki tingkat akses data sensitif yang berbeda. Untuk keamanan data yang optimal, sediakan integrasi penyimpanan masing-masing pengguna. Setiap integrasi penyimpanan harus memiliki kebijakan tata kelola datanya sendiri.

Fitur ini saat ini tidak tersedia di Wilayah keikutsertaan.

Snowflake memerlukan izin berikut pada bucket dan direktori S3 untuk dapat mengakses file di direktori:
+ `s3:GetObject`
+ `s3:GetObjectVersion`
+ `s3:ListBucket`
+ `s3:ListObjects`
+ `s3:GetBucketLocation`

**Buat kebijakan IAM**

Anda harus membuat kebijakan IAM untuk mengonfigurasi izin akses bagi Snowflake untuk memuat dan membongkar data dari bucket Amazon S3.

Berikut ini adalah dokumen kebijakan JSON yang Anda gunakan untuk membuat kebijakan:

```
# Example policy for S3 write access
# This needs to be updated
{
"Version": "2012-10-17",		 	 	 
"Statement": [
  {
    "Effect": "Allow",
    "Action": [
        "s3:PutObject",
        "s3:GetObject",
        "s3:GetObjectVersion",
        "s3:DeleteObject",
        "s3:DeleteObjectVersion"
    ],
    "Resource": "arn:aws:s3:::bucket/prefix/*"
  },
  {
    "Effect": "Allow",
    "Action": [
        "s3:ListBucket"
    ],
    "Resource": "arn:aws:s3:::bucket/",
    "Condition": {
        "StringLike": {
            "s3:prefix": ["prefix/*"]
        }
    }
  }
 ]
}
```

Untuk informasi dan prosedur tentang membuat kebijakan dengan dokumen kebijakan, lihat [Membuat kebijakan IAM](https://docs.aws.amazon.com/IAM/latest/UserGuide/access_policies_create.html).

Untuk dokumentasi yang memberikan ikhtisar penggunaan izin IAM dengan Snowflake, lihat sumber daya berikut:
+ [Apa itu IAM?](https://docs.aws.amazon.com/IAM/latest/UserGuide/introduction.html)
+ [Buat Peran IAM di AWS](https://docs.snowflake.com/en/user-guide/data-load-s3-config-storage-integration.html#step-2-create-the-iam-role-in-aws)
+ [Buat Integrasi Penyimpanan Cloud di Snowflake](https://docs.snowflake.com/en/user-guide/data-load-s3-config-storage-integration.html#step-3-create-a-cloud-storage-integration-in-snowflake)
+ [Ambil Pengguna AWS IAM untuk Akun Snowflake Anda](https://docs.snowflake.com/en/user-guide/data-load-s3-config-storage-integration.html#step-4-retrieve-the-aws-iam-user-for-your-snowflake-account)
+ [Berikan Izin Pengguna IAM untuk Mengakses Bucket](https://docs.snowflake.com/en/user-guide/data-load-s3-config-storage-integration.html#step-5-grant-the-iam-user-permissions-to-access-bucket-objects).

Untuk memberikan izin penggunaan peran Snowflake ilmuwan data ke integrasi penyimpanan, Anda harus menjalankannya. `GRANT USAGE ON INTEGRATION integration_name TO snowflake_role;`
+ `integration_name`adalah nama integrasi penyimpanan Anda.
+ `snowflake_role`adalah nama [peran Snowflake](https://docs.snowflake.com/en/user-guide/security-access-control-overview.html#roles) default yang diberikan kepada pengguna ilmuwan data.

#### Menyiapkan Akses Kepingan Salju OAuth
<a name="data-wrangler-snowflake-oauth-setup"></a>

Alih-alih meminta pengguna Anda langsung memasukkan kredensialnya ke Data Wrangler, Anda dapat meminta mereka menggunakan penyedia identitas untuk mengakses Snowflake. Berikut ini adalah tautan ke dokumentasi Snowflake untuk penyedia identitas yang didukung Data Wrangler.
+ [Azure AD](https://docs.snowflake.com/en/user-guide/oauth-azure.html)
+ [Okta](https://docs.snowflake.com/en/user-guide/oauth-okta.html)
+ [Federasi Ping](https://docs.snowflake.com/en/user-guide/oauth-pingfed.html)

Gunakan dokumentasi dari tautan sebelumnya untuk mengatur akses ke penyedia identitas Anda. Informasi dan prosedur di bagian ini membantu Anda memahami cara menggunakan dokumentasi dengan benar untuk mengakses Snowflake dalam Data Wrangler.

Penyedia identitas Anda perlu mengenali Data Wrangler sebagai aplikasi. Gunakan prosedur berikut untuk mendaftarkan Data Wrangler sebagai aplikasi dalam penyedia identitas:

1. Pilih konfigurasi yang memulai proses pendaftaran Data Wrangler sebagai aplikasi.

1. Menyediakan pengguna dalam penyedia identitas akses ke Data Wrangler.

1. Aktifkan otentikasi OAuth klien dengan menyimpan kredensi klien sebagai rahasia. AWS Secrets Manager 

1. Tentukan URL pengalihan menggunakan format berikut: https://*domain-ID*.studio. *Wilayah AWS*.pembuat sagemaker. aws/jupyter/default/lab
**penting**  
Anda menentukan ID domain Amazon SageMaker AI dan Wilayah AWS yang Anda gunakan untuk menjalankan Data Wrangler.
**penting**  
Anda harus mendaftarkan URL untuk setiap domain Amazon SageMaker AI dan Wilayah AWS tempat Anda menjalankan Data Wrangler. Pengguna dari domain dan Wilayah AWS yang tidak memiliki URLs pengaturan pengalihan untuk mereka tidak akan dapat mengautentikasi dengan penyedia identitas untuk mengakses koneksi Snowflake.

1. Pastikan kode otorisasi dan jenis hibah token refresh diizinkan untuk aplikasi Data Wrangler.

Dalam penyedia identitas Anda, Anda harus menyiapkan server yang mengirim OAuth token ke Data Wrangler di tingkat pengguna. Server mengirimkan token dengan Snowflake sebagai penonton.

Snowflake menggunakan konsep peran yang berbeda peran IAM digunakan. AWS Anda harus mengonfigurasi penyedia identitas untuk menggunakan peran apa pun untuk menggunakan peran default yang terkait dengan akun Snowflake. Misalnya, jika pengguna memiliki peran default dalam profil Snowflake mereka, koneksi dari Data Wrangler ke Snowflake digunakan `systems administrator` sebagai peran. `systems administrator`

Gunakan prosedur berikut untuk mengatur server.

Untuk mengatur server, lakukan hal berikut. Anda bekerja di dalam Snowflake untuk semua langkah kecuali yang terakhir.

1. Mulai mengatur server atau API.

1. Konfigurasikan server otorisasi untuk menggunakan kode otorisasi dan segarkan jenis hibah token.

1. Tentukan masa pakai token akses.

1. Setel batas waktu idle token refresh. Batas waktu idle adalah waktu token refresh kedaluwarsa jika tidak digunakan.
**catatan**  
Jika Anda menjadwalkan pekerjaan di Data Wrangler, sebaiknya Anda membuat waktu tunggu idle lebih besar daripada frekuensi pekerjaan pemrosesan. Jika tidak, beberapa pekerjaan pemrosesan mungkin gagal karena token penyegaran kedaluwarsa sebelum dapat dijalankan. Ketika token penyegaran kedaluwarsa, pengguna harus mengautentikasi ulang dengan mengakses koneksi yang telah mereka buat ke Snowflake melalui Data Wrangler.

1. Tentukan `session:role-any` sebagai ruang lingkup baru.
**catatan**  
Untuk Azure AD, salin pengenal unik untuk ruang lingkup. Data Wrangler mengharuskan Anda untuk menyediakannya dengan pengenal.

1. 
**penting**  
Dalam Integrasi OAuth Keamanan Eksternal untuk Kepingan Salju, aktifkan. `external_oauth_any_role_mode`

**penting**  
Data Wrangler tidak mendukung token penyegaran yang berputar. Menggunakan token penyegaran yang berputar dapat mengakibatkan kegagalan akses atau pengguna harus sering masuk.

**penting**  
Jika token penyegaran kedaluwarsa, pengguna Anda harus mengautentikasi ulang dengan mengakses koneksi yang telah mereka buat ke Snowflake melalui Data Wrangler.

Setelah menyiapkan OAuth penyedia, Anda memberikan Data Wrangler informasi yang dibutuhkan untuk terhubung ke penyedia. Anda dapat menggunakan dokumentasi dari penyedia identitas Anda untuk mendapatkan nilai untuk bidang berikut:
+ URL Token — URL token yang dikirim oleh penyedia identitas ke Data Wrangler.
+ URL otorisasi — URL server otorisasi penyedia identitas.
+ ID Klien — ID penyedia identitas.
+ Rahasia klien — Rahasia yang hanya dikenali oleh server otorisasi atau API.
+ (Hanya Azure AD) Kredensi OAuth cakupan yang telah Anda salin.

Anda menyimpan bidang dan nilai dalam AWS Secrets Manager rahasia dan menambahkannya ke konfigurasi siklus hidup Amazon SageMaker Studio Classic yang Anda gunakan untuk Data Wrangler. Konfigurasi Siklus Hidup adalah skrip shell. Gunakan untuk membuat Nama Sumber Daya Amazon (ARN) dari rahasia dapat diakses oleh Data Wrangler. Untuk informasi tentang membuat rahasia, lihat [Memindahkan rahasia hardcode](https://docs.aws.amazon.com/secretsmanager/latest/userguide/hardcoded.html) ke. AWS Secrets Manager Untuk informasi tentang menggunakan konfigurasi siklus hidup di Studio Classic, lihat. [Menggunakan Konfigurasi Siklus Hidup untuk Menyesuaikan Amazon Studio Classic SageMaker](studio-lcc.md)

**penting**  
Sebelum membuat rahasia Secrets Manager, pastikan peran eksekusi SageMaker AI yang Anda gunakan untuk Amazon SageMaker Studio Classic memiliki izin untuk membuat dan memperbarui rahasia di Secrets Manager. Untuk informasi selengkapnya tentang menambahkan izin, lihat [Contoh: Izin untuk membuat rahasia](https://docs.aws.amazon.com/secretsmanager/latest/userguide/auth-and-access_examples.html#auth-and-access_examples_create).

Untuk Okta dan Ping Federate, berikut ini adalah format rahasianya:

```
{
    "token_url":"https://identityprovider.com/oauth2/example-portion-of-URL-path/v2/token",
    "client_id":"example-client-id",
    "client_secret":"example-client-secret",
    "identity_provider":"OKTA"|"PING_FEDERATE",
    "authorization_url":"https://identityprovider.com/oauth2/example-portion-of-URL-path/v2/authorize"
}
```

Untuk Azure AD, berikut ini adalah format rahasianya:

```
{
    "token_url":"https://identityprovider.com/oauth2/example-portion-of-URL-path/v2/token",
    "client_id":"example-client-id",
    "client_secret":"example-client-secret",
    "identity_provider":"AZURE_AD",
    "authorization_url":"https://identityprovider.com/oauth2/example-portion-of-URL-path/v2/authorize",
    "datasource_oauth_scope":"api://appuri/session:role-any)"
}
```

Anda harus memiliki konfigurasi siklus hidup yang menggunakan rahasia Secrets Manager yang telah Anda buat. Anda dapat membuat konfigurasi siklus hidup atau memodifikasi konfigurasi yang telah dibuat. Konfigurasi harus menggunakan skrip berikut.

```
#!/bin/bash

set -eux

## Script Body

cat > ~/.snowflake_identity_provider_oauth_config <<EOL
{
    "secret_arn": "example-secret-arn"
}
EOL
```

Untuk informasi tentang menyiapkan konfigurasi siklus hidup, lihat. [Membuat dan Mengaitkan Konfigurasi Siklus Hidup dengan Amazon SageMaker Studio Classic](studio-lcc-create.md) Ketika Anda akan melalui proses pengaturan, lakukan hal berikut:
+ Atur jenis aplikasi konfigurasi ke`Jupyter Server`.
+ Lampirkan konfigurasi ke domain Amazon SageMaker AI yang memiliki pengguna Anda.
+ Jalankan konfigurasi secara default. Itu harus berjalan setiap kali pengguna login ke Studio Classic. Jika tidak, kredensil yang disimpan dalam konfigurasi tidak akan tersedia untuk pengguna Anda saat mereka menggunakan Data Wrangler.
+ Konfigurasi siklus hidup membuat file dengan nama, `snowflake_identity_provider_oauth_config` di folder beranda pengguna. File tersebut berisi rahasia Secrets Manager. Pastikan itu ada di folder beranda pengguna setiap kali instance Jupyter Server diinisialisasi.

#### Konektivitas Pribadi antara Data Wrangler dan Snowflake via AWS PrivateLink
<a name="data-wrangler-security-snowflake-vpc"></a>

Bagian ini menjelaskan cara menggunakan AWS PrivateLink untuk membuat koneksi pribadi antara Data Wrangler dan Snowflake. Langkah-langkahnya dijelaskan di bagian berikut. 

##### Buat VPC
<a name="data-wrangler-snowflake-snowflake-vpc-setup"></a>

Jika Anda tidak memiliki pengaturan VPC, ikuti instruksi [Buat VPC baru](https://docs.aws.amazon.com/directoryservice/latest/admin-guide/gsg_create_vpc.html#create_vpc) untuk membuatnya.

Setelah Anda memiliki VPC pilihan yang ingin Anda gunakan untuk membuat koneksi pribadi, berikan kredensyal berikut kepada Administrator Snowflake Anda untuk mengaktifkan: AWS PrivateLink
+ VPC ID
+ AWS ID Akun
+ URL akun terkait yang Anda gunakan untuk mengakses Snowflake

**penting**  
Seperti yang dijelaskan dalam dokumentasi Snowflake, mengaktifkan akun Snowflake Anda dapat memakan waktu hingga dua hari kerja. 

##### Mengatur Integrasi Kepingan Salju AWS PrivateLink
<a name="data-wrangler-snowflake-snowflake-vpc-privatelink-setup"></a>

Setelah AWS PrivateLink diaktifkan, ambil AWS PrivateLink konfigurasi untuk Wilayah Anda dengan menjalankan perintah berikut di lembar kerja Snowflake. **Masuk ke konsol Snowflake Anda dan masukkan yang berikut ini di bawah Lembar Kerja:** `select SYSTEM$GET_PRIVATELINK_CONFIG();` 

1. Ambil nilai untuk berikut:`privatelink-account-name`,, `privatelink_ocsp-url``privatelink-account-url`, dan `privatelink_ocsp-url` dari objek JSON yang dihasilkan. Contoh dari setiap nilai ditampilkan dalam cuplikan berikut. Simpan nilai-nilai ini untuk digunakan nanti.

   ```
   privatelink-account-name: xxxxxxxx.region.privatelink
   privatelink-vpce-id: com.amazonaws.vpce.region.vpce-svc-xxxxxxxxxxxxxxxxx
   privatelink-account-url: xxxxxxxx.region.privatelink.snowflakecomputing.com
   privatelink_ocsp-url: ocsp.xxxxxxxx.region.privatelink.snowflakecomputing.com
   ```

1. Beralih ke AWS Konsol Anda dan navigasikan ke menu VPC.

1. Dari panel sisi kiri, pilih tautan **Endpoints** untuk menavigasi ke pengaturan **VPC** Endpoints.

   Sesampai di sana, pilih **Create Endpoint**. 

1. Pilih tombol radio untuk **Temukan layanan dengan nama**, seperti yang ditunjukkan pada gambar berikut.   
![\[Bagian Create Endpoint di konsol.\]](http://docs.aws.amazon.com/id_id/sagemaker/latest/dg/images/studio/mohave/snowflake-radio.png)

1. **Di bidang **Nama Layanan**, tempelkan nilai untuk `privatelink-vpce-id` yang Anda ambil di langkah sebelumnya dan pilih Verifikasi.** 

   Jika koneksi berhasil, peringatan hijau yang mengatakan **Nama layanan ditemukan** muncul di layar Anda dan opsi **VPC** dan **Subnet** secara otomatis meluas, seperti yang ditunjukkan pada gambar berikut. Bergantung pada Wilayah yang ditargetkan, layar hasil Anda mungkin menampilkan nama AWS Wilayah lain.   
![\[Bagian Create Endpoint di konsol yang menunjukkan koneksi berhasil.\]](http://docs.aws.amazon.com/id_id/sagemaker/latest/dg/images/studio/mohave/snowflake-service-name-found.png)

1. **Pilih ID VPC yang sama yang Anda kirim ke Snowflake dari daftar dropdown VPC.**

1. Jika Anda belum membuat subnet, maka lakukan serangkaian instruksi berikut untuk membuat subnet. 

1. Pilih **Subnet** dari daftar **dropdown** VPC. Kemudian pilih **Buat subnet** dan ikuti petunjuk untuk membuat subset di VPC Anda. Pastikan Anda memilih ID VPC yang Anda kirim Snowflake. 

1. Di bawah **Konfigurasi Grup Keamanan**, pilih **Buat Grup Keamanan Baru** untuk membuka layar **Grup Keamanan** default di tab baru. Di tab baru ini, pilih t **Buat Grup Keamanan**. 

1. Berikan nama untuk grup keamanan baru (seperti`datawrangler-doc-snowflake-privatelink-connection`) dan deskripsi. Pastikan untuk memilih ID VPC yang telah Anda gunakan pada langkah sebelumnya. 

1. Tambahkan dua aturan untuk mengizinkan lalu lintas dari dalam VPC Anda ke titik akhir VPC ini. 

   Arahkan ke VPC Anda di bawah tab **Anda VPCs** di tab terpisah, dan ambil blok CIDR Anda untuk VPC Anda. Kemudian pilih **Tambahkan Aturan** di bagian **Aturan Masuk**. Pilih `HTTPS` jenisnya, biarkan **Sumber** sebagai **Kustom** dalam formulir, dan tempel nilai yang diambil dari `describe-vpcs` panggilan sebelumnya (seperti). `10.0.0.0/16` 

1. Pilih **Buat Grup Keamanan**. Ambil **ID Grup Keamanan** dari grup keamanan yang baru dibuat (seperti`sg-xxxxxxxxxxxxxxxxx`).

1. Di layar konfigurasi **VPC Endpoint**, hapus grup keamanan default. Tempel di ID grup keamanan di bidang pencarian dan pilih kotak centang.  
![\[Bagian grup Keamanan di konsol.\]](http://docs.aws.amazon.com/id_id/sagemaker/latest/dg/images/studio/mohave/snowflake-security-group.png)

1. Pilih **Buat Titik Akhir**. 

1. Jika pembuatan titik akhir berhasil, Anda akan melihat halaman yang memiliki tautan ke konfigurasi titik akhir VPC Anda, yang ditentukan oleh ID VPC. Pilih tautan untuk melihat konfigurasi secara penuh.   
![\[Bagian Detail titik akhir.\]](http://docs.aws.amazon.com/id_id/sagemaker/latest/dg/images/studio/mohave/snowflake-success-endpoint.png)

   Ambil catatan paling atas dalam daftar nama DNS. Ini dapat dibedakan dari nama DNS lain karena hanya menyertakan nama Wilayah (seperti`us-west-2`), dan tidak ada notasi huruf Availability Zone (seperti). `us-west-2a` Simpan informasi ini untuk digunakan nanti.

##### Konfigurasikan DNS untuk Snowflake Endpoint di VPC Anda
<a name="data-wrangler-snowflake-vpc-privatelink-dns"></a>

Bagian ini menjelaskan cara mengonfigurasi DNS untuk titik akhir Snowflake di VPC Anda. Ini memungkinkan VPC Anda menyelesaikan permintaan ke titik akhir Snowflake AWS PrivateLink . 

1. Arahkan ke [menu Route 53](https://console.aws.amazon.com/route53) di dalam AWS konsol Anda.

1. Pilih opsi **Zona yang Dihosting** (jika perlu, perluas menu sebelah kiri untuk menemukan opsi ini).

1. Pilih **Buat Zona yang Di-hosting**.

   1. Di bidang **Nama domain**, referensi nilai yang disimpan untuk `privatelink-account-url` langkah-langkah sebelumnya. Di bidang ini, ID akun Snowflake Anda dihapus dari nama DNS dan hanya menggunakan nilai yang dimulai dengan pengenal Wilayah. Sebuah **Resource Record Set** juga dibuat nanti untuk subdomain, seperti,`region.privatelink.snowflakecomputing.com`.

   1. Pilih tombol radio untuk **Private Hosted Zone** di bagian **Type**. Kode Wilayah Anda mungkin tidak`us-west-2`. Referensi nama DNS yang dikembalikan kepada Anda oleh Snowflake.  
![\[Halaman Buat zona yang dihosting di konsol.\]](http://docs.aws.amazon.com/id_id/sagemaker/latest/dg/images/studio/mohave/snowflake-create-hosted-zone.png)

   1. Di bagian **VPCs untuk mengaitkan dengan zona yang dihosting**, pilih Wilayah tempat VPC Anda berada dan ID VPC yang digunakan pada langkah sebelumnya.  
![\[VPCs Untuk mengasosiasikan dengan bagian zona yang dihosting di konsol.\]](http://docs.aws.amazon.com/id_id/sagemaker/latest/dg/images/studio/mohave/snowflake-vpc-hosted-zone.png)

   1. Pilih **Buat zona yang di-hosting**.

1. Selanjutnya, buat dua catatan, satu untuk `privatelink-account-url` dan satu untuk`privatelink_ocsp-url`.
   + Di menu **Zona yang Dihosting**, pilih **Buat Kumpulan Rekaman**.

     1. Di bawah **nama Rekam**, masukkan ID Akun Snowflake Anda saja (8 karakter pertama di`privatelink-account-url`).

     1. Di bawah **Jenis rekaman**, pilih **CNAME**.

     1. Di bawah **Nilai**, masukkan nama DNS untuk titik akhir VPC regional yang Anda ambil pada langkah terakhir dari bagian *Mengatur Integrasi Kepingan Salju*. AWS PrivateLink   
![\[Bagian Quick create record di konsol.\]](http://docs.aws.amazon.com/id_id/sagemaker/latest/dg/images/studio/mohave/snowflake-quick-create-record.png)

     1. Pilih **Create records** (Buat catatan).

     1. Ulangi langkah sebelumnya untuk catatan OCSP yang kami catat`privatelink-ocsp-url`, dimulai dengan `ocsp` melalui ID Snowflake 8 karakter untuk nama rekaman (seperti). `ocsp.xxxxxxxx`  
![\[Bagian Quick create record di konsol.\]](http://docs.aws.amazon.com/id_id/sagemaker/latest/dg/images/studio/mohave/snowflake-quick-create-ocsp.png)

##### Konfigurasikan Route 53 Resolver Inbound Endpoint untuk VPC Anda
<a name="data-wrangler-snowflake-vpc-privatelink-route53"></a>

Bagian ini menjelaskan cara mengonfigurasi titik akhir inbound resolver Route 53 untuk VPC Anda.

1. Arahkan ke [menu Route 53](https://console.aws.amazon.com/route53) di dalam AWS konsol Anda.
   + Di panel sebelah kiri di bagian **Keamanan**, pilih opsi **Grup Keamanan**.

1. Pilih **Buat Grup Keamanan**. 
   + Berikan nama untuk grup keamanan Anda (seperti`datawranger-doc-route53-resolver-sg`) dan deskripsi.
   + Pilih ID VPC yang digunakan pada langkah sebelumnya.
   + Buat aturan yang memungkinkan DNS melalui UDP dan TCP dari dalam blok VPC CIDR.   
![\[Bagian Aturan masuk di konsol.\]](http://docs.aws.amazon.com/id_id/sagemaker/latest/dg/images/studio/mohave/snowflake-inbound-rules.png)
   + Pilih **Buat Grup Keamanan**. Perhatikan **ID Grup Keamanan** karena menambahkan aturan untuk mengizinkan lalu lintas ke grup keamanan titik akhir VPC.

1. Arahkan ke [menu Route 53](https://console.aws.amazon.com/route53) di dalam AWS konsol Anda.
   + Di bagian **Resolver**, pilih opsi **Inbound** Endpoint.

1. Pilih **Buat Titik Akhir Masuk**. 
   + Berikan nama titik akhir.
   + Dari daftar tarik-turun **VPC di Wilayah**, pilih ID VPC yang telah Anda gunakan di semua langkah sebelumnya. 
   + Dalam daftar dropdown **grup Keamanan untuk titik akhir ini**, pilih ID grup keamanan dari Langkah 2 di bagian ini.   
![\[Pengaturan umum untuk bagian titik akhir masuk di konsol.\]](http://docs.aws.amazon.com/id_id/sagemaker/latest/dg/images/studio/mohave/snowflake-inbound-endpoint.png)
   + Di bagian **Alamat IP**, pilih Availability Zones, pilih subnet, dan tinggalkan pemilih radio untuk **Gunakan alamat IP yang dipilih secara otomatis dipilih** untuk setiap alamat IP.   
![\[Bagian Alamat IP di konsol.\]](http://docs.aws.amazon.com/id_id/sagemaker/latest/dg/images/studio/mohave/snowflake-ip-address-1.png)
   + Pilih **Kirim**.

1. Pilih **titik akhir Inbound** setelah dibuat.

1. Setelah titik akhir masuk dibuat, perhatikan dua alamat IP untuk resolver.  
![\[Bagian Alamat IP di konsol.\]](http://docs.aws.amazon.com/id_id/sagemaker/latest/dg/images/studio/mohave/snowflake-ip-addresses-2.png)

##### SageMaker Titik Akhir AI VPC
<a name="data-wrangler-snowflake-sagemaker-vpc-endpoints"></a>

 Bagian ini menjelaskan cara membuat titik akhir VPC untuk hal-hal berikut: Amazon SageMaker Studio Classic, SageMaker Notebooks, SageMaker API, Runtime Runtime, dan Amazon SageMaker Feature Store Runtime. SageMaker 

**Buat grup keamanan yang diterapkan ke semua titik akhir.**

1. Arahkan ke [menu EC2](https://console.aws.amazon.com/ec2) di AWS Konsol.

1. Di bagian **Jaringan & Keamanan**, pilih opsi **Grup keamanan**.

1. Pilih **Buat grup keamanan**.

1. Berikan nama dan deskripsi grup keamanan (seperti`datawrangler-doc-sagemaker-vpce-sg`). Aturan ditambahkan nanti untuk memungkinkan lalu lintas melalui HTTPS dari SageMaker AI ke grup ini. 

**Membuat titik akhir**

1. Arahkan ke [menu VPC](https://console.aws.amazon.com/vpc) di konsol. AWS 

1. Pilih opsi **Endpoints**.

1. Pilih **Buat Titik Akhir**.

1. Cari layanan dengan memasukkan namanya di bidang **Pencarian**.

1. Dari daftar dropdown **VPC**, pilih VPC tempat koneksi Snowflake Anda ada. AWS PrivateLink 

1. Di bagian **Subnet**, pilih subnet yang memiliki akses ke koneksi Snowflake PrivateLink .

1. Biarkan kotak centang **Aktifkan Nama DNS** dipilih.

1. Di bagian **Grup Keamanan**, pilih grup keamanan yang Anda buat di bagian sebelumnya.

1. Pilih **Buat Titik Akhir**.

**Konfigurasikan Studio Classic dan Data Wrangler**

Bagian ini menjelaskan cara mengkonfigurasi Studio Classic dan Data Wrangler.

1. Konfigurasikan grup keamanan.

   1. Arahkan ke menu Amazon EC2 di Konsol. AWS 

   1. Pilih opsi **Grup Keamanan** di bagian **Jaringan & Keamanan**.

   1. Pilih **Buat Grup Keamanan**. 

   1. Berikan nama dan deskripsi untuk grup keamanan Anda (seperti`datawrangler-doc-sagemaker-studio`). 

   1. Buat aturan masuk berikut.
      + Koneksi HTTPS ke grup keamanan yang Anda sediakan untuk PrivateLink koneksi Snowflake yang Anda buat di langkah *Atur* Integrasi Kepingan Salju. PrivateLink 
      + Koneksi HTTP ke grup keamanan yang Anda sediakan untuk PrivateLink koneksi Snowflake yang Anda buat di langkah *Atur* Integrasi Snowflake. PrivateLink 
      + Grup keamanan UDP dan TCP untuk DNS (port 53) ke Route 53 Resolver Inbound Endpoint yang Anda buat di langkah 2 Konfigurasi Route *53 Resolver Inbound Endpoint untuk VPC* Anda.

   1. Pilih tombol **Create Security Group** di pojok kanan bawah.

1. Konfigurasikan Studio Klasik.
   + Arahkan ke menu SageMaker AI di AWS konsol.
   + Dari konsol sebelah kiri, Pilih opsi **SageMaker AI Studio Classic**.
   + Jika Anda tidak memiliki domain yang dikonfigurasi, menu **Memulai** hadir.
   + Pilih opsi **Pengaturan Standar** dari menu **Memulai**.
   + Di bawah **metode Authentication**, pilih **AWS Identity and Access Management (IAM**).
   + Dari menu **Izin**, Anda dapat membuat peran baru atau menggunakan peran yang sudah ada sebelumnya, tergantung pada kasus penggunaan Anda.
     + Jika Anda memilih **Buat peran baru**, Anda akan diberikan opsi untuk memberikan nama bucket S3, dan kebijakan dibuat untuk Anda.
     + Jika Anda sudah memiliki peran yang dibuat dengan izin untuk bucket S3 yang Anda perlukan akses, pilih peran dari daftar tarik-turun. Peran ini harus memiliki `AmazonSageMakerFullAccess` kebijakan yang melekat padanya.
   + Pilih daftar tarik-turun **Jaringan dan Penyimpanan** untuk mengonfigurasi VPC, keamanan, dan subnet yang digunakan AI. SageMaker 
     + Di bawah **VPC**, pilih VPC tempat koneksi Snowflake Anda ada. PrivateLink 
     + Di bawah **Subnet (s)**, pilih subnet yang memiliki akses ke koneksi Snowflake PrivateLink.
     + Di bawah **Akses Jaringan untuk Studio Klasik**, pilih **Hanya VPC**.
     + Di bawah **Grup Keamanan**, pilih grup keamanan yang Anda buat di langkah 1.
   + Pilih **Kirim**.

1. Edit grup keamanan SageMaker AI.
   + Buat aturan masuk berikut:
     + Port 2049 ke Grup Keamanan NFS masuk dan keluar yang dibuat secara otomatis oleh SageMaker AI pada langkah 2 (nama grup keamanan berisi ID domain Studio Classic).
     + Akses ke semua port TCP ke dirinya sendiri (diperlukan untuk SageMaker AI untuk VPC Saja).

1. Edit Grup Keamanan Titik Akhir VPC:
   + Arahkan ke menu Amazon EC2 di konsol. AWS 
   + Temukan grup keamanan yang Anda buat pada langkah sebelumnya.
   + Tambahkan aturan masuk yang memungkinkan lalu lintas HTTPS dari grup keamanan yang dibuat pada langkah 1.

1. Buat profil pengguna.
   + Dari **Panel Kontrol Klasik SageMaker Studio**, pilih **Tambah Pengguna**.
   + Berikan nama pengguna. 
   + Untuk **Peran Eksekusi**, pilih untuk membuat peran baru atau menggunakan peran yang sudah ada sebelumnya.
     + Jika memilih **Buat peran baru**, Anda akan diberikan opsi untuk memberikan nama bucket Amazon S3, dan kebijakan dibuat untuk Anda.
     + Jika Anda sudah memiliki peran yang dibuat dengan izin ke bucket Amazon S3 yang memerlukan akses, pilih peran dari daftar tarik-turun. Peran ini harus memiliki `AmazonSageMakerFullAccess` kebijakan yang melekat padanya.
   + Pilih **Kirim**. 

1. Buat aliran data (ikuti panduan ilmuwan data yang diuraikan di bagian sebelumnya). 
   + Saat menambahkan koneksi Snowflake, masukkan nilai `privatelink-account-name` (dari langkah *Set Up Snowflake PrivateLink Integration) ke bidang nama akun Snowflake* **(alfanumerik), bukan nama akun Snowflake** biasa. Segala sesuatu yang lain dibiarkan tidak berubah.

#### Memberikan informasi kepada ilmuwan data
<a name="data-wrangler-snowflake-admin-ds-info"></a>

Berikan ilmuwan data informasi yang mereka butuhkan untuk mengakses Snowflake dari Amazon SageMaker AI Data Wrangler.

**penting**  
Pengguna Anda harus menjalankan Amazon SageMaker Studio Classic versi 1.3.0 atau yang lebih baru. Untuk informasi tentang memeriksa versi Studio Classic dan memperbaruinya, lihat[Siapkan Data ML dengan Amazon SageMaker Data Wrangler](data-wrangler.md).

1. Untuk memungkinkan ilmuwan data Anda mengakses Snowflake dari SageMaker Data Wrangler, berikan salah satu dari berikut ini:
   + Untuk Otentikasi Dasar, nama akun Snowflake, nama pengguna, dan kata sandi.
   + Untuk OAuth, nama pengguna dan kata sandi di penyedia identitas.
   + Untuk ARN, Secrets Manager rahasia Amazon Resource Name (ARN).
   + Rahasia yang dibuat dengan [AWS Secrets Manager](https://docs.aws.amazon.com/secretsmanager/latest/userguide/intro.html) dan ARN of the secret. Gunakan prosedur berikut di bawah ini untuk membuat rahasia Snowflake jika Anda memilih opsi ini.
**penting**  
Jika ilmuwan data Anda menggunakan opsi **Snowflake Credentials (Nama pengguna dan Kata Sandi)** untuk terhubung ke Snowflake, Anda dapat menggunakan Secrets [Manager untuk menyimpan kredensialnya secara rahasia](https://docs.aws.amazon.com/secretsmanager/latest/userguide/intro.html). Secrets Manager memutar rahasia sebagai bagian dari rencana keamanan praktik terbaik. Rahasia yang dibuat di Secrets Manager hanya dapat diakses dengan peran Studio Classic yang dikonfigurasi saat Anda menyiapkan profil pengguna Studio Classic. Ini mengharuskan Anda untuk menambahkan izin ini`secretsmanager:PutResourcePolicy`,, ke kebijakan yang dilampirkan ke peran Studio Classic Anda.  
Kami sangat menyarankan agar Anda membuat cakupan kebijakan peran untuk menggunakan peran yang berbeda untuk grup pengguna Studio Classic yang berbeda. Anda dapat menambahkan izin berbasis sumber daya tambahan untuk rahasia Secrets Manager. Lihat [Mengelola Kebijakan Rahasia](https://docs.aws.amazon.com/secretsmanager/latest/userguide/manage_secret-policy.html) untuk kunci kondisi yang dapat Anda gunakan.  
Untuk informasi tentang membuat rahasia, lihat [Membuat rahasia](https://docs.aws.amazon.com/secretsmanager/latest/userguide/create_secret.html). Anda dikenakan biaya untuk rahasia yang Anda buat.

1. (Opsional) Berikan nama integrasi penyimpanan kepada ilmuwan data yang Anda buat menggunakan prosedur berikut [Buat Integrasi Penyimpanan Cloud di Snowflake](                                      https://docs.snowflake.com/en/user-guide/data-load-s3-config-storage-integration.html#step-3-create-a-cloud-storage-integration-in-snowflake). Ini adalah nama integrasi baru dan dipanggil `integration_name` dalam perintah `CREATE INTEGRATION` SQL yang Anda jalankan, yang ditunjukkan dalam cuplikan berikut: 

   ```
     CREATE STORAGE INTEGRATION integration_name
     TYPE = EXTERNAL_STAGE
     STORAGE_PROVIDER = S3
     ENABLED = TRUE
     STORAGE_AWS_ROLE_ARN = 'iam_role'
     [ STORAGE_AWS_OBJECT_ACL = 'bucket-owner-full-control' ]
     STORAGE_ALLOWED_LOCATIONS = ('s3://bucket/path/', 's3://bucket/path/')
     [ STORAGE_BLOCKED_LOCATIONS = ('s3://bucket/path/', 's3://bucket/path/') ]
   ```

### Panduan Ilmuwan Data
<a name="data-wrangler-snowflake-ds"></a>

Gunakan yang berikut ini untuk menghubungkan Snowflake dan mengakses data Anda di Data Wrangler.

**penting**  
Administrator Anda perlu menggunakan informasi di bagian sebelumnya untuk mengatur Snowflake. Jika Anda mengalami masalah, hubungi mereka untuk bantuan pemecahan masalah.

Anda dapat terhubung ke Snowflake dengan salah satu cara berikut:
+ Menentukan kredensi Snowflake Anda (nama akun, nama pengguna, dan kata sandi) di Data Wrangler. 
+ Menyediakan Nama Sumber Daya Amazon (ARN) dari rahasia yang berisi kredensialnya.
+ Menggunakan standar terbuka untuk penyedia delegasi akses (OAuth) yang terhubung ke Snowflake. Administrator Anda dapat memberi Anda akses ke salah satu OAuth penyedia berikut:
  + [Azure AD](https://docs.snowflake.com/en/user-guide/oauth-azure.html)
  + [Okta](https://docs.snowflake.com/en/user-guide/oauth-okta.html)
  + [Federasi Ping](https://docs.snowflake.com/en/user-guide/oauth-pingfed.html)

Bicaralah dengan administrator Anda tentang metode yang perlu Anda gunakan untuk terhubung ke Snowflake.

Bagian berikut memiliki informasi tentang bagaimana Anda dapat terhubung ke Snowflake menggunakan metode sebelumnya.

------
#### [ Specifying your Snowflake Credentials ]

**Untuk mengimpor dataset ke Data Wrangler dari Snowflake menggunakan kredensi Anda**

1. Masuk ke [Amazon SageMaker AI Console](https://console.aws.amazon.com/sagemaker).

1. Pilih **Studio**.

1. Pilih **Luncurkan aplikasi**.

1. **Dari daftar dropdown, pilih Studio.**

1. Pilih ikon Beranda.

1. Pilih **Data**.

1. Pilih **Data Wrangler**.

1. Pilih **Impor data**.

1. Di bawah **Tersedia**, pilih **Kepingan Salju**.

1. Untuk **nama Koneksi**, tentukan nama yang secara unik mengidentifikasi koneksi.

1. Untuk **metode Authentication**, pilih **Basic Username-Password**.

1. Untuk **nama akun Snowflake (alfanumerik)**, tentukan nama lengkap akun Snowflake.

1. Untuk **Nama Pengguna**, tentukan nama pengguna yang Anda gunakan untuk mengakses akun Snowflake.

1. Untuk **Kata Sandi**, tentukan kata sandi yang terkait dengan nama pengguna.

1. (Opsional) Untuk **pengaturan lanjutan**. tentukan yang berikut ini:
   + **Peran** — Peran dalam Snowflake. Beberapa peran memiliki akses ke kumpulan data yang berbeda. Jika Anda tidak menentukan peran, Data Wrangler menggunakan peran default di akun Snowflake Anda.
   + **Integrasi penyimpanan** — Saat Anda menentukan dan menjalankan kueri, Data Wrangler membuat salinan sementara hasil kueri dalam memori. Untuk menyimpan salinan permanen hasil kueri, tentukan lokasi Amazon S3 untuk integrasi penyimpanan. Administrator Anda memberi Anda URI S3.
   + **ID kunci KMS** — Kunci KMS yang telah Anda buat. Anda dapat menentukan ARN untuk mengenkripsi output dari kueri Snowflake. Jika tidak, Data Wrangler menggunakan enkripsi default.

1. Pilih **Hubungkan**.

------
#### [ Providing an Amazon Resource Name (ARN) ]

**Untuk mengimpor dataset ke Data Wrangler dari Snowflake menggunakan ARN**

1. Masuk ke [Amazon SageMaker AI Console](https://console.aws.amazon.com/sagemaker).

1. Pilih **Studio**.

1. Pilih **Luncurkan aplikasi**.

1. **Dari daftar dropdown, pilih Studio.**

1. Pilih ikon Beranda.

1. Pilih **Data**.

1. Pilih **Data Wrangler**.

1. Pilih **Impor data**.

1. Di bawah **Tersedia**, pilih **Kepingan Salju**.

1. Untuk **nama Koneksi**, tentukan nama yang secara unik mengidentifikasi koneksi.

1. Untuk **metode otentikasi**, pilih **ARN**.

1. **Secrets Manager ARN** — ARN AWS Secrets Manager rahasia yang digunakan untuk menyimpan kredensil yang digunakan untuk terhubung ke Snowflake.

1. (Opsional) Untuk **pengaturan lanjutan**. tentukan yang berikut ini:
   + **Peran** — Peran dalam Snowflake. Beberapa peran memiliki akses ke kumpulan data yang berbeda. Jika Anda tidak menentukan peran, Data Wrangler menggunakan peran default di akun Snowflake Anda.
   + **Integrasi penyimpanan** — Saat Anda menentukan dan menjalankan kueri, Data Wrangler membuat salinan sementara hasil kueri dalam memori. Untuk menyimpan salinan permanen hasil kueri, tentukan lokasi Amazon S3 untuk integrasi penyimpanan. Administrator Anda memberi Anda URI S3.
   + **ID kunci KMS** — Kunci KMS yang telah Anda buat. Anda dapat menentukan ARN untuk mengenkripsi output dari kueri Snowflake. Jika tidak, Data Wrangler menggunakan enkripsi default.

1. Pilih **Hubungkan**.

------
#### [ Using an OAuth Connection ]

**penting**  
Administrator Anda menyesuaikan lingkungan Studio Classic Anda untuk menyediakan fungsionalitas yang Anda gunakan untuk menggunakan OAuth koneksi. Anda mungkin perlu me-restart aplikasi server Jupyter untuk menggunakan fungsionalitas.  
Gunakan prosedur berikut untuk memperbarui aplikasi server Jupyter.  
Dalam Studio Classic, pilih **File**
Pilih **Shut down**.
Pilih **Shut down server**.
Tutup tab atau jendela yang Anda gunakan untuk mengakses Studio Classic.
Dari konsol Amazon SageMaker AI, buka Studio Classic.

**Untuk mengimpor dataset ke Data Wrangler dari Snowflake menggunakan kredensi Anda**

1. Masuk ke [Amazon SageMaker AI Console](https://console.aws.amazon.com/sagemaker).

1. Pilih **Studio**.

1. Pilih **Luncurkan aplikasi**.

1. **Dari daftar dropdown, pilih Studio.**

1. Pilih ikon Beranda.

1. Pilih **Data**.

1. Pilih **Data Wrangler**.

1. Pilih **Impor data**.

1. Di bawah **Tersedia**, pilih **Kepingan Salju**.

1. Untuk **nama Koneksi**, tentukan nama yang secara unik mengidentifikasi koneksi.

1. Untuk **metode Otentikasi**, pilih **OAuth**.

1. (Opsional) Untuk **pengaturan lanjutan**. tentukan yang berikut ini:
   + **Peran** — Peran dalam Snowflake. Beberapa peran memiliki akses ke kumpulan data yang berbeda. Jika Anda tidak menentukan peran, Data Wrangler menggunakan peran default di akun Snowflake Anda.
   + **Integrasi penyimpanan** — Saat Anda menentukan dan menjalankan kueri, Data Wrangler membuat salinan sementara hasil kueri dalam memori. Untuk menyimpan salinan permanen hasil kueri, tentukan lokasi Amazon S3 untuk integrasi penyimpanan. Administrator Anda memberi Anda URI S3.
   + **ID kunci KMS** — Kunci KMS yang telah Anda buat. Anda dapat menentukan ARN untuk mengenkripsi output dari kueri Snowflake. Jika tidak, Data Wrangler menggunakan enkripsi default.

1. Pilih **Hubungkan**.

------

Anda dapat memulai proses mengimpor data Anda dari Snowflake setelah Anda terhubung dengannya.

Dalam Data Wrangler, Anda dapat melihat gudang data, database, dan skema Anda, bersama dengan ikon mata yang dapat digunakan untuk melihat pratinjau tabel Anda. Setelah Anda memilih ikon **Tabel Pratinjau**, pratinjau skema tabel tersebut dihasilkan. Anda harus memilih gudang sebelum Anda dapat melihat pratinjau tabel.

**penting**  
Jika Anda mengimpor dataset dengan kolom jenis `TIMESTAMP_TZ` atau`TIMESTAMP_LTZ`, tambahkan `::string` ke nama kolom kueri Anda. Untuk informasi selengkapnya, lihat [Cara: Membongkar data TIMESTAMP\$1TZ dan TIMESTAMP\$1LTZ](https://community.snowflake.com/s/article/How-To-Unload-Timestamp-data-in-a-Parquet-file) ke file Parket.

Setelah Anda memilih gudang data, database dan skema, Anda sekarang dapat menulis kueri dan menjalankannya. Output kueri Anda ditampilkan di bawah **Hasil kueri**.

Setelah Anda menyelesaikan output kueri Anda, Anda kemudian dapat mengimpor output kueri Anda ke dalam aliran Data Wrangler untuk melakukan transformasi data. 

Setelah mengimpor data, navigasikan ke alur Data Wrangler Anda dan mulailah menambahkan transformasi ke dalamnya. Untuk daftar transformasi yang tersedia, lihat[Transformasi Data](data-wrangler-transform.md).

## Impor Data Dari Perangkat Lunak sebagai Platform Layanan (SaaS)
<a name="data-wrangler-import-saas"></a>

Anda dapat menggunakan Data Wrangler untuk mengimpor data dari lebih dari empat puluh platform perangkat lunak sebagai layanan (SaaS). Untuk mengimpor data Anda dari platform SaaS Anda, Anda atau administrator Anda harus menggunakan Amazon AppFlow untuk mentransfer data dari platform ke Amazon S3 atau Amazon Redshift. Untuk informasi selengkapnya tentang Amazon AppFlow, lihat [Apa itu Amazon AppFlow?](https://docs.aws.amazon.com/appflow/latest/userguide/what-is-appflow.html) Jika Anda tidak perlu menggunakan Amazon Redshift, kami sarankan untuk mentransfer data ke Amazon S3 untuk proses yang lebih sederhana.

Data Wrangler mendukung transfer data dari platform SaaS berikut:
+ [Amplitudo](https://docs.aws.amazon.com/appflow/latest/userguide/amplitude.html)
+ [Asana](https://docs.aws.amazon.com/appflow/latest/userguide/connectors-asana.html)
+ [Braintree](https://docs.aws.amazon.com/appflow/latest/userguide/connectors-braintree.html)
+ [CircleCI](https://docs.aws.amazon.com/appflow/latest/userguide/connectors-circleci.html)
+ [DocuSign Monitor](https://docs.aws.amazon.com/appflow/latest/userguide/connectors-docusign-monitor.html)
+ [Senang](https://docs.aws.amazon.com/appflow/latest/userguide/connectors-delighted.html)
+ [Domo](https://docs.aws.amazon.com/appflow/latest/userguide/connectors-domo.html)
+ [Datadog](https://docs.aws.amazon.com/appflow/latest/userguide/datadog.html)
+ [Dynatrace](https://docs.aws.amazon.com/appflow/latest/userguide/dynatrace.html)
+ [Iklan Facebook](https://docs.aws.amazon.com/appflow/latest/userguide/connectors-facebook-ads.html)
+ [Wawasan Halaman Facebook](https://docs.aws.amazon.com/appflow/latest/userguide/connectors-facebook-page-insights.html)
+ [Iklan Google](https://docs.aws.amazon.com/appflow/latest/userguide/connectors-google-ads.html)
+ [Google Analytics 4](https://docs.aws.amazon.com/appflow/latest/userguide/connectors-google-analytics-4.html)
+ [Google Calendar](https://docs.aws.amazon.com/appflow/latest/userguide/connectors-google-calendar.html)
+ [Konsol Penelusuran Google](https://docs.aws.amazon.com/appflow/latest/userguide/connectors-google-search-console.html)
+ [GitHub](https://docs.aws.amazon.com/appflow/latest/userguide/connectors-github.html)
+ [GitLab](https://docs.aws.amazon.com/appflow/latest/userguide/connectors-gitlab.html)
+ [Infor Nexus](https://docs.aws.amazon.com/appflow/latest/userguide/infor-nexus.html)
+ [Iklan Instagram](https://docs.aws.amazon.com/appflow/latest/userguide/connectors-instagram-ads.html)
+ [Interkom](https://docs.aws.amazon.com/appflow/latest/userguide/connectors-intercom.html)
+ [JDBC (Sinkronisasi)](https://docs.aws.amazon.com/appflow/latest/userguide/connectors-jdbc.html)
+ [Jira Cloud](https://docs.aws.amazon.com/appflow/latest/userguide/connectors-jira-cloud.html)
+ [LinkedIn Iklan](https://docs.aws.amazon.com/appflow/latest/userguide/connectors-linkedin-ads.html)
+ [Mailchimp](https://docs.aws.amazon.com/appflow/latest/userguide/connectors-mailchimp.html)
+ [Marketo](https://docs.aws.amazon.com/appflow/latest/userguide/marketo.html)
+ [Microsoft Dynamics 365](https://docs.aws.amazon.com/appflow/latest/userguide/connectors-microsoft-dynamics-365.html)
+ [Microsoft Teams](https://docs.aws.amazon.com/appflow/latest/userguide/connectors-microsoft-teams.html)
+ [Mixpanel](https://docs.aws.amazon.com/appflow/latest/userguide/connectors-mixpanel.html)
+ [Okta](https://docs.aws.amazon.com/appflow/latest/userguide/connectors-okta.html)
+ [Oracle HCM](https://docs.aws.amazon.com/appflow/latest/userguide/connectors-oracle-hcm.html)
+ [Paypal Checkout](https://docs.aws.amazon.com/appflow/latest/userguide/connectors-paypal.html)
+ [Pendo](https://docs.aws.amazon.com/appflow/latest/userguide/connectors-pendo.html)
+ [Salesforce](https://docs.aws.amazon.com/appflow/latest/userguide/salesforce.html)
+ [Cloud Pemasaran Salesforce](https://docs.aws.amazon.com/appflow/latest/userguide/connectors-salesforce-marketing-cloud.html)
+ [Salesforce Pardot](https://docs.aws.amazon.com/appflow/latest/userguide/pardot.html)
+ [GETAH OData](https://docs.aws.amazon.com/appflow/latest/userguide/sapodata.html)
+ [SendGrid](https://docs.aws.amazon.com/appflow/latest/userguide/connectors-sendgrid.html)
+ [ServiceNow](https://docs.aws.amazon.com/appflow/latest/userguide/servicenow.html)
+ [Tunggal](https://docs.aws.amazon.com/appflow/latest/userguide/singular.html)
+ [Slack](https://docs.aws.amazon.com/appflow/latest/userguide/slack.html)
+ [Smartsheet](https://docs.aws.amazon.com/appflow/latest/userguide/connectors-smartsheet.html)
+ [Iklan Snapchat](https://docs.aws.amazon.com/appflow/latest/userguide/connectors-snapchat-ads.html)
+ [Stripe](https://docs.aws.amazon.com/appflow/latest/userguide/connectors-stripe.html)
+ [Tren Mikro](https://docs.aws.amazon.com/appflow/latest/userguide/trend-micro.html)
+ [Jenis huruf](https://docs.aws.amazon.com/appflow/latest/userguide/connectors-typeform.html)
+ [Veeva](https://docs.aws.amazon.com/appflow/latest/userguide/veeva.html)
+ [WooCommerce](https://docs.aws.amazon.com/appflow/latest/userguide/connectors-woocommerce.html)
+ [Zendesk](https://docs.aws.amazon.com/appflow/latest/userguide/slack.html)
+ [Obrolan Zendesk](https://docs.aws.amazon.com/appflow/latest/userguide/connectors-zendesk-chat.html)
+ [Jual Zendesk](https://docs.aws.amazon.com/appflow/latest/userguide/connectors-zendesk-sell.html)
+ [Sinar Matahari Zendesk](https://docs.aws.amazon.com/appflow/latest/userguide/connectors-zendesk-sunshine.html)
+ [Zoho CRM](https://docs.aws.amazon.com/appflow/latest/userguide/connectors-zoho-crm.html)
+ [Pertemuan Zoom](https://docs.aws.amazon.com/appflow/latest/userguide/connectors-zoom-meetings.html)

Daftar sebelumnya memiliki tautan ke informasi lebih lanjut tentang pengaturan sumber data Anda. Anda atau administrator Anda dapat merujuk ke tautan sebelumnya setelah Anda membaca informasi berikut.

Saat Anda menavigasi ke tab **Impor** aliran Data Wrangler Anda, Anda melihat sumber data di bawah bagian berikut:
+ **Available**
+ **Siapkan sumber data**

Anda dapat terhubung ke sumber data di bawah **Tersedia** tanpa memerlukan konfigurasi tambahan. Anda dapat memilih sumber data dan mengimpor data Anda.

Sumber data di bawah **Mengatur sumber data**, mengharuskan Anda atau administrator Anda menggunakan Amazon AppFlow untuk mentransfer data dari platform SaaS ke Amazon S3 atau Amazon Redshift. Untuk informasi tentang melakukan transfer, lihat[Menggunakan Amazon AppFlow untuk mentransfer data Anda](#data-wrangler-import-saas-transfer).

**Setelah Anda melakukan transfer data, platform SaaS muncul sebagai sumber data di bawah Tersedia.** Anda dapat memilihnya dan mengimpor data yang telah Anda transfer ke Data Wrangler. Data yang telah Anda transfer muncul sebagai tabel yang dapat Anda kueri.

### Menggunakan Amazon AppFlow untuk mentransfer data Anda
<a name="data-wrangler-import-saas-transfer"></a>

Amazon AppFlow adalah platform yang dapat Anda gunakan untuk mentransfer data dari platform SaaS Anda ke Amazon S3 atau Amazon Redshift tanpa harus menulis kode apa pun. Untuk melakukan transfer data, Anda menggunakan file Konsol Manajemen AWS.

**penting**  
Anda harus memastikan bahwa Anda telah mengatur izin untuk melakukan transfer data. Untuk informasi selengkapnya, lihat [AppFlow Izin Amazon](data-wrangler-security.md#data-wrangler-appflow-permissions).

Setelah menambahkan izin, Anda dapat mentransfer data. Di Amazon AppFlow, Anda membuat *alur* untuk mentransfer data. Aliran adalah serangkaian konfigurasi. Anda dapat menggunakannya untuk menentukan apakah Anda menjalankan transfer data sesuai jadwal atau apakah Anda mempartisi data menjadi file terpisah. Setelah mengkonfigurasi alur, Anda menjalankannya untuk mentransfer data.

Untuk informasi tentang membuat alur, lihat [Membuat alur di Amazon AppFlow](https://docs.aws.amazon.com/appflow/latest/userguide/create-flow.html). Untuk informasi tentang menjalankan alur, lihat [Mengaktifkan AppFlow aliran Amazon](https://docs.aws.amazon.com/appflow/latest/userguide/run-flow.html).

Setelah data ditransfer, gunakan prosedur berikut untuk mengakses data di Data Wrangler.
**penting**  
Sebelum Anda mencoba mengakses data Anda, pastikan peran IAM Anda memiliki kebijakan berikut:  

****  

```
{
    "Version":"2012-10-17",		 	 	 
    "Statement": [
        {
            "Effect": "Allow",
            "Action": "glue:SearchTables",
            "Resource": [
                "arn:aws:glue:*:*:table/*/*",
                "arn:aws:glue:*:*:database/*",
                "arn:aws:glue:*:*:catalog"
            ]
        }
    ]
}
```
Secara default, peran IAM yang Anda gunakan untuk mengakses Data Wrangler adalah. `SageMakerExecutionRole` Untuk informasi selengkapnya tentang menambahkan kebijakan, lihat [Menambahkan izin identitas IAM (konsol)](https://docs.aws.amazon.com/IAM/latest/UserGuide/access_policies_manage-attach-detach.html#add-policies-console).

Untuk terhubung ke sumber data, lakukan hal berikut.

1. Masuk ke [Amazon SageMaker AI Console](https://console.aws.amazon.com/sagemaker).

1. Pilih **Studio**.

1. Pilih **Luncurkan aplikasi**.

1. **Dari daftar dropdown, pilih Studio.**

1. Pilih ikon Beranda.

1. Pilih **Data**.

1. Pilih **Data Wrangler**.

1. Pilih **Impor data**.

1. Di bawah **Tersedia**, pilih sumber data.

1. Untuk bidang **Nama**, tentukan nama koneksi.

1. (Opsional) Pilih **Konfigurasi lanjutan**.

   1. Pilih **Workgroup**.

   1. Jika grup kerja Anda belum menerapkan lokasi keluaran Amazon S3 atau jika Anda tidak menggunakan grup kerja, tentukan nilai untuk lokasi hasil kueri Amazon **S3**.

   1. (Opsional) Untuk **periode penyimpanan data**, pilih kotak centang untuk mengatur periode penyimpanan data dan tentukan jumlah hari untuk menyimpan data sebelum dihapus.

   1. (Opsional) Secara default, Data Wrangler menyimpan koneksi. Anda dapat memilih untuk membatalkan pilihan kotak centang dan tidak menyimpan koneksi.

1. Pilih **Hubungkan**.

1. Tentukan kueri.
**catatan**  
Untuk membantu Anda menentukan kueri, Anda dapat memilih tabel di panel navigasi sebelah kiri. Data Wrangler menunjukkan nama tabel dan pratinjau tabel. Pilih ikon di sebelah nama tabel untuk menyalin nama. Anda dapat menggunakan nama tabel dalam kueri.

1. Pilih **Jalankan**.

1. Pilih **kueri Impor**.

1. Untuk **nama Dataset**, tentukan nama dataset.

1. Pilih **Tambahkan**.

Saat Anda menavigasi ke layar **Impor data**, Anda dapat melihat koneksi yang telah Anda buat. Anda dapat menggunakan koneksi untuk mengimpor lebih banyak data.

## Penyimpanan Data yang Diimpor
<a name="data-wrangler-import-storage"></a>

**penting**  
 Kami sangat menyarankan agar Anda mengikuti praktik terbaik seputar melindungi bucket Amazon S3 Anda dengan mengikuti praktik [terbaik Keamanan](https://docs.aws.amazon.com/AmazonS3/latest/userguide/security-best-practices.html). 

Saat Anda menanyakan data dari Amazon Athena atau Amazon Redshift, kumpulan data yang ditanyakan secara otomatis disimpan di Amazon S3. Data disimpan di bucket SageMaker AI S3 default untuk AWS Wilayah tempat Anda menggunakan Studio Classic.

Bucket S3 default memiliki konvensi penamaan berikut:. `sagemaker-region-account number` Misalnya, jika nomor akun Anda 111122223333 dan Anda menggunakan Studio Classic in, kumpulan data yang diimpor akan disimpan di `us-east-1` 111122223333. `sagemaker-us-east-1-` 

 Alur Data Wrangler bergantung pada lokasi kumpulan data Amazon S3 ini, jadi Anda tidak boleh memodifikasi kumpulan data ini di Amazon S3 saat Anda menggunakan aliran dependen. Jika Anda memodifikasi lokasi S3 ini, dan Anda ingin terus menggunakan aliran data Anda, Anda harus menghapus semua objek `trained_parameters` dalam file.flow Anda. Untuk melakukan ini, unduh file.flow dari Studio Classic dan untuk setiap instance`trained_parameters`, hapus semua entri. Ketika Anda selesai, `trained_parameters` harus menjadi objek JSON kosong:

```
"trained_parameters": {}
```

Saat Anda mengekspor dan menggunakan aliran data untuk memproses data, file.flow yang Anda ekspor merujuk ke kumpulan data ini di Amazon S3. Gunakan bagian berikut untuk mempelajari lebih lanjut. 

### Penyimpanan Impor Amazon Redshift
<a name="data-wrangler-import-storage-redshift"></a>

Data Wrangler menyimpan kumpulan data yang dihasilkan dari kueri Anda dalam file Parket di bucket AI S3 default Anda. SageMaker 

File ini disimpan di bawah awalan berikut (direktori): redshift/ *uuid* /data/, di mana *uuid* adalah pengidentifikasi unik yang dibuat untuk setiap kueri. 

Misalnya, jika bucket default Anda, satu kumpulan data yang ditanyakan dari Amazon Redshift terletak di s3://-1-111122223333/redshift/ /data/. `sagemaker-us-east-1-111122223333` sagemaker-us-east *uuid*

### Penyimpanan Impor Amazon Athena
<a name="data-wrangler-import-storage-athena"></a>

*Saat Anda menanyakan database Athena dan mengimpor kumpulan data, Data Wrangler menyimpan kumpulan data, serta subset dari kumpulan data tersebut, atau file pratinjau, di Amazon S3.* 

Dataset yang Anda impor dengan memilih **Impor dataset** disimpan dalam format Parket di Amazon S3. 

File pratinjau ditulis dalam format CSV saat Anda memilih **Jalankan** di layar impor Athena, dan berisi hingga 100 baris dari kumpulan data yang Anda kueri. 

Dataset yang Anda kueri terletak di bawah awalan (direktori): athena/ *uuid* /data/, di mana *uuid* adalah pengidentifikasi unik yang dibuat untuk setiap kueri.

Misalnya, jika bucket default Anda adalah`sagemaker-us-east-1-111122223333`, satu set data yang ditanyakan dari Athena terletak di /athena/ /data/. `s3://sagemaker-us-east-1-111122223333` *uuid* *example\$1dataset.parquet*

Subset dari kumpulan data yang disimpan untuk melihat pratinjau kerangka data di Data Wrangler disimpan di bawah awalan: athena/.