

Terjemahan disediakan oleh mesin penerjemah. Jika konten terjemahan yang diberikan bertentangan dengan versi bahasa Inggris aslinya, utamakan versi bahasa Inggris.

# Menggunakan beberapa sumber data dengan crawler
<a name="schema-crawlers-data-sources"></a>

Ketika AWS Glue crawler memindai Amazon S3 dan mendeteksi beberapa direktori, ia menggunakan heuristik untuk menentukan di mana root untuk tabel berada dalam struktur direktori, dan direktori mana yang merupakan partisi untuk tabel. Dalam beberapa kasus, tempat skema yang terdeteksi dalam dua atau lebih direktori serupa, crawler dapat memperlakukannya sebagai partisi dan bukan tabel terpisah. Salah satu cara untuk membantu crawler menemukan tabel individu adalah dengan menambahkan direktori root setiap tabel sebagai penyimpanan data untuk crawler.

Partisi berikut di Amazon S3 adalah contoh:

```
s3://amzn-s3-demo-bucket/folder1/table1/partition1/file.txt
s3://amzn-s3-demo-bucket/folder1/table1/partition2/file.txt
s3://amzn-s3-demo-bucket/folder1/table1/partition3/file.txt
s3://amzn-s3-demo-bucket/folder1/table2/partition4/file.txt
s3://amzn-s3-demo-bucket/folder1/table2/partition5/file.txt
```

Jika skema untuk `table1` dan serupa, dan `table2` satu sumber data diatur ke `s3://amzn-s3-demo-bucket/folder1/` dalam AWS Glue, crawler dapat membuat tabel tunggal dengan dua kolom partisi: satu kolom partisi yang berisi `table1` dan`table2`, dan kolom partisi kedua yang berisi `partition1` melalui. `partition5`

Agar AWS Glue crawler membuat dua tabel terpisah, atur crawler untuk memiliki dua sumber data, `s3://amzn-s3-demo-bucket/folder1/table1/` dan`s3://amzn-s3-demo-bucket/folder1/table2`, seperti yang ditunjukkan dalam prosedur berikut.

**Untuk menambahkan penyimpanan data S3 ke crawler yang ada di AWS Glue**

1. Masuk ke Konsol Manajemen AWS dan buka AWS Glue konsol di [https://console.aws.amazon.com/glue/](https://console.aws.amazon.com/glue/).

1. Di panel navigasi, pilih **Perayap**.

1. Pilih tautan ke crawler Anda, lalu pilih **Edit**. 

1. Untuk **Langkah 2: Pilih sumber data dan pengklasifikasi**, pilih **Edit**. 

1. Untuk **sumber data dan katalog**, pilih **Tambahkan sumber data**.

1. Dalam kotak dialog **Tambahkan sumber data**, untuk **jalur S3**, pilih **Jelajahi**. 

1. Pilih bucket yang ingin Anda gunakan, lalu pilih **Pilih**.

   Sumber data yang Anda tambahkan muncul di daftar **Sumber data**.

1. Pilih **Berikutnya**.

1. **Pada halaman **Konfigurasi pengaturan keamanan**, buat atau pilih peran IAM untuk crawler, lalu pilih Berikutnya.**

1. Pastikan bahwa jalur S3 berakhir dengan garis miring, lalu pilih **Tambahkan sumber data S3**.

1. Pada halaman **Set output dan penjadwalan**, untuk **konfigurasi Output**, pilih database target.

1. Pilih **Berikutnya**.

1. Pada halaman **Tinjau dan perbarui**, tinjau pilihan yang Anda buat. Untuk mengedit langkah, pilih **Edit**.

1.  Pilih **Perbarui**.