

Terjemahan disediakan oleh mesin penerjemah. Jika konten terjemahan yang diberikan bertentangan dengan versi bahasa Inggris aslinya, utamakan versi bahasa Inggris.

# Tutorial: Bangun beban kerja streaming pertama Anda menggunakan Studio AWS Glue
<a name="streaming-tutorial-studio"></a>

Dalam tutorial ini, Anda akan belajar cara membuat pekerjaan streaming menggunakan AWS Glue Studio. AWS Glue Studio adalah antarmuka visual untuk menciptakan AWS Glue pekerjaan.

Anda dapat membuat pekerjaan ekstrak, transformasi, dan pemuatan streaming (ETL) yang berjalan terus menerus dan menggunakan data dari sumber streaming di Amazon Kinesis Data Streams, Apache Kafka, dan Amazon Managed Streaming untuk Apache Kafka (Amazon MSK).

## Prasyarat
<a name="streaming-tutorial-studio-prereqs"></a>

Untuk mengikuti tutorial ini, Anda memerlukan pengguna dengan izin AWS konsol untuk digunakan AWS Glue, Amazon Kinesis, Amazon S3, Amazon Athena,, AWS CloudFormation Lambda AWS , dan Amazon Cognito.

## Konsumsi data streaming dari Amazon Kinesis
<a name="streaming-tutorial-studio-kinesis"></a>

**Topics**
+ [Menghasilkan data tiruan dengan Kinesis Data Generator](#streaming-tutorial-studio-kinesis-generate-data)
+ [Membuat pekerjaan AWS Glue streaming dengan AWS Glue Studio](#streaming-tutorial-studio-kinesis-create-job)
+ [Melakukan transformasi dan menyimpan hasil yang ditransformasikan di Amazon S3](#streaming-tutorial-studio-kinesis-transformation)

### Menghasilkan data tiruan dengan Kinesis Data Generator
<a name="streaming-tutorial-studio-kinesis-generate-data"></a>

Anda dapat secara sintetis menghasilkan data sampel dalam format JSON menggunakan Kinesis Data Generator (KDG). Anda dapat menemukan instruksi dan detail lengkap dalam [dokumentasi alat](https://awslabs.github.io/amazon-kinesis-data-generator/web/help.html).

1. Untuk memulai, klik [https://console.aws.amazon.com/cloudformation/home?region=us-east-2#/stacks/new?templateURL=https%3A%2F%2Faws-data-analytics-workshops.s3.amazonaws.com/aws_glue/aws_glue_streaming/docs/glue-stream.yaml&stackName=glue-stream](https://console.aws.amazon.com/cloudformation/home?region=us-east-2#/stacks/new?templateURL=https%3A%2F%2Faws-data-analytics-workshops.s3.amazonaws.com/aws_glue/aws_glue_streaming/docs/glue-stream.yaml&stackName=glue-stream)untuk menjalankan AWS CloudFormation template di AWS lingkungan Anda.
**catatan**  
Anda mungkin mengalami kegagalan CloudFormation template karena beberapa sumber daya, seperti pengguna Amazon Cognito untuk Kinesis Data Generator sudah ada di akun Anda. AWS Ini bisa jadi karena Anda sudah mengaturnya dari tutorial atau blog lain. Untuk mengatasi hal ini, Anda dapat mencoba template di AWS akun baru untuk awal yang baru, atau menjelajahi AWS Wilayah yang berbeda. Opsi ini memungkinkan Anda menjalankan tutorial tanpa bertentangan dengan sumber daya yang ada.

   Template menyediakan aliran data Kinesis dan akun Kinesis Data Generator untuk Anda. Ini juga membuat bucket Amazon S3 untuk menyimpan data dan Peran Layanan Glue dengan izin yang diperlukan untuk tutorial ini.

1. Masukkan **Nama Pengguna** dan **Kata Sandi** yang akan digunakan KDG untuk mengautentikasi. Perhatikan nama pengguna dan kata sandi untuk penggunaan lebih lanjut.

1. Pilih **Berikutnya** sampai ke langkah terakhir. Mengakui penciptaan sumber daya IAM. Periksa kesalahan apa pun di bagian atas layar, seperti kata sandi yang tidak memenuhi persyaratan minimum, dan gunakan templat.

1. Arahkan ke tab **Output** dari tumpukan. Setelah template digunakan, itu akan menampilkan properti **KinesisDataGeneratorUrl**yang dihasilkan. Klik URL tersebut.

1. Masukkan **Nama Pengguna** dan **Kata Sandi** yang Anda catat.

1. Pilih Wilayah yang Anda gunakan dan pilih Kinesis Stream `GlueStreamTest-{AWS::AccountId}`

1. Masukkan template berikut:

   ```
   {
       "ventilatorid": {{random.number(100)}},
       "eventtime": "{{date.now("YYYY-MM-DD HH:mm:ss")}}",
       "serialnumber": "{{random.uuid}}",
       "pressurecontrol": {{random.number(
           {
               "min":5,
               "max":30
           }
       )}},
       "o2stats": {{random.number(
           {
               "min":92,
               "max":98
           }
       )}},
       "minutevolume": {{random.number(
           {
               "min":5,
               "max":8
           }
       )}},
       "manufacturer": "{{random.arrayElement(
           ["3M", "GE","Vyaire", "Getinge"]
       )}}"
   }
   ```

   **Anda sekarang dapat melihat data tiruan dengan **template Uji** dan menelan data tiruan ke Kinesis dengan data Kirim.**

1. Klik **Kirim data** dan hasilkan 5-10K catatan ke Kinesis.

### Membuat pekerjaan AWS Glue streaming dengan AWS Glue Studio
<a name="streaming-tutorial-studio-kinesis-create-job"></a>

1. Arahkan ke AWS Glue konsol di Wilayah yang sama.

1. Pilih **pekerjaan ETL** di bawah bilah navigasi sisi kiri di bawah **Integrasi Data dan ETL**.

1. Buat AWS Glue Job via **Visual dengan kanvas kosong**.  
![Tangkapan layar menunjukkan dialog buat pekerjaan.](http://docs.aws.amazon.com/id_id/glue/latest/dg/images/streaming-tutorial-1a.png)

1. Arahkan ke tab **Job Details**.

1. Untuk nama AWS Glue pekerjaan, masukkan`DemoStreamingJob`.

1. Untuk **Peran IAM**, pilih peran yang disediakan oleh templat, CloudFormation . `glue-tutorial-role-${AWS::AccountId}`

1. Untuk **versi Glue**, pilih **Glue 3.0**. Biarkan semua opsi lain sebagai default.  
![Tangkapan layar menunjukkan tab detail pekerjaan.](http://docs.aws.amazon.com/id_id/glue/latest/dg/images/streaming-tutorial-1b.png)

1. Arahkan ke **tab Visual**.

1. Klik pada ikon plus. Masukkan **Kinesis** di bilah pencarian. Pilih sumber data **Amazon Kinesis**.  
![Tangkapan layar menunjukkan dialog Tambahkan node.](http://docs.aws.amazon.com/id_id/glue/latest/dg/images/streaming-tutorial-1c.png)

1. Pilih **Streaming detail** untuk Sumber **Amazon Kinesis di bawah tab Properti sumber** **data - Aliran Kinesis**.

1. Pilih **Stream terletak di akun saya** untuk **Lokasi aliran data**.

1. Pilih Wilayah yang Anda gunakan.

1. Pilih `GlueStreamTest-{AWS::AccountId}` aliran.

1. Simpan semua pengaturan lainnya sebagai default.  
![Tangkapan layar menunjukkan tab Properti sumber data.](http://docs.aws.amazon.com/id_id/glue/latest/dg/images/streaming-tutorial-1d.png)

1. Arahkan ke tab **Pratinjau data**.

1. Klik **Mulai sesi pratinjau data**, yang menampilkan pratinjau data tiruan yang dihasilkan oleh KDG. Pilih Peran Layanan Glue yang sebelumnya Anda buat untuk pekerjaan AWS Glue Streaming.

   Dibutuhkan 30-60 detik agar data pratinjau muncul. Jika ditampilkan **Tidak ada data untuk ditampilkan**, klik ikon roda gigi dan ubah **Jumlah baris yang akan dijadikan sampel**`100`.

   Anda dapat melihat data sampel seperti di bawah ini:  
![Tangkapan layar menunjukkan tab Pratinjau data.](http://docs.aws.amazon.com/id_id/glue/latest/dg/images/streaming-tutorial-1e.png)

   Anda juga dapat melihat skema yang disimpulkan di tab **skema Output**.  
![Tangkapan layar menunjukkan skema Output tab.](http://docs.aws.amazon.com/id_id/glue/latest/dg/images/streaming-tutorial-1f.png)

### Melakukan transformasi dan menyimpan hasil yang ditransformasikan di Amazon S3
<a name="streaming-tutorial-studio-kinesis-transformation"></a>

1. Dengan node sumber yang dipilih, klik ikon plus di kiri atas untuk menambahkan langkah **Transforms**.

1. Pilih langkah **Ubah Skema**.  
![Tangkapan layar menunjukkan dialog Tambahkan node.](http://docs.aws.amazon.com/id_id/glue/latest/dg/images/streaming-tutorial-1g.png)

1. Anda dapat mengganti nama bidang dan mengonversi tipe data bidang dalam langkah ini. Ubah nama `o2stats` kolom menjadi `OxygenSaturation` dan ubah semua tipe `long` data menjadi`int`.  
![Tangkapan layar menunjukkan tab Transform.](http://docs.aws.amazon.com/id_id/glue/latest/dg/images/streaming-tutorial-1h.png)

1. Klik ikon plus untuk menambahkan target **Amazon S3**. Masukkan S3 di kotak pencarian dan pilih **Amazon S3 -** Langkah transformasi target.  
![Tangkapan layar menunjukkan tab Tambah node.](http://docs.aws.amazon.com/id_id/glue/latest/dg/images/streaming-tutorial-1i.png)

1. Pilih **Parket** sebagai format file target.

1. Pilih **Snappy** sebagai tipe kompresi.

1. Masukkan **Lokasi Target S3** yang dibuat oleh CloudFormation template,`streaming-tutorial-s3-target-{AWS::AccountId}`. 

1. Pilih untuk **Membuat tabel di Katalog Data dan pada proses berikutnya, perbarui skema dan tambahkan partisi baru**.

1. Masukkan **Database** target dan nama **Tabel** untuk menyimpan skema tabel target Amazon S3.  
![Tangkapan layar menunjukkan halaman konfigurasi untuk target Amazon S3.](http://docs.aws.amazon.com/id_id/glue/latest/dg/images/streaming-tutorial-1j.png)

1. Klik pada tab **Script** untuk melihat kode yang dihasilkan.

1. Klik **Simpan** di kanan atas untuk menyimpan kode ETL dan kemudian klik **Jalankan** untuk memulai pekerjaan streaming. AWS Glue 

   Anda dapat menemukan **status Run** di tab **Runs**. Biarkan pekerjaan berjalan selama 3-5 menit dan kemudian hentikan pekerjaan.  
![Tangkapan layar menunjukkan tab Runs.](http://docs.aws.amazon.com/id_id/glue/latest/dg/images/streaming-tutorial-1k.png)

1. Verifikasi tabel baru yang dibuat di Amazon Athena.  
![Tangkapan layar menunjukkan tabel di Amazon Athena.](http://docs.aws.amazon.com/id_id/glue/latest/dg/images/streaming-tutorial-1l.png)