

Terjemahan disediakan oleh mesin penerjemah. Jika konten terjemahan yang diberikan bertentangan dengan versi bahasa Inggris aslinya, utamakan versi bahasa Inggris.

# Memproses data dalam bucket Amazon S3 dengan Peta Terdistribusi
<a name="sample-dist-map-s3data-process"></a>

Proyek sampel ini menunjukkan bagaimana Anda dapat menggunakan [*status Peta Terdistribusi*](state-map-distributed.md) untuk memproses data skala besar, misalnya, menganalisis data cuaca historis dan mengidentifikasi stasiun cuaca yang memiliki suhu rata-rata tertinggi di planet ini setiap bulan. Data cuaca direkam di lebih dari 12.000 file CSV, yang pada gilirannya disimpan dalam ember Amazon S3.

**Proyek sampel ini mencakup dua *status Peta Terdistribusi* bernama **Salinan S3 Terdistribusi Data dan Proses NOA**. NOAAData** **Salinan S3 terdistribusi NOA Data** iterasi melalui file CSV dalam bucket Amazon S3 publik bernama **noaa-gsod-pds**dan menyalinnya ke bucket Amazon S3 di bucket Anda. Akun AWS**Proses NOAAData** iterasi atas file yang disalin dan menyertakan fungsi Lambda yang melakukan analisis suhu.

Proyek sampel pertama-tama memeriksa konten bucket Amazon S3 dengan panggilan ke tindakan [ListObjectsV2](https://docs.aws.amazon.com/AmazonS3/latest/API/API_ListObjectsV2.html) API. Berdasarkan jumlah [kunci](https://docs.aws.amazon.com/AmazonS3/latest/API/API_ListObjectsV2.html#AmazonS3-ListObjectsV2-response-MaxKeys) yang dikembalikan sebagai tanggapan atas panggilan ini, proyek sampel mengambil salah satu keputusan berikut: 
+ Jika jumlah kunci lebih dari atau sama dengan 1, proyek akan beralih ke NOAAData status **Proses**. *Status Peta Terdistribusi* ini mencakup Lambda fungsi bernama **TemperatureFunction**yang menemukan stasiun cuaca yang memiliki suhu rata-rata tertinggi setiap bulan. Fungsi ini mengembalikan kamus dengan `year-month` sebagai kunci dan kamus yang berisi informasi tentang stasiun cuaca sebagai nilai.
+ Jika jumlah kunci yang dikembalikan tidak melebihi 1, status **Data NOA Salin S3 Terdistribusi** akan mencantumkan semua objek dari bucket publik **noaa-gsod-pds**dan secara berulang menyalin masing-masing objek ke bucket lain di akun Anda dalam batch 100. [Peta Inline](state-map-inline.md) melakukan penyalinan objek secara berulang.

  Setelah semua objek disalin, proyek bertransisi ke NOAAData status **Proses** untuk memproses data cuaca.

Proyek sampel akhirnya beralih ke Lambda fungsi peredam yang melakukan agregasi akhir dari hasil yang dikembalikan oleh **TemperatureFunction**fungsi dan menulis hasilnya ke tabel. Amazon DynamoDB

Dengan Distributed Map, Anda dapat menjalankan hingga 10.000 eksekusi alur kerja anak paralel sekaligus. Dalam proyek sampel ini, konkurensi maksimum **Process NOAAData** Distributed Map ditetapkan pada 3000 yang membatasi hingga 3000 eksekusi alur kerja anak paralel.

Proyek sampel ini membuat mesin status, AWS sumber daya pendukung, dan mengonfigurasi izin IAM terkait. Jelajahi proyek sampel ini untuk mempelajari tentang menggunakan Peta Terdistribusi untuk mengatur beban kerja paralel skala besar, atau menggunakannya sebagai titik awal untuk proyek Anda sendiri.

**penting**  
Proyek sampel ini hanya tersedia di Wilayah AS Timur (Virginia N.).

## Langkah 1: Buat mesin negara
<a name="sample-dist-map-s3data-create"></a>

1. Buka [Konsol Step Functions](https://console.aws.amazon.com/states/home?region=us-east-1#/) dan pilih **Buat mesin status**.

1. Pilih **Buat dari template** dan temukan template pemula terkait. Pilih **Next** untuk melanjutkan.

1. Pilih cara menggunakan template:

   1. **Jalankan demo** — membuat mesin status hanya-baca. Setelah ditinjau, Anda dapat membuat alur kerja dan semua sumber daya terkait.

   1. **Bangun di atasnya** — memberikan definisi alur kerja yang dapat diedit yang dapat Anda tinjau, sesuaikan, dan terapkan dengan sumber daya Anda sendiri. (Sumber daya terkait, seperti fungsi atau antrian, **tidak** akan dibuat secara otomatis.)

1. Pilih **Gunakan templat** untuk melanjutkan pilihan Anda.
**catatan**  
*Biaya standar berlaku untuk layanan yang digunakan ke akun Anda.*

## Langkah 2: Jalankan mesin status demo
<a name="sample-dist-map-s3data-run"></a>

Jika Anda memilih opsi **Jalankan demo**, semua sumber daya terkait akan digunakan dan siap dijalankan. Jika memilih opsi **Build on it**, Anda mungkin perlu menyetel nilai placeholder dan membuat sumber daya tambahan sebelum dapat menjalankan alur kerja kustom.

1. Pilih **Deploy dan jalankan**.

1. Tunggu CloudFormation tumpukan untuk digunakan. Ini bisa memakan waktu hingga 10 menit.

1. Setelah opsi **Mulai eksekusi** muncul, tinjau **Input** dan pilih **Mulai eksekusi**.

**Selamat\$1**  
Anda sekarang harus memiliki demo yang sedang berjalan dari mesin negara Anda. Anda dapat memilih status dalam **tampilan Grafik** untuk meninjau input, output, variabel, definisi, dan peristiwa.