Terjemahan disediakan oleh mesin penerjemah. Jika konten terjemahan yang diberikan bertentangan dengan versi bahasa Inggris aslinya, utamakan versi bahasa Inggris.
Data agregat di Amazon DynamoDB untuk peramalan ML di Athena
Sachin Doshi dan Peter Molnar, Amazon Web Services
Ringkasan
Pola ini menunjukkan kepada Anda cara membangun agregasi kompleks data Internet of Things (IoT) dalam tabel Amazon DynamoDB dengan menggunakan Amazon Athena. Anda juga mempelajari cara memperkaya data dengan inferensi pembelajaran mesin (ML) dengan menggunakan Amazon SageMaker AI dan cara menanyakan data geospasial dengan menggunakan Athena. Anda dapat menggunakan pola ini sebagai dasar untuk membuat solusi peramalan ML yang memenuhi persyaratan organisasi Anda.
Untuk tujuan demonstrasi, pola ini menggunakan contoh skenario bisnis yang mengoperasikan rideshare skuter dan ingin memprediksi jumlah skuter optimal yang harus digunakan untuk pelanggan di lingkungan perkotaan yang berbeda. Bisnis ini menggunakan model ML pra-terlatih yang memprediksi permintaan pelanggan untuk jam berikutnya berdasarkan empat jam terakhir. Skenario ini menggunakan dataset publik dari Office of Civic Innovation & Technology untuk pemerintah Metro
Prasyarat dan batasan
Aktif Akun AWS
Izin untuk membuat AWS CloudFormation tumpukan dengan peran AWS Identity and Access Management (IAM) untuk hal berikut:
bucket Amazon Simple Storage Service (Amazon S3)
Athena
DynamoDB
SageMaker AI
AWS Lambda
Arsitektur
Tumpukan teknologi
Amazon QuickSight
Amazon S3
Athena
DynamoDB
Lambda
SageMaker AI
Arsitektur target
Diagram berikut menunjukkan arsitektur untuk membangun agregasi data yang kompleks di DynamoDB dengan menggunakan kemampuan kueri Athena, fungsi Lambda, penyimpanan Amazon S3, titik akhir AI, dan dasbor. SageMaker QuickSight

Diagram menunjukkan alur kerja berikut:
Tabel DynamoDB menyerap data IoT yang ditransmisikan dari armada skuter.
Fungsi Lambda memuat tabel DynamoDB dengan data yang dicerna.
Kueri Athena membuat tabel DynamoDB baru untuk data geospasial yang mewakili lingkungan perkotaan.
Lokasi kueri disimpan dalam bucket S3.
Fungsi Athena menanyakan inferensi ML dari titik akhir SageMaker AI yang menjadi tuan rumah model ML yang telah dilatih sebelumnya.
Athena menanyakan data langsung dari tabel DynamoDB dan mengumpulkan data untuk analisis.
Seorang pengguna melihat output dari data yang dianalisis di QuickSight dasbor.
Alat
Layanan AWS
Amazon Athena adalah layanan kueri interaktif yang membantu Anda menganalisis data secara langsung di Amazon S3 dengan menggunakan SQL standar.
Amazon DynamoDB adalah layanan database NoSQL yang dikelola sepenuhnya yang menyediakan kinerja yang cepat, dapat diprediksi, dan terukur.
Amazon SageMaker AI adalah layanan ML terkelola yang membantu Anda membangun dan melatih model ML dan kemudian menerapkannya ke lingkungan host yang siap produksi.
Amazon Simple Storage Service (Amazon S3) adalah layanan penyimpanan objek berbasis cloud yang membantu Anda menyimpan, melindungi, dan mengambil sejumlah data.
Amazon QuickSight adalah layanan intelijen bisnis skala cloud (BI) yang membantu Anda memvisualisasikan, menganalisis, dan melaporkan data Anda dalam satu dasbor.
AWS Lambdaadalah layanan komputasi yang membantu Anda menjalankan kode tanpa perlu menyediakan atau mengelola server. Ini menjalankan kode Anda hanya bila diperlukan dan skala secara otomatis, jadi Anda hanya membayar untuk waktu komputasi yang Anda gunakan.
Repositori kode
Kode untuk pola ini tersedia dalam prediksi GitHub Use ML melalui data Amazon DynamoDB dengan repositori Amazon Athena
Tabel DynamoDB
Fungsi Lambda untuk memuat tabel dengan data yang relevan
Titik akhir SageMaker AI untuk permintaan inferensi, dengan XGBoost model pra-terlatih yang disimpan di Amazon S3
Kelompok kerja Athena bernama
V2EngineWorkGroupDinamakan Athena pertanyaan untuk mencari shapefile geospasial dan memprediksi permintaan skuter
Konektor DynamoDB Amazon Athena bawaan yang memungkinkan Athena berkomunikasi dengan DynamoDB dan AWS SAM menggunakan () untuk membangun aplikasi mengacu pada konektor AWS Serverless Application Model DynamoDB
Epik
| Tugas | Deskripsi | Keterampilan yang dibutuhkan |
|---|---|---|
Buat CloudFormation tumpukan. |
catatanDiperlukan waktu 15-20 menit untuk CloudFormation tumpukan untuk membuat sumber daya ini. | AWS DevOps |
Verifikasi CloudFormation penyebaran. | Untuk memverifikasi bahwa data sampel dari CloudFormation template dimuat ke DynamoDB, lakukan hal berikut:
| Pengembang aplikasi |
| Tugas | Deskripsi | Keterampilan yang dibutuhkan |
|---|---|---|
Buat tabel Athena dengan data geospasial. | Untuk memuat file geolokasi ke Athena, lakukan hal berikut:
Kueri membuat tabel baru untuk data geospasial yang mewakili lingkungan perkotaan. Tabel data dibuat dari shapefiles GIS. Untuk kode Python untuk memproses shapefile dan menghasilkan tabel ini, lihat Pemrosesan Geo-Spatial dari shapefile GIS | Insinyur data |
| Tugas | Deskripsi | Keterampilan yang dibutuhkan |
|---|---|---|
Deklarasikan fungsi di Athena untuk menanyakan AI. SageMaker |
| Ilmuwan data, Insinyur data |
Memprediksi permintaan untuk skuter berdasarkan lingkungan dari data DynamoDB agregat. | Sekarang Anda dapat menggunakan Athena untuk menanyakan data transaksional langsung dari DynamoDB, dan kemudian mengumpulkan data untuk analisis dan peramalan. Hal ini tidak mudah dicapai dengan langsung query database DynamoDB NoSQL.
Pernyataan SQL melakukan hal berikut:
| Pengembang aplikasi, Ilmuwan data |
Verifikasi output. | Tabel output mencakup lingkungan, bujur, dan garis lintang centroid lingkungan. Ini juga termasuk jumlah kendaraan yang diprediksi untuk jam berikutnya. Kueri menghasilkan prediksi untuk titik waktu yang dipilih. Anda dapat membuat prediksi untuk waktu lain dengan mengubah ekspresi di Jika Anda memiliki umpan data real-time di tabel DynamoDB Anda, ubah stempel waktu menjadi. | Pengembang aplikasi, Ilmuwan data |
| Tugas | Deskripsi | Keterampilan yang dibutuhkan |
|---|---|---|
Hapus sumber daya. |
| Pengembang aplikasi, AWS DevOps |