Terjemahan disediakan oleh mesin penerjemah. Jika konten terjemahan yang diberikan bertentangan dengan versi bahasa Inggris aslinya, utamakan versi bahasa Inggris.
Membangun pekerjaan visual ETL
Bangun pekerjaan ETL visual dengan AWS Glue Studio
AWS Glue Studio menyediakan antarmuka visual untuk membuat, menjalankan, dan memantau Extract/Transform/Load (ETL) pekerjaan di AWS Glue. Pekerjaan AWS Glue terdiri dari logika bisnis yang melakukan pekerjaan ekstrak, transformasi, dan beban (ETL). Dengan AWS Glue Studio, Anda dapat menyusun alur kerja transformasi data secara visual dan menjalankannya dengan mulus di mesin ETL tanpa server AWS Glue berbasis Apache Spark. Anda dapat membuat pekerjaan yang memindahkan dan mengubah data antara berbagai penyimpanan data dan aliran menggunakan drag-and-drop antarmuka tanpa harus mempelajari Spark atau menulis kode.
Sebuah tugas AWS Glue merangkum skrip yang terhubung ke sumber data Anda, memprosesnya, dan kemudian menuliskannya ke target data Anda. Biasanya, sebuah tugas menjalankan skrip extract, transform, and load (ETL). Jobs dapat menjalankan skrip yang dirancang untuk lingkungan runtime Apache Spark dan Ray. Jobs juga dapat menjalankan skrip Python tujuan umum (pekerjaan shell Python.) AWS Gluepemicu dapat memulai pekerjaan berdasarkan jadwal atau acara, atau sesuai permintaan. Anda dapat memantau eksekusi tugas untuk memahami metrik waktu aktif seperti status penyelesaian, durasi, dan waktu mulai.
Anda dapat menggunakan skrip yang dihasilkan AWS Glue atau Anda dapat memberikan milik Anda sendiri. Dengan skema sumber dan lokasi target atau skema, pembuat AWS Glue Studio kode dapat secara otomatis membuat skrip Apache Spark API (). PySpark Anda dapat menggunakan skrip ini sebagai titik awal dan mengedit skrip tersebut untuk memenuhi tujuan Anda.
AWS Gluedapat menulis file output dalam beberapa format data. Setiap jenis pekerjaan dapat mendukung format output yang berbeda. Untuk beberapa format data, format-format kompresi umum dapat ditulis.
Mengelola AWS Glue Pekerjaan di AWS Konsol
Untuk melihat pekerjaan yang ada, masuk ke AWS Management Console dan buka AWS Glue konsol di https://console.aws.amazon.com/glue/
Anda dapat membuat tugas di bagian ETL pada konsol AWS Glue. Saat membuat pekerjaan baru, atau setelah Anda menyimpan pekerjaan Anda, Anda dapat menggunakan kaleng AWS Glue Studio untuk memodifikasi pekerjaan ETL Anda. Anda dapat melakukan ini dengan mengedit simpul di editor visual atau dengan mengedit skrip tugas dalam mode developer. Anda juga dapat menambah dan menghapus simpul dalam editor visual untuk membuat tugas ETL yang lebih rumit.
Langkah selanjutnya untuk membuat pekerjaan di AWS Glue Studio
Anda menggunakan editor tugas visual untuk mengkonfigurasi simpul untuk tugas Anda. Setiap simpul merupakan sebuah tindakan, seperti membaca data dari lokasi sumber atau menerapkan transformasi ke data. Setiap simpul yang Anda tambahkan ke tugas Anda memiliki properti yang memberikan informasi tentang lokasi data atau transformasinya.
Langkah selanjutnya untuk membuat dan mengelola tugas Anda adalah:
Bangun aliran ETL visual dengan Amazon SageMaker
Dengan alur kerja Amazon SageMaker Unified Studio, Anda dapat mengatur dan menjalankan serangkaian tugas di Amazon SageMaker Unified Studio. Alur kerja Amazon SageMaker Unified Studio menggunakan Apache Airflow untuk memodelkan prosedur pemrosesan data dan mengatur artefak kode Amazon Unified Studio Anda. SageMaker Untuk informasi selengkapnya, lihat Menggunakan alur kerja di Amazon SageMaker Unified Studio.