Terjemahan disediakan oleh mesin penerjemah. Jika konten terjemahan yang diberikan bertentangan dengan versi bahasa Inggris aslinya, utamakan versi bahasa Inggris.
Koneksi MongoDB
Anda dapat menggunakan AWS Glue for Spark untuk membaca dan menulis ke tabel di MongoDB dan AWS MongoDB Atlas di Glue 4.0 dan versi yang lebih baru. Anda dapat terhubung ke MongoDB menggunakan kredensional nama pengguna dan kata sandi yang disimpan melalui koneksi Glue. AWS Secrets Manager AWS
Untuk informasi lebih lanjut tentang MongoDB, lihat dokumentasi MongoDB.
Mengkonfigurasi koneksi MongoDB
Untuk terhubung ke MongoDB AWS dari Glue, Anda akan memerlukan kredensi MongoDB Anda, dan. mongodbUser mongodbPass
Untuk terhubung ke MongoDB AWS dari Glue, Anda mungkin memerlukan beberapa prasyarat:
-
Jika instans MongoDB Anda ada di VPC Amazon, konfigurasikan Amazon VPC untuk memungkinkan pekerjaan Glue AWS Anda berkomunikasi dengan instans MongoDB tanpa lalu lintas melintasi internet publik.
Di Amazon VPC, identifikasi atau buat grup VPC, Subnet, dan Keamanan yang akan digunakan AWS Glue saat menjalankan pekerjaan. Selain itu, Anda perlu memastikan Amazon VPC dikonfigurasi untuk mengizinkan lalu lintas jaringan antara instans MongoDB Anda dan lokasi ini. Berdasarkan tata letak jaringan Anda, ini mungkin memerlukan perubahan pada aturan grup keamanan, Jaringan, Gateway NAT ACLs, dan koneksi Peering.
Anda kemudian dapat melanjutkan untuk mengkonfigurasi AWS Glue untuk digunakan dengan MongoDB.
Untuk mengkonfigurasi koneksi ke MongoDB:
Secara opsional, di AWS Secrets Manager, buat rahasia menggunakan kredenal MongoDB Anda. Untuk membuat rahasia di Secrets Manager, ikuti tutorial yang tersedia di Buat AWS Secrets Manager rahasia dalam AWS Secrets Manager dokumentasi. Setelah membuat rahasia, simpan nama Rahasia,
secretNameuntuk langkah selanjutnya.-
Saat memilih pasangan kunci/nilai, buat pasangan untuk kunci
usernamedengan nilainya.mongodbUserSaat memilih pasangan kunci/nilai, buat pasangan untuk kunci
passworddengan nilainya.mongodbPass
-
Di konsol AWS Glue, buat koneksi dengan mengikuti langkah-langkah diMenambahkan AWS Glue koneksi. Setelah membuat koneksi, pertahankan nama koneksi,
connectionName, untuk penggunaan masa depan di AWS Glue.Saat memilih jenis Koneksi, pilih MongoDB atau MongoDB Atlas.
-
Saat memilih URL MongoDB atau URL MongoDB Atlas, berikan nama host instance MongoDB Anda.
URL MongoDB disediakan dalam format.
mongodb://mongoHost:mongoPort/mongoDBnameURL Atlas MongoDB disediakan dalam format.
mongodb+srv://mongoHost:mongoPort/mongoDBnameMenyediakan database default untuk koneksi,
mongoDBnameadalah opsional. Jika Anda memilih untuk membuat rahasia Secrets Manager, pilih jenis AWS Secrets Manager Credential.
Kemudian, dalam AWS Rahasia sediakan
secretName.-
Jika Anda memilih untuk memberikan Nama Pengguna dan kata sandi, berikan
mongodbUserdanmongodbPass.
-
Dalam situasi berikut, Anda mungkin memerlukan konfigurasi tambahan:
-
Untuk instance MongoDB yang dihosting di VPC Amazon AWS
-
Anda harus memberikan informasi koneksi Amazon VPC ke koneksi AWS Glue yang menentukan kredenal keamanan MongoDB Anda. Saat membuat atau memperbarui koneksi Anda, atur grup VPC, Subnet, dan Keamanan dalam opsi Jaringan.
-
-
Setelah membuat koneksi AWS Glue MongoDB, Anda harus melakukan tindakan berikut sebelum memanggil metode koneksi Anda:
Jika Anda memilih untuk membuat rahasia Secrets Manager, berikan peran IAM yang terkait dengan izin pekerjaan AWS Glue Anda untuk membaca
secretName.Dalam konfigurasi pekerjaan AWS Glue Anda, berikan
connectionNamesebagai koneksi jaringan Tambahan.
Untuk menggunakan koneksi AWS Glue MongoDB Anda di AWS Glue for Spark, berikan opsi dalam panggilan connectionName metode koneksi Anda. Atau, Anda dapat mengikuti langkah-langkah Bekerja dengan koneksi MongoDB dalam pekerjaan ETL untuk menggunakan koneksi bersama dengan Katalog Data AWS Glue.
Membaca dari MongoDB menggunakan koneksi Glue AWS
Prasyarat:
-
Koleksi MongoDB yang ingin Anda baca. Anda akan memerlukan informasi identifikasi untuk koleksi.
Koleksi MongoDB diidentifikasi dengan nama database dan nama koleksi,,.
mongodbNamemongodbCollection -
Koneksi AWS Glue MongoDB dikonfigurasi untuk memberikan informasi autentikasi. Selesaikan langkah-langkah dalam prosedur sebelumnya, Untuk mengkonfigurasi koneksi ke MongoDB untuk mengkonfigurasi informasi autentikasi Anda. Anda akan membutuhkan nama koneksi AWS Glue,
connectionName.
Misalnya:
mongodb_read = glueContext.create_dynamic_frame.from_options( connection_type="mongodb", connection_options={ "connectionName": "connectionName", "database": "mongodbName", "collection": "mongodbCollection", "partitioner": "com.mongodb.spark.sql.connector.read.partitioner.SinglePartitionPartitioner", "partitionerOptions.partitionSizeMB": "10", "partitionerOptions.partitionKey": "_id", "disableUpdateUri": "false", } )
Menulis ke tabel MongoDB
Contoh ini menulis informasi dari yang sudah ada DynamicFrame, dynamicFrame ke MongoDB.
Prasyarat:
-
Koleksi MongoDB yang ingin Anda tulis. Anda akan memerlukan informasi identifikasi untuk koleksi.
Koleksi MongoDB diidentifikasi dengan nama database dan nama koleksi,,.
mongodbNamemongodbCollection -
Koneksi AWS Glue MongoDB dikonfigurasi untuk memberikan informasi autentikasi. Selesaikan langkah-langkah dalam prosedur sebelumnya, Untuk mengkonfigurasi koneksi ke MongoDB untuk mengkonfigurasi informasi autentikasi Anda. Anda akan membutuhkan nama koneksi AWS Glue,
connectionName.
Misalnya:
glueContext.write_dynamic_frame.from_options( frame=dynamicFrame, connection_type="mongodb", connection_options={ "connectionName": "connectionName", "database": "mongodbName", "collection": "mongodbCollection", "disableUpdateUri": "false", "retryWrites": "false", }, )
Membaca dan menulis ke tabel MongoDB
Contoh ini menulis informasi dari yang sudah ada DynamicFrame, dynamicFrame ke MongoDB.
Prasyarat:
-
Koleksi MongoDB yang ingin Anda baca. Anda akan memerlukan informasi identifikasi untuk koleksi.
Koleksi MongoDB yang ingin Anda tulis. Anda akan memerlukan informasi identifikasi untuk koleksi.
Koleksi MongoDB diidentifikasi dengan nama database dan nama koleksi,,.
mongodbNamemongodbCollection -
Informasi autentikasi MongoDB, dan.
mongodbUsermongodbPassword
Misalnya:
Referensi opsi koneksi MongoDB
Mengkhususkan koneksi ke MongoDB. Pilihan koneksi berbeda untuk koneksi sumber dan koneksi sink.
Properti koneksi ini dibagi antara koneksi sumber dan sink:
-
connectionName— Digunakan untuk Baca/Tulis. Nama koneksi AWS Glue MongoDB dikonfigurasi untuk memberikan informasi auth dan jaringan ke metode koneksi Anda. Ketika koneksi AWS Glue dikonfigurasi seperti yang dijelaskan di bagian sebelumnyaMengkonfigurasi koneksi MongoDB,, menyediakanconnectionNameakan menggantikan kebutuhan untuk menyediakan"uri","username"dan opsi"password"koneksi. -
"uri": (Wajib) Host MongoDB tempat untuk membaca, diformat sebagaimongodb://<host>:<port>. Digunakan dalam versi AWS Glue sebelum AWS Glue 4.0. -
"connection.uri": (Wajib) Host MongoDB tempat untuk membaca, diformat sebagaimongodb://<host>:<port>. Digunakan dalam AWS Glue 4.0 dan versi yang lebih baru. -
"username": (Wajib) Nama pengguna MongoDB. -
"password": (Wajib) Kata sandi MongoDB. -
"database": (Wajib) Basis data MongoDB untuk dibaca. Pilihan ini juga bisa diberikan diadditional_optionsketika memanggilglue_context.create_dynamic_frame_from_catalogdalam skrip tugas Anda. -
"collection": (Wajib) Kumpulan MongoDB untuk dibaca. Pilihan ini juga bisa diberikan diadditional_optionsketika memanggilglue_context.create_dynamic_frame_from_catalogdalam skrip tugas Anda.
“ConnectionType”: “mongodb” sebagai sumber
Gunakan opsi koneksi berikut dengan "connectionType": "mongodb" sebagai sumber:
-
"ssl": (Opsional) Jikatrue, maka memulai koneksi SSL. Nilai default-nyafalse. -
"ssl.domain_match": (Opsional) Jikatruedanssladalahtrue, maka pemeriksaan kecocokan domain dilakukan. Nilai default-nyatrue. -
"batchSize": (Opsional): Jumlah dokumen yang akan dikembalikan per batch, digunakan dalam kursor batch internal. -
"partitioner": (Opsional): Nama kelas pemartisi untuk membaca input data dari MongoDB. Konektor menyediakan pemartisi berikut:-
MongoDefaultPartitioner(default) (Tidak didukung di AWS Glue 4.0) -
MongoSamplePartitioner(Memerlukan MongoDB 3.2 atau yang lebih baru) (Tidak didukung di AWS Glue 4.0) -
MongoShardedPartitioner(Tidak didukung di AWS Glue 4.0) -
MongoSplitVectorPartitioner(Tidak didukung di AWS Glue 4.0) -
MongoPaginateByCountPartitioner(Tidak didukung di AWS Glue 4.0) -
MongoPaginateBySizePartitioner(Tidak didukung di AWS Glue 4.0) -
com.mongodb.spark.sql.connector.read.partitioner.SinglePartitionPartitioner -
com.mongodb.spark.sql.connector.read.partitioner.ShardedPartitioner -
com.mongodb.spark.sql.connector.read.partitioner.PaginateIntoPartitionsPartitioner
-
-
"partitionerOptions"(Opsional): Opsi untuk pemartisi yang ditunjuk. Opsi berikut didukung untuk setiap pemartisi:-
MongoSamplePartitioner:partitionKey,partitionSizeMB,samplesPerPartition -
MongoShardedPartitioner:shardkey -
MongoSplitVectorPartitioner:partitionKey,partitionSizeMB -
MongoPaginateByCountPartitioner:partitionKey,numberOfPartitions -
MongoPaginateBySizePartitioner:partitionKey,partitionSizeMB
Untuk informasi lebih lanjut tentang opsi ini, lihat Konfigurasi Partisi
dalam dokumentasi MongoDB. -
“ConnectionType”: “mongodb” sebagai wastafel
Gunakan opsi koneksi berikut dengan "connectionType": "mongodb" sebagai sink:
-
"ssl": (Opsional) Jikatrue, maka memulai koneksi SSL. Nilai default-nyafalse. -
"ssl.domain_match": (Opsional) Jikatruedanssladalahtrue, maka pemeriksaan kecocokan domain dilakukan. Nilai default-nyatrue. -
"extendedBsonTypes": (Opsional) Jikatrue, memungkinkan jenis BSON yang diperpanjang saat menulis data ke MongoDB. Nilai default-nyatrue. -
"replaceDocument": (Opsional) Jikatrue, menggantikan seluruh dokumen ketika menyimpan set data yang berisi bidang_id. Jikafalse, hanya bidang dalam dokumen yang cocok dengan bidang dalam set data saja yang diperbarui. Nilai default-nyatrue. -
"maxBatchSize": (Opsional): Ukuran batch maksimum untuk operasi massal saat menyimpan data. Default-nya adalah 512. -
"retryWrites": (Opsional): Secara otomatis mencoba kembali operasi penulisan tertentu satu kali jika AWS Glue menemukan kesalahan jaringan.