Terjemahan disediakan oleh mesin penerjemah. Jika konten terjemahan yang diberikan bertentangan dengan versi bahasa Inggris aslinya, utamakan versi bahasa Inggris.
Langkah 4: Konfigurasikan DSBulk pengaturan untuk mengunggah data dari file CSV ke tabel target
Bagian ini menguraikan langkah-langkah yang diperlukan DSBulk untuk mengonfigurasi pengunggahan data ke Amazon Keyspaces. Anda mengkonfigurasi DSBulk dengan menggunakan file konfigurasi. Anda menentukan file konfigurasi langsung dari baris perintah.
-
Buat file DSBulk konfigurasi untuk migrasi ke Amazon Keyspaces, dalam contoh ini kita menggunakan nama file.
dsbulk_keyspaces.confTentukan pengaturan berikut dalam file DSBulk konfigurasi.-
PlainTextAuthProvider— Buat penyedia otentikasi denganPlainTextAuthProviderkelas.ServiceUserNamedanServicePasswordharus cocok dengan nama pengguna dan kata sandi yang Anda peroleh saat Anda membuat kredensyal khusus layanan dengan mengikuti langkah-langkah di. Buat kredensi untuk akses terprogram ke Amazon Keyspaces -
local-datacenter— Tetapkan nilailocal-datacenteruntuk Wilayah AWS yang Anda sambungkan. Misalnya, jika aplikasi terhubung kecassandra., maka atur pusat data lokal keus-east-1.amazonaws.com.rproxy.govskope.caus-east-1. Untuk semua yang tersedia Wilayah AWS, lihatTitik akhir layanan untuk Amazon Keyspaces. Untuk menghindari replika, aturslow-replica-avoidancekefalse. -
SSLEngineFactory— Untuk mengkonfigurasi SSL/TLS, inisialisasiSSLEngineFactorydengan menambahkan bagian dalam file konfigurasi dengan satu baris yang menentukan kelas dengan.class = DefaultSslEngineFactoryBerikan jalur kecassandra_truststore.jksdan kata sandi yang Anda buat sebelumnya. consistency— Tetapkan tingkat konsistensi keLOCAL QUORUM. Tingkat konsistensi penulisan lainnya tidak didukung, untuk informasi lebih lanjut lihatMendukung Apache Cassandra membaca dan menulis tingkat konsistensi dan biaya terkait.Jumlah koneksi per pool dapat dikonfigurasi di driver Java. Untuk contoh ini, atur
advanced.connection.pool.local.sizeke 3.
Berikut ini adalah file konfigurasi sampel lengkap.
datastax-java-driver { basic.contact-points = [ "cassandra.us-east-1.amazonaws.com:9142"] advanced.auth-provider { class = PlainTextAuthProvider username = "ServiceUserName" password = "ServicePassword" } basic.load-balancing-policy { local-datacenter = "us-east-1" slow-replica-avoidance = false } basic.request { consistency = LOCAL_QUORUM default-idempotence = true } advanced.ssl-engine-factory { class = DefaultSslEngineFactory truststore-path = "./cassandra_truststore.jks" truststore-password = "my_password" hostname-validation = false } advanced.connection.pool.local.size = 3 } -
-
Tinjau parameter untuk DSBulk
loadperintah.executor.maxPerSecond— Jumlah maksimum baris yang coba diproses oleh perintah load secara bersamaan per detik. Jika tidak disetel, pengaturan ini dinonaktifkan dengan -1.Tetapkan
executor.maxPerSecondberdasarkan jumlah WCUs yang Anda berikan ke tabel tujuan target.executor.maxPerSecondloadPerintah bukanlah batas — ini adalah rata-rata target. Ini berarti dapat (dan sering) meledak di atas angka yang Anda tetapkan. Untuk memungkinkan ledakan dan memastikan bahwa kapasitas yang cukup tersedia untuk menangani permintaan pemuatan data, aturexecutor.maxPerSecondke 90% dari kapasitas tulis tabel.executor.maxPerSecond = WCUs * .90Dalam tutorial ini, kita mengatur
executor.maxPerSecondke 5.catatan
Jika Anda menggunakan DSBulk 1.6.0 atau lebih tinggi, Anda dapat menggunakannya
dsbulk.engine.maxConcurrentQueriessebagai gantinya.Konfigurasikan parameter tambahan ini untuk DSBulk
loadperintah.batch-mode— Parameter ini memberitahu sistem untuk mengelompokkan operasi dengan kunci partisi. Kami merekomendasikan untuk menonaktifkan mode batch, karena dapat menghasilkan skenario dan penyebab hot keyWriteThrottleEvents.driver.advanced.retry-policy-max-retries— Ini menentukan berapa kali untuk mencoba lagi kueri yang gagal. Jika tidak disetel, defaultnya adalah 10. Anda dapat menyesuaikan nilai ini sesuai kebutuhan.driver.basic.request.timeout— Waktu dalam hitungan menit sistem menunggu kueri kembali. Jika tidak disetel, defaultnya adalah “5 menit”. Anda dapat menyesuaikan nilai ini sesuai kebutuhan.