Langkah 4: Siapkan data sumber dan tabel target di Amazon Keyspaces - Amazon Keyspaces (untuk Apache Cassandra)

Terjemahan disediakan oleh mesin penerjemah. Jika konten terjemahan yang diberikan bertentangan dengan versi bahasa Inggris aslinya, utamakan versi bahasa Inggris.

Langkah 4: Siapkan data sumber dan tabel target di Amazon Keyspaces

Pada langkah ini, Anda membuat file sumber dengan data sampel dan tabel Amazon Keyspaces.

  1. Buat file sumber. Anda dapat memilih salah satu opsi berikut:

    • Untuk tutorial ini, Anda menggunakan file nilai dipisahkan koma (CSV) dengan nama keyspaces_sample_table.csv sebagai file sumber untuk migrasi data. File sampel yang disediakan berisi beberapa baris data untuk tabel dengan namabook_awards.

      1. Download contoh file CSV (keyspaces_sample_table.csv) yang terkandung dalam file arsip berikut samplemigration.zip. Buka zip arsip dan catat jalur kekeyspaces_sample_table.csv.

    • Jika Anda ingin mengikuti file CSV Anda sendiri untuk menulis data ke Amazon Keyspaces, pastikan datanya diacak. Data yang dibaca langsung dari database atau diekspor ke file datar biasanya diurutkan oleh partisi dan kunci primer. Mengimpor data yang dipesan ke Amazon Keyspaces dapat menyebabkannya ditulis ke segmen yang lebih kecil dari partisi Amazon Keyspaces, yang menghasilkan distribusi lalu lintas yang tidak merata. Hal ini dapat menyebabkan kinerja lebih lambat dan tingkat kesalahan yang lebih tinggi.

      Sebaliknya, pengacakan data membantu memanfaatkan kemampuan penyeimbangan beban bawaan Amazon Keyspaces dengan mendistribusikan lalu lintas di seluruh partisi secara lebih merata. Ada berbagai alat yang dapat Anda gunakan untuk mengacak data. Untuk contoh yang menggunakan alat sumber terbuka Shuf, lihat Langkah 2: Siapkan data untuk diunggah menggunakan DSBulk di tutorial migrasi data. Berikut ini adalah contoh yang menunjukkan cara mengacak data sebagai DataFrame file.

      import org.apache.spark.sql.functions.randval shuffledDF = dataframe.orderBy(rand())
  2. Buat keyspace target dan tabel di Amazon Keyspaces.

    1. Hubungkan ke Amazon Keyspaces menggunakancqlsh, dan ganti endpoint layanan, nama pengguna, dan kata sandi dalam contoh berikut dengan nilai Anda sendiri.

      cqlsh cassandra.us-east-2.amazonaws.com 9142 -u "111122223333" -p "wJalrXUtnFEMI/K7MDENG/bPxRfiCYEXAMPLEKEY" --ssl
    2. Buat keyspace baru dengan nama catalog seperti yang ditunjukkan pada contoh berikut.

      CREATE KEYSPACE catalog WITH REPLICATION = {'class': 'SingleRegionStrategy'};
    3. Setelah keyspace baru memiliki status yang tersedia, gunakan kode berikut untuk membuat tabel book_awards target. Untuk mempelajari lebih lanjut tentang pembuatan sumber daya asinkron dan cara memeriksa apakah sumber daya tersedia, lihat. Periksa status pembuatan keyspace di Amazon Keyspaces

      CREATE TABLE catalog.book_awards ( year int, award text, rank int, category text, book_title text, author text, publisher text, PRIMARY KEY ((year, award), category, rank) );