Terjemahan disediakan oleh mesin penerjemah. Jika konten terjemahan yang diberikan bertentangan dengan versi bahasa Inggris aslinya, utamakan versi bahasa Inggris.
Migrasi data Hadoop ke Amazon S3 menggunakan Migrator WANdisco LiveData
Tony Velcich, Amazon Web Services
Ringkasan
Pola ini menjelaskan proses migrasi data Apache Hadoop dari Hadoop Distributed File System (HDFS) ke Amazon Simple Storage Service (Amazon S3). Ini menggunakan WANdisco LiveData Migrator untuk mengotomatiskan proses migrasi data.
Prasyarat dan batasan
Prasyarat
Hadoop cluster edge node tempat LiveData Migrator akan diinstal. Node harus memenuhi persyaratan berikut:
Spesifikasi minimum: 4 CPUs, 16 GB RAM, penyimpanan 100 GB.
Jaringan minimum 2 Gbps.
Port 8081 dapat diakses di simpul tepi Anda untuk mengakses WANdisco UI.
Java 1.8 64-bit.
Pustaka klien Hadoop diinstal pada simpul tepi.
Kemampuan untuk mengautentikasi sebagai superuser HDFS
(misalnya, “hdfs”). Jika Kerberos diaktifkan di cluster Hadoop Anda, tab kunci yang valid yang berisi prinsipal yang sesuai untuk superuser HDFS harus tersedia di simpul tepi.
Akun AWS aktif dengan akses ke bucket S3.
Tautan AWS Direct Connect yang dibuat antara klaster Hadoop lokal Anda (khususnya simpul tepi) dan AWS.
Versi produk
LiveData Migrator 1.8.6
WANdisco UI (OneUI) 5.8.0
Arsitektur
Tumpukan teknologi sumber
Cluster Hadoop lokal
Tumpukan teknologi target
Amazon S3
Arsitektur
Diagram berikut menunjukkan arsitektur solusi LiveData Migrator.

Alur kerja terdiri dari empat komponen utama untuk migrasi data dari HDFS lokal ke Amazon S3.
LiveData Migrator
— Mengotomatiskan migrasi data dari HDFS ke Amazon S3, dan berada di simpul tepi cluster Hadoop. HDFS
— Sistem file terdistribusi yang menyediakan akses throughput tinggi ke data aplikasi. Amazon S3
— Layanan penyimpanan objek yang menawarkan skalabilitas, ketersediaan data, keamanan, dan kinerja. AWS Direct Connect — Layanan yang membuat koneksi jaringan khusus dari pusat data lokal Anda ke AWS.
Otomatisasi dan skala
Anda biasanya akan membuat beberapa migrasi sehingga Anda dapat memilih konten tertentu dari sistem file sumber Anda berdasarkan jalur atau direktori. Anda juga dapat memigrasikan data ke beberapa sistem file independen secara bersamaan dengan menentukan beberapa sumber daya migrasi.
Epik
| Tugas | Deskripsi | Keterampilan yang dibutuhkan |
|---|---|---|
Masuk ke akun AWS Anda. | Masuk ke AWS Management Console dan buka konsol Amazon S3 di. https://console.aws.amazon.com/s3/ | Pengalaman AWS |
Buat ember S3. | Jika Anda belum memiliki bucket S3 untuk digunakan sebagai penyimpanan target, pilih opsi “Buat bucket” di konsol Amazon S3, dan tentukan nama bucket, Wilayah AWS, dan pengaturan bucket untuk memblokir akses publik. AWS dan WANdisco merekomendasikan agar Anda mengaktifkan opsi blokir akses publik untuk bucket S3, dan menyiapkan kebijakan akses bucket dan izin pengguna untuk memenuhi persyaratan organisasi Anda. Contoh AWS disediakan di https://docs.aws.amazon.com/AmazonS3/ latest/dev/example - walkthroughs-managing-access-example 1.html. | Pengalaman AWS |
| Tugas | Deskripsi | Keterampilan yang dibutuhkan |
|---|---|---|
Unduh penginstal LiveData Migrator. | Unduh penginstal LiveData Migrator dan unggah ke simpul tepi Hadoop. Anda dapat mengunduh uji coba gratis LiveData Migrator di https://www2.wandisco.com/ldm-trial. You can also obtain access to LiveData Migrator from AWS Marketplace, at https:/ /aws.amazon. com/marketplace/pp/B07B8SZND9. | Administrator Hadoop, Pemilik aplikasi |
Instal LiveData Migrator. | Gunakan installer yang diunduh dan instal LiveData Migrator sebagai superuser HDFS pada node tepi di cluster Hadoop Anda. Lihat bagian “Informasi tambahan” untuk perintah instalasi. | Administrator Hadoop, Pemilik aplikasi |
Periksa status LiveData Migrator dan layanan lainnya. | Periksa status LiveData Migrator, Hive migrator, dan WANdisco UI dengan menggunakan perintah yang disediakan di bagian “Informasi tambahan”. | Administrator Hadoop, Pemilik aplikasi |
| Tugas | Deskripsi | Keterampilan yang dibutuhkan |
|---|---|---|
Daftarkan akun LiveData Migrator Anda. | Masuk ke WANdisco UI melalui browser web pada port 8081 (pada simpul tepi Hadoop) dan berikan detail Anda untuk pendaftaran. Misalnya, jika Anda menjalankan LiveData Migrator pada host bernama myldmhost.example.com, URL-nya adalah: http://myldmhost.example.com:8081 | Pemilik aplikasi |
Konfigurasikan penyimpanan HDFS sumber Anda. | Berikan detail konfigurasi yang diperlukan untuk penyimpanan HDFS sumber Anda. Ini akan mencakup nilai “fs.defaultFS” dan nama penyimpanan yang ditentukan pengguna. Jika Kerberos diaktifkan, berikan lokasi utama dan tab tombol untuk digunakan LiveData Migrator. Jika NameNode HA diaktifkan di cluster, berikan jalur ke file core-site.xml dan hdfs-site.xml di simpul tepi. | Administrator Hadoop, Pemilik aplikasi |
Konfigurasikan penyimpanan Amazon S3 target Anda. | Tambahkan penyimpanan target Anda sebagai tipe S3a. Berikan nama penyimpanan yang ditentukan pengguna dan nama bucket S3. Masukkan “org.apache.hadoop.fs.s3a.Simple AWSCredentials Provider” untuk opsi Penyedia Kredensial, dan berikan akses AWS dan kunci rahasia untuk bucket S3. Properti S3a tambahan juga akan dibutuhkan. Untuk detailnya, lihat bagian “Properti S3a” di dokumentasi LiveData Migrator di docs/command-reference/# 3a. https://docs.wandisco.com/live-data-migrator/ filesystem-add-s | AWS, Pemilik aplikasi |
| Tugas | Deskripsi | Keterampilan yang dibutuhkan |
|---|---|---|
Tambahkan pengecualian (jika diperlukan). | Jika Anda ingin mengecualikan kumpulan data tertentu dari migrasi, tambahkan pengecualian untuk penyimpanan HDFS sumber. Pengecualian ini dapat didasarkan pada ukuran file, nama file (berdasarkan pola regex), dan tanggal modifikasi. | Administrator Hadoop, Pemilik aplikasi |
| Tugas | Deskripsi | Keterampilan yang dibutuhkan |
|---|---|---|
Buat dan konfigurasikan migrasi. | Buat migrasi di dasbor WANdisco UI. Pilih sumber Anda (HDFS) dan target (ember S3). Tambahkan pengecualian baru yang telah Anda tentukan di langkah sebelumnya. Pilih opsi “Timpa” atau “Lewati jika Ukuran Cocokkan”. Buat migrasi saat semua bidang selesai. | Administrator Hadoop, Pemilik aplikasi |
Mulai migrasi. | Di dasbor, pilih migrasi yang Anda buat. Klik untuk memulai migrasi. Anda juga dapat memulai migrasi secara otomatis dengan memilih opsi mulai otomatis saat Anda membuat migrasi. | Pemilik aplikasi |
| Tugas | Deskripsi | Keterampilan yang dibutuhkan |
|---|---|---|
Tetapkan batas bandwidth jaringan antara sumber dan target. | Dalam daftar Penyimpanan di dasbor, pilih penyimpanan sumber Anda dan pilih “Manajemen Bandwidth” di daftar Pengelompokan. Hapus opsi tak terbatas, dan tentukan batas bandwidth maksimum dan unit. Pilih “Terapkan.” | Pemilik aplikasi, Jaringan |
| Tugas | Deskripsi | Keterampilan yang dibutuhkan |
|---|---|---|
Melihat informasi migrasi menggunakan WANdisco UI. | Gunakan WANdisco UI untuk melihat informasi lisensi, bandwidth, penyimpanan, dan migrasi. UI juga menyediakan sistem notifikasi sehingga Anda dapat menerima pemberitahuan tentang kesalahan, peringatan, atau tonggak penting dalam penggunaan Anda. | Administrator Hadoop, Pemilik aplikasi |
Hentikan, lanjutkan, dan hapus migrasi. | Anda dapat menghentikan migrasi dari mentransfer konten ke targetnya dengan menempatkannya dalam status STOPTED. Migrasi yang dihentikan dapat dilanjutkan. Migrasi dalam status STOPTED juga dapat dihapus. | Administrator Hadoop, Pemilik aplikasi |
Sumber daya terkait
Informasi tambahan
Instalasi LiveData Migrator
Anda dapat menggunakan perintah berikut untuk menginstal LiveData Migrator, dengan asumsi bahwa installer ada di dalam direktori kerja Anda:
su – hdfs chmod +x livedata-migrator.sh && sudo ./livedata-migrator.sh
Memeriksa status LiveData Migrator dan layanan lainnya setelah instalasi
Gunakan perintah berikut untuk memeriksa status LiveData Migrator, Hive migrator, dan UI: WANdisco
service livedata-migrator status service hivemigrator status service livedata-ui status