Terjemahan disediakan oleh mesin penerjemah. Jika konten terjemahan yang diberikan bertentangan dengan versi bahasa Inggris aslinya, utamakan versi bahasa Inggris.
Memigrasikan beban kerja Cloudera lokal ke Platform Data Cloudera di AWS
Battulga Purevragchaa dan Nidhi Gupta, Amazon Web Services
Nijjwol Lamsal, Mitra
Ringkasan
Pola ini menjelaskan langkah-langkah tingkat tinggi untuk memigrasikan beban kerja Cloudera Distributed Hadoop (CDH), Hortonworks Data Platform (HDP), dan Cloudera Data Platform (CDP) lokal Anda ke CDP Public Cloud di AWS. Kami menyarankan Anda bermitra dengan Cloudera Professional Services dan integrator sistem (SI) untuk menerapkan langkah-langkah ini.
Ada banyak alasan mengapa pelanggan Cloudera ingin memindahkan beban kerja CDH, HDP, dan CDP lokal mereka ke cloud. Beberapa alasan khas meliputi:
Merampingkan adopsi paradigma platform data baru seperti data lakehouse atau data mesh
Meningkatkan kelincahan bisnis, mendemokratisasikan akses dan inferensi pada aset data yang ada
Menurunkan total biaya kepemilikan (TCO)
Meningkatkan elastisitas beban kerja
Mengaktifkan skalabilitas yang lebih besar; secara drastis mengurangi waktu untuk menyediakan layanan data dibandingkan dengan basis instalasi lokal yang lama
Pensiun perangkat keras lama; secara signifikan mengurangi siklus penyegaran perangkat keras
Manfaatkan pay-as-you-go harga, yang diperluas ke beban kerja Cloudera di AWS dengan model lisensi Cloudera (CCU)
Manfaatkan penyebaran yang lebih cepat dan integrasi yang lebih baik dengan platform integrasi berkelanjutan dan pengiriman berkelanjutan (CI/CD)
Gunakan platform terpadu tunggal (CDP) untuk beberapa beban kerja
Cloudera mendukung semua beban kerja utama, termasuk Machine Learning, Data Engineering, Data Warehouse, Operational Database, Stream Processing (CSP), dan keamanan dan tata kelola data. Cloudera telah menawarkan beban kerja ini selama bertahun-tahun di lokasi, dan Anda dapat memigrasikan beban kerja ini ke AWS Cloud dengan menggunakan CDP Public Cloud dengan Workload Manager dan Replication Manager.
Cloudera Shared Data Experience (SDX) menyediakan katalog metadata bersama di seluruh beban kerja ini untuk memfasilitasi pengelolaan dan operasi data yang konsisten. SDX juga mencakup keamanan terperinci yang komprehensif untuk melindungi dari ancaman, dan tata kelola terpadu untuk kemampuan audit dan pencarian untuk kepatuhan terhadap standar seperti Standar Keamanan Data Industri Kartu Pembayaran (PCI DSS) dan GDPR.
Sekilas tentang migrasi CDP
Beban kerja | Beban kerja sumber | CDH, HDP, dan CDP Private Cloud |
|---|---|---|
Lingkungan sumber |
| |
Beban kerja tujuan | Cloud Publik CDP di AWS | |
Lingkungan tujuan |
| |
Migrasi | Strategi migrasi (7Rs) | Rehost, replatform, atau refactor |
Apakah ini peningkatan dalam versi beban kerja? | Ya | |
Durasi migrasi |
| |
Biaya | Biaya menjalankan beban kerja di AWS |
|
Perjanjian dan kerangka infrastruktur | Persyaratan sistem | Lihat bagian Prasyarat. |
SLA | Lihat Perjanjian Tingkat Layanan Cloudera untuk CDP Public | |
DR | Lihat Pemulihan Bencana | |
Model lisensi dan pengoperasian (untuk akun AWS target) | Bawa model Lisensi Anda Sendiri (BYOL) | |
Kepatuhan | Persyaratan keamanan | Lihat Ikhtisar Keamanan Cloudera |
Sertifikasi kepatuhan | Lihat informasi di situs web Cloudera tentang kepatuhan Peraturan Perlindungan Data Umum (GDPR |
Prasyarat dan batasan
Prasyarat
Persyaratan akun AWS
, termasuk akun, sumber daya, layanan, dan izin, seperti pengaturan peran dan kebijakan AWS Identity and Access Management (IAM) Prasyarat untuk menyebarkan
CDP dari situs web Cloudera
Migrasi membutuhkan peran dan keahlian berikut:
Peran | Keterampilan dan tanggung jawab |
|---|---|
Pimpin migrasi | Memastikan dukungan eksekutif, kolaborasi tim, perencanaan, implementasi, dan penilaian |
UKM Cloudera | Keterampilan ahli dalam administrasi CDH, HDP, dan CDP, administrasi sistem, dan arsitektur |
Arsitek AWS | Keterampilan dalam layanan AWS, jaringan, keamanan, dan arsitektur |
Arsitektur
Membangun arsitektur yang sesuai adalah langkah penting untuk memastikan bahwa migrasi dan kinerja memenuhi harapan Anda. Agar upaya migrasi Anda memenuhi asumsi buku pedoman ini, lingkungan data target Anda di AWS Cloud, baik pada instance yang dihosting virtual private cloud (VPC) atau CDP, harus setara dengan lingkungan sumber Anda dalam hal versi sistem operasi dan perangkat lunak serta spesifikasi mesin utama.
Diagram berikut (direproduksi dengan izin dari lembar data Pengalaman Data Bersama Cloudera

Arsitektur mencakup komponen CDP berikut:
Data Hub adalah layanan untuk meluncurkan dan mengelola klaster beban kerja yang didukung oleh Cloudera Runtime. Anda dapat menggunakan definisi klaster di Data Hub untuk menyediakan dan mengakses klaster beban kerja untuk kasus penggunaan kustom dan menentukan konfigurasi klaster kustom. Untuk informasi lebih lanjut, lihat situs web Cloudera
. Aliran Data dan Streaming mengatasi tantangan utama yang dihadapi perusahaan dengan data yang bergerak. Ini mengelola yang berikut:
Memproses streaming data real-time pada volume tinggi dan skala tinggi
Melacak asal data dan garis keturunan data streaming
Mengelola dan memantau aplikasi edge dan sumber streaming
Untuk informasi lebih lanjut, lihat Cloudera DataFlow
dan CSP di situs web Cloudera. Rekayasa Data mencakup integrasi data, kualitas data, dan tata kelola data, yang membantu organisasi membangun dan memelihara jalur data dan alur kerja. Untuk informasi lebih lanjut, lihat situs web Cloudera
. Pelajari tentang dukungan untuk instans spot guna memfasilitasi penghematan biaya AWS untuk beban kerja Rekayasa Data Cloudera. Data Warehouse memungkinkan Anda membuat gudang data independen dan data mart yang secara otomatis menskalakan untuk memenuhi tuntutan beban kerja. Layanan ini menyediakan instans komputasi terisolasi dan pengoptimalan otomatis untuk setiap gudang data dan data mart, dan membantu Anda menghemat biaya saat rapat. SLAs Untuk informasi lebih lanjut, lihat situs web Cloudera
. Pelajari cara mengelola biaya dan auto-scaling untuk Cloudera Data Warehouse di AWS. Database Operasional dalam CDP menyediakan fondasi yang andal dan fleksibel untuk aplikasi berkinerja tinggi yang dapat diskalakan. Ini memberikan database real-time, selalu tersedia, terukur yang melayani data terstruktur tradisional bersama data baru yang tidak terstruktur dalam platform operasional dan pergudangan terpadu. Untuk informasi lebih lanjut, lihat situs web Cloudera
. Machine Learning adalah platform pembelajaran mesin cloud-native yang menggabungkan kemampuan ilmu data swalayan dan rekayasa data menjadi satu layanan portabel dalam cloud data perusahaan. Ini memungkinkan penyebaran pembelajaran mesin dan kecerdasan buatan (AI) yang dapat diskalakan pada data di mana saja. Untuk informasi lebih lanjut, lihat situs web Cloudera
.
CDP di AWS
Diagram berikut (diadaptasi dengan izin dari situs web Cloudera) menunjukkan arsitektur CDP tingkat tinggi di AWS. CDP mengimplementasikan model keamanannya sendiri

Pesawat kontrol CDP berada di akun master Cloudera di VPC-nya sendiri. Setiap akun pelanggan memiliki sub-akun dan VPC uniknya sendiri. Peran IAM lintas akun dan teknologi SSL mengarahkan lalu lintas manajemen ke dan dari bidang kontrol ke layanan pelanggan yang berada di subnet publik yang dapat dirutekan internet dalam setiap VPC pelanggan. Pada VPC pelanggan, Cloudera Shared Data Experience (SDX) menyediakan keamanan kekuatan perusahaan dengan tata kelola dan kepatuhan terpadu sehingga Anda bisa mendapatkan wawasan dari data Anda dengan lebih cepat. SDX adalah filosofi desain yang dimasukkan ke dalam semua produk Cloudera. Untuk informasi selengkapnya tentang SDX
Alat
Layanan AWS
Amazon Elastic Compute Cloud (Amazon EC2) menyediakan kapasitas komputasi yang dapat diskalakan di AWS Cloud. Anda dapat meluncurkan server virtual sebanyak yang Anda butuhkan dan dengan cepat meningkatkannya ke atas atau ke bawah.
Amazon Elastic Kubernetes Service (Amazon EKS) membantu Anda menjalankan Kubernetes di AWS tanpa perlu menginstal atau memelihara control plane atau node Kubernetes Anda sendiri.
AWS Identity and Access Management (IAM) membantu Anda mengelola akses ke sumber daya AWS dengan aman dengan mengontrol siapa yang diautentikasi dan diberi wewenang untuk menggunakannya.
Amazon Relational Database Service (Amazon RDS) membantu Anda menyiapkan, mengoperasikan, dan menskalakan database relasional di AWS Cloud.
Amazon Simple Storage Service (Amazon S3) adalah layanan penyimpanan objek berbasis cloud yang membantu Anda menyimpan, melindungi, dan mengambil sejumlah data.
Otomatisasi dan perkakas
Untuk perkakas tambahan, Anda dapat menggunakan Cloudera Backup Data Recovery (BDR), AWS Snowball,
dan AWS Snowmobile untuk membantu memigrasikan data dari CDH, HDP, dan CDP lokal ke CDP yang dihosting AWS . Untuk penerapan baru, sebaiknya gunakan AWS Partner Solution untuk
CDP.
Epik
| Tugas | Deskripsi | Keterampilan yang dibutuhkan |
|---|---|---|
Libatkan tim Cloudera. | Cloudera mengejar model keterlibatan standar dengan pelanggannya dan dapat bekerja dengan integrator sistem (SI) Anda untuk mempromosikan pendekatan yang sama. Hubungi tim pelanggan Cloudera sehingga mereka dapat memberikan panduan dan sumber daya teknis yang diperlukan untuk memulai proyek. Menghubungi tim Cloudera memastikan bahwa semua tim yang diperlukan dapat mempersiapkan migrasi saat tanggalnya semakin dekat. Anda dapat menghubungi Cloudera Professional Services untuk memindahkan penyebaran Cloudera Anda dari pilot ke produksi dengan cepat, dengan biaya lebih rendah, dan dengan kinerja puncak. Untuk daftar lengkap penawaran, lihat situs web Cloudera | Pimpin migrasi |
Buat lingkungan Cloud Publik CDP di AWS untuk VPC Anda. | Bekerja dengan Cloudera Professional Services atau SI Anda untuk merencanakan dan menerapkan CDP Public Cloud ke dalam VPC di AWS. | Arsitek awan, UKM Cloudera |
Memprioritaskan dan menilai beban kerja untuk migrasi. | Evaluasi semua beban kerja lokal Anda untuk menentukan beban kerja yang paling mudah untuk dimigrasi. Aplikasi yang tidak kritis adalah yang terbaik untuk bergerak terlebih dahulu, karena mereka akan memiliki dampak minimal pada pelanggan Anda. Simpan beban kerja penting misi untuk yang terakhir, setelah Anda berhasil memigrasikan beban kerja lainnya. catatanBeban kerja transient (CDP Data Engineering) lebih mudah dimigrasikan daripada beban kerja persisten (CDP Data Warehouse). Penting juga untuk mempertimbangkan volume data dan lokasi saat bermigrasi. Tantangan dapat mencakup mereplikasi data secara terus menerus dari lingkungan lokal ke cloud, dan mengubah pipeline konsumsi data untuk mengimpor data langsung ke cloud. | Pimpin migrasi |
Diskusikan CDH, HDP, CDP, dan aktivitas migrasi aplikasi lama. | Pertimbangkan dan mulailah merencanakan kegiatan berikut dengan Cloudera Workload Manager:
| Pimpin migrasi |
Lengkapi persyaratan dan rekomendasi Cloudera Replication Manager. | Bekerja dengan Cloudera Professional Services dan SI Anda untuk mempersiapkan migrasi beban kerja ke lingkungan CDP Public Cloud Anda di AWS. Memahami persyaratan dan rekomendasi berikut dapat membantu Anda menghindari masalah umum selama dan setelah Anda menginstal layanan Manajer Replikasi.
| Pimpin migrasi |
| Tugas | Deskripsi | Keterampilan yang dibutuhkan |
|---|---|---|
Migrasikan beban kerja pertama untuk dev/test lingkungan menggunakan Cloudera Workload Manager. | SI Anda dapat membantu Anda memigrasikan beban kerja pertama Anda ke AWS Cloud. Ini harus menjadi aplikasi yang tidak menghadapi pelanggan atau kritis misi. Kandidat ideal untuk dev/test migrasi adalah aplikasi yang memiliki data yang dapat dengan mudah dikonsumsi oleh cloud, seperti beban kerja Rekayasa Data CDP. Ini adalah beban kerja sementara yang biasanya memiliki lebih sedikit pengguna yang mengaksesnya, dibandingkan dengan beban kerja persisten seperti beban kerja CDP Data Warehouse yang dapat memiliki banyak pengguna yang membutuhkan akses tanpa gangguan. Beban kerja Rekayasa Data tidak persisten, yang meminimalkan dampak bisnis jika terjadi kesalahan. Namun, pekerjaan ini bisa menjadi penting untuk pelaporan produksi, jadi prioritaskan beban kerja Rekayasa Data berdampak rendah terlebih dahulu. | Pimpin migrasi |
Ulangi langkah migrasi seperlunya. | Cloudera Workload Manager membantu mengidentifikasi beban kerja yang paling cocok untuk cloud. Ini menyediakan metrik seperti peringkat kinerja cloud, sizing/capacity rencana untuk lingkungan target, dan rencana replikasi. Kandidat terbaik untuk migrasi adalah beban kerja musiman, pelaporan ad hoc, dan pekerjaan intermiten yang tidak menghabiskan banyak sumber daya. Cloudera Replication Manager memindahkan data dari lokasi ke cloud, dan dari cloud ke tempat. Secara proaktif mengoptimalkan beban kerja, aplikasi, kinerja, dan kapasitas infrastruktur untuk pergudangan data, rekayasa data, dan pembelajaran mesin dengan menggunakan Workload Manager. Untuk panduan lengkap tentang cara memodernisasi gudang data, lihat situs web Cloudera | UKM Cloudera |
Sumber daya terkait
Dokumentasi Cloudera:
Dokumentasi AWS: