Memigrasikan beban kerja Cloudera lokal ke Platform Data Cloudera di AWS - AWS Prescriptive Guidance

Terjemahan disediakan oleh mesin penerjemah. Jika konten terjemahan yang diberikan bertentangan dengan versi bahasa Inggris aslinya, utamakan versi bahasa Inggris.

Memigrasikan beban kerja Cloudera lokal ke Platform Data Cloudera di AWS

Battulga Purevragchaa dan Nidhi Gupta, Amazon Web Services

Nijjwol Lamsal, Mitra

Ringkasan

Pola ini menjelaskan langkah-langkah tingkat tinggi untuk memigrasikan beban kerja Cloudera Distributed Hadoop (CDH), Hortonworks Data Platform (HDP), dan Cloudera Data Platform (CDP) lokal Anda ke CDP Public Cloud di AWS. Kami menyarankan Anda bermitra dengan Cloudera Professional Services dan integrator sistem (SI) untuk menerapkan langkah-langkah ini.

Ada banyak alasan mengapa pelanggan Cloudera ingin memindahkan beban kerja CDH, HDP, dan CDP lokal mereka ke cloud. Beberapa alasan khas meliputi:

  • Merampingkan adopsi paradigma platform data baru seperti data lakehouse atau data mesh

  • Meningkatkan kelincahan bisnis, mendemokratisasikan akses dan inferensi pada aset data yang ada

  • Menurunkan total biaya kepemilikan (TCO)

  • Meningkatkan elastisitas beban kerja

  • Mengaktifkan skalabilitas yang lebih besar; secara drastis mengurangi waktu untuk menyediakan layanan data dibandingkan dengan basis instalasi lokal yang lama

  • Pensiun perangkat keras lama; secara signifikan mengurangi siklus penyegaran perangkat keras

  • Manfaatkan pay-as-you-go harga, yang diperluas ke beban kerja Cloudera di AWS dengan model lisensi Cloudera (CCU)

  • Manfaatkan penyebaran yang lebih cepat dan integrasi yang lebih baik dengan platform integrasi berkelanjutan dan pengiriman berkelanjutan (CI/CD)

  • Gunakan platform terpadu tunggal (CDP) untuk beberapa beban kerja

Cloudera mendukung semua beban kerja utama, termasuk Machine Learning, Data Engineering, Data Warehouse, Operational Database, Stream Processing (CSP), dan keamanan dan tata kelola data. Cloudera telah menawarkan beban kerja ini selama bertahun-tahun di lokasi, dan Anda dapat memigrasikan beban kerja ini ke AWS Cloud dengan menggunakan CDP Public Cloud dengan Workload Manager dan Replication Manager. 

Cloudera Shared Data Experience (SDX) menyediakan katalog metadata bersama di seluruh beban kerja ini untuk memfasilitasi pengelolaan dan operasi data yang konsisten. SDX juga mencakup keamanan terperinci yang komprehensif untuk melindungi dari ancaman, dan tata kelola terpadu untuk kemampuan audit dan pencarian untuk kepatuhan terhadap standar seperti Standar Keamanan Data Industri Kartu Pembayaran (PCI DSS) dan GDPR. 

Sekilas tentang migrasi CDP

 

 

 

Beban kerja

Beban kerja sumber

CDH, HDP, dan CDP Private Cloud

Lingkungan sumber

  • Windows, Linux

  • Lokal, kolokasi, atau lingkungan non-AWS

Beban kerja tujuan

Cloud Publik CDP di AWS

Lingkungan tujuan

  • Model penyebaran: akun pelanggan

  • Model operasi: bidang customer/Cloudera kontrol

 

 

Migrasi

Strategi migrasi (7Rs)

Rehost, replatform, atau refactor

Apakah ini peningkatan dalam versi beban kerja?

Ya

Durasi migrasi

  • Deployment: Sekitar 1 minggu untuk membuat akun pelanggan, virtual private cloud (VPC), dan lingkungan yang dikelola pelanggan CDP Public Cloud.

  • Durasi migrasi: 1-4 bulan, tergantung pada kompleksitas dan ukuran beban kerja.

Biaya

Biaya menjalankan beban kerja di AWS

  • Pada tingkat tinggi, biaya migrasi beban kerja CDH ke AWS mengasumsikan bahwa Anda akan membangun lingkungan baru di AWS. Ini termasuk akuntansi untuk waktu dan upaya personel serta penyediaan sumber daya komputasi dan perangkat lunak lisensi untuk lingkungan baru.

  • Model harga berbasis konsumsi cloud Cloudera memberi Anda fleksibilitas untuk memanfaatkan kemampuan penskalaan yang meledak dan otomatis. Untuk informasi selengkapnya, lihat tarif layanan CDP Public Cloud di situs web Cloudera.

  • Cloudera Enterprise Data Hub didasarkan pada Amazon Elastic Compute Cloud EC2 (Amazon) dan memodelkan cluster tradisional dengan cermat. Data Hub dapat disesuaikan, tetapi ini akan mempengaruhi biaya.

  • CDP Public Cloud Data Warehouse, Cloudera Machine Learning, dan Cloudera Data Engineering (CDE) berbasis container dan dapat dikonfigurasi untuk skala secara otomatis.

 

 

Perjanjian dan kerangka infrastruktur

Persyaratan sistem

Lihat bagian Prasyarat.

SLA

Lihat Perjanjian Tingkat Layanan Cloudera untuk CDP Public Cloud.

DR

Lihat Pemulihan Bencana di dokumentasi Cloudera.

Model lisensi dan pengoperasian (untuk akun AWS target)

Bawa model Lisensi Anda Sendiri (BYOL)

 

Kepatuhan

Persyaratan keamanan

Lihat Ikhtisar Keamanan Cloudera di dokumentasi Cloudera.

Sertifikasi kepatuhan lainnya

Lihat informasi di situs web Cloudera tentang kepatuhan Peraturan Perlindungan Data Umum (GDPR) dan Pusat Kepercayaan CDP.

Prasyarat dan batasan

Prasyarat

Migrasi membutuhkan peran dan keahlian berikut:

Peran

Keterampilan dan tanggung jawab

Pimpin migrasi

Memastikan dukungan eksekutif, kolaborasi tim, perencanaan, implementasi, dan penilaian

UKM Cloudera

Keterampilan ahli dalam administrasi CDH, HDP, dan CDP, administrasi sistem, dan arsitektur

Arsitek AWS

Keterampilan dalam layanan AWS, jaringan, keamanan, dan arsitektur

Arsitektur

Membangun arsitektur yang sesuai adalah langkah penting untuk memastikan bahwa migrasi dan kinerja memenuhi harapan Anda. Agar upaya migrasi Anda memenuhi asumsi buku pedoman ini, lingkungan data target Anda di AWS Cloud, baik pada instance yang dihosting virtual private cloud (VPC) atau CDP, harus setara dengan lingkungan sumber Anda dalam hal versi sistem operasi dan perangkat lunak serta spesifikasi mesin utama.

Diagram berikut (direproduksi dengan izin dari lembar data Pengalaman Data Bersama Cloudera) menunjukkan komponen infrastruktur untuk lingkungan CDP dan bagaimana tingkatan atau komponen infrastruktur berinteraksi.

Komponen lingkungan CDP

Arsitektur mencakup komponen CDP berikut:

  • Data Hub adalah layanan untuk meluncurkan dan mengelola klaster beban kerja yang didukung oleh Cloudera Runtime. Anda dapat menggunakan definisi klaster di Data Hub untuk menyediakan dan mengakses klaster beban kerja untuk kasus penggunaan kustom dan menentukan konfigurasi klaster kustom. Untuk informasi lebih lanjut, lihat situs web Cloudera.

  • Aliran Data dan Streaming mengatasi tantangan utama yang dihadapi perusahaan dengan data yang bergerak. Ini mengelola yang berikut:

    • Memproses streaming data real-time pada volume tinggi dan skala tinggi

    • Melacak asal data dan garis keturunan data streaming

    • Mengelola dan memantau aplikasi edge dan sumber streaming

    Untuk informasi lebih lanjut, lihat Cloudera DataFlow dan CSP di situs web Cloudera.

  • Rekayasa Data mencakup integrasi data, kualitas data, dan tata kelola data, yang membantu organisasi membangun dan memelihara jalur data dan alur kerja. Untuk informasi lebih lanjut, lihat situs web Cloudera. Pelajari tentang dukungan untuk instans spot guna memfasilitasi penghematan biaya AWS untuk beban kerja Rekayasa Data Cloudera.

  • Data Warehouse memungkinkan Anda membuat gudang data independen dan data mart yang secara otomatis menskalakan untuk memenuhi tuntutan beban kerja. Layanan ini menyediakan instans komputasi terisolasi dan pengoptimalan otomatis untuk setiap gudang data dan data mart, dan membantu Anda menghemat biaya saat rapat. SLAs Untuk informasi lebih lanjut, lihat situs web Cloudera. Pelajari cara mengelola biaya dan auto-scaling untuk Cloudera Data Warehouse di AWS.

  • Database Operasional dalam CDP menyediakan fondasi yang andal dan fleksibel untuk aplikasi berkinerja tinggi yang dapat diskalakan. Ini memberikan database real-time, selalu tersedia, terukur yang melayani data terstruktur tradisional bersama data baru yang tidak terstruktur dalam platform operasional dan pergudangan terpadu. Untuk informasi lebih lanjut, lihat situs web Cloudera.

  • Machine Learning adalah platform pembelajaran mesin cloud-native yang menggabungkan kemampuan ilmu data swalayan dan rekayasa data menjadi satu layanan portabel dalam cloud data perusahaan. Ini memungkinkan penyebaran pembelajaran mesin dan kecerdasan buatan (AI) yang dapat diskalakan pada data di mana saja. Untuk informasi lebih lanjut, lihat situs web Cloudera.

CDP di AWS

Diagram berikut (diadaptasi dengan izin dari situs web Cloudera) menunjukkan arsitektur CDP tingkat tinggi di AWS. CDP mengimplementasikan model keamanannya sendiri untuk mengelola akun dan aliran data. Ini terintegrasi dengan IAM melalui penggunaan peran lintas akun

CDP pada arsitektur tingkat tinggi AWS

Pesawat kontrol CDP berada di akun master Cloudera di VPC-nya sendiri. Setiap akun pelanggan memiliki sub-akun dan VPC uniknya sendiri. Peran IAM lintas akun dan teknologi SSL mengarahkan lalu lintas manajemen ke dan dari bidang kontrol ke layanan pelanggan yang berada di subnet publik yang dapat dirutekan internet dalam setiap VPC pelanggan. Pada VPC pelanggan, Cloudera Shared Data Experience (SDX) menyediakan keamanan kekuatan perusahaan dengan tata kelola dan kepatuhan terpadu sehingga Anda bisa mendapatkan wawasan dari data Anda dengan lebih cepat. SDX adalah filosofi desain yang dimasukkan ke dalam semua produk Cloudera. Untuk informasi selengkapnya tentang SDX dan arsitektur jaringan Cloud Publik CDP untuk AWS, lihat dokumentasi Cloudera.

Alat

Layanan AWS

Otomatisasi dan perkakas

Epik

TugasDeskripsiKeterampilan yang dibutuhkan

Libatkan tim Cloudera.

Cloudera mengejar model keterlibatan standar dengan pelanggannya dan dapat bekerja dengan integrator sistem (SI) Anda untuk mempromosikan pendekatan yang sama. Hubungi tim pelanggan Cloudera sehingga mereka dapat memberikan panduan dan sumber daya teknis yang diperlukan untuk memulai proyek. Menghubungi tim Cloudera memastikan bahwa semua tim yang diperlukan dapat mempersiapkan migrasi saat tanggalnya semakin dekat. 

Anda dapat menghubungi Cloudera Professional Services untuk memindahkan penyebaran Cloudera Anda dari pilot ke produksi dengan cepat, dengan biaya lebih rendah, dan dengan kinerja puncak. Untuk daftar lengkap penawaran, lihat situs web Cloudera.

Pimpin migrasi

Buat lingkungan Cloud Publik CDP di AWS untuk VPC Anda.

Bekerja dengan Cloudera Professional Services atau SI Anda untuk merencanakan dan menerapkan CDP Public Cloud ke dalam VPC di AWS.

Arsitek awan, UKM Cloudera

Memprioritaskan dan menilai beban kerja untuk migrasi.

Evaluasi semua beban kerja lokal Anda untuk menentukan beban kerja yang paling mudah untuk dimigrasi. Aplikasi yang tidak kritis adalah yang terbaik untuk bergerak terlebih dahulu, karena mereka akan memiliki dampak minimal pada pelanggan Anda. Simpan beban kerja penting misi untuk yang terakhir, setelah Anda berhasil memigrasikan beban kerja lainnya.

catatan

Beban kerja transient (CDP Data Engineering) lebih mudah dimigrasikan daripada beban kerja persisten (CDP Data Warehouse). Penting juga untuk mempertimbangkan volume data dan lokasi saat bermigrasi. Tantangan dapat mencakup mereplikasi data secara terus menerus dari lingkungan lokal ke cloud, dan mengubah pipeline konsumsi data untuk mengimpor data langsung ke cloud.

Pimpin migrasi

Diskusikan CDH, HDP, CDP, dan aktivitas migrasi aplikasi lama.

Pertimbangkan dan mulailah merencanakan kegiatan berikut dengan Cloudera Workload Manager:

  • Data dan beban kerja untuk disalin ke lingkungan AWS Anda

  • Data siap cloud

  • Tetangga yang berisik, yang menggunakan sumber daya dan menciptakan masalah bagi penyewa lain

  • Beban kerja elastis

  • Cluster kecil dengan overhead operasional tinggi

Pimpin migrasi

Lengkapi persyaratan dan rekomendasi Cloudera Replication Manager.

Bekerja dengan Cloudera Professional Services dan SI Anda untuk mempersiapkan migrasi beban kerja ke lingkungan CDP Public Cloud Anda di AWS. Memahami persyaratan dan rekomendasi berikut dapat membantu Anda menghindari masalah umum selama dan setelah Anda menginstal layanan Manajer Replikasi.

  • Tinjau dokumen pendukung Manajer Replikasi untuk mengonfirmasi bahwa Anda memenuhi persyaratan lingkungan dan sistem. Untuk informasi selengkapnya, lihat Matriks Support untuk CDP Public Cloud Replication Manager di situs web Cloudera.

  • Anda tidak memerlukan akses root ke node tempat mesin Replication Manager App dan Data Lifecycle Manager (DLM) akan diinstal.

  • Instal Apache Hive selama instalasi awal Replication Manager, kecuali Anda yakin bahwa Anda tidak akan menggunakan replikasi Hive di masa depan. Jika Anda memutuskan untuk menginstal Hive setelah membuat kebijakan replikasi HDFS di Manajer Replikasi, Anda harus menghapus dan kemudian membuat ulang semua kebijakan replikasi HDFS setelah menambahkan Hive.

  • Cluster yang digunakan dalam Manajer Replikasi harus memiliki konfigurasi simetris. Setiap cluster dalam hubungan replikasi harus dikonfigurasi persis sama untuk keamanan (Kerberos), manajemen pengguna (LDAP/AD), dan Knox Proxy. Layanan cluster seperti Hadoop Distributed File System (HDFS), Apache Hive, Apache Knox, Apache Ranger, dan Apache Atlas dapat memiliki konfigurasi yang berbeda untuk ketersediaan tinggi (HA). Misalnya, cluster sumber dan target mungkin memiliki konfigurasi HA dan non-HA yang terpisah.

Pimpin migrasi
TugasDeskripsiKeterampilan yang dibutuhkan

Migrasikan beban kerja pertama untuk dev/test lingkungan menggunakan Cloudera Workload Manager.

SI Anda dapat membantu Anda memigrasikan beban kerja pertama Anda ke AWS Cloud. Ini harus menjadi aplikasi yang tidak menghadapi pelanggan atau kritis misi. Kandidat ideal untuk dev/test migrasi adalah aplikasi yang memiliki data yang dapat dengan mudah dikonsumsi oleh cloud, seperti beban kerja Rekayasa Data CDP. Ini adalah beban kerja sementara yang biasanya memiliki lebih sedikit pengguna yang mengaksesnya, dibandingkan dengan beban kerja persisten seperti beban kerja CDP Data Warehouse yang dapat memiliki banyak pengguna yang membutuhkan akses tanpa gangguan. Beban kerja Rekayasa Data tidak persisten, yang meminimalkan dampak bisnis jika terjadi kesalahan. Namun, pekerjaan ini bisa menjadi penting untuk pelaporan produksi, jadi prioritaskan beban kerja Rekayasa Data berdampak rendah terlebih dahulu.

Pimpin migrasi

Ulangi langkah migrasi seperlunya.

Cloudera Workload Manager membantu mengidentifikasi beban kerja yang paling cocok untuk cloud. Ini menyediakan metrik seperti peringkat kinerja cloud, sizing/capacity rencana untuk lingkungan target, dan rencana replikasi. Kandidat terbaik untuk migrasi adalah beban kerja musiman, pelaporan ad hoc, dan pekerjaan intermiten yang tidak menghabiskan banyak sumber daya.

Cloudera Replication Manager memindahkan data dari lokasi ke cloud, dan dari cloud ke tempat.

Secara proaktif mengoptimalkan beban kerja, aplikasi, kinerja, dan kapasitas infrastruktur untuk pergudangan data, rekayasa data, dan pembelajaran mesin dengan menggunakan Workload Manager. Untuk panduan lengkap tentang cara memodernisasi gudang data, lihat situs web Cloudera.

UKM Cloudera

Sumber daya terkait

Dokumentasi Cloudera:

Dokumentasi AWS: