Die vorliegende Übersetzung wurde maschinell erstellt. Im Falle eines Konflikts oder eines Widerspruchs zwischen dieser übersetzten Fassung und der englischen Fassung (einschließlich infolge von Verzögerungen bei der Übersetzung) ist die englische Fassung maßgeblich.
Migrieren Sie lokale Cloudera-Workloads zur Cloudera Data Platform auf AWS
Erstellt von Battulga Purevragchaa (AWS), Nijjwol Lamsal (Partner) und Nidhi Gupta (AWS)
Übersicht
Dieses Muster beschreibt die allgemeinen Schritte für die Migration Ihrer lokalen Cloudera Distributed Hadoop (CDH), Hortonworks Data Platform (HDP) und Cloudera Data Platform (CDP) -Workloads zur CDP Public Cloud auf AWS. Wir empfehlen Ihnen, mit Cloudera Professional Services und einem Systemintegrator (SI) zusammenzuarbeiten, um diese Schritte umzusetzen.
Es gibt viele Gründe, warum Cloudera-Kunden ihre lokalen CDH-, HDP- und CDP-Workloads in die Cloud verlagern möchten. Zu den typischen Gründen gehören:
Rationalisieren Sie die Einführung neuer Datenplattform-Paradigmen wie Data Lakehouse oder Data Mesh
Erhöhen Sie die Flexibilität Ihres Unternehmens, demokratisieren Sie den Zugriff auf bestehende Datenbestände und die daraus resultierenden Rückschlüsse
Senken Sie die Gesamtbetriebskosten (TCO)
Verbessern Sie die Workload-Elastizität
Ermöglichen Sie eine höhere Skalierbarkeit und reduzieren Sie den Zeitaufwand für die Bereitstellung von Datendiensten im Vergleich zu herkömmlichen Installationen vor Ort drastisch
Legacy-Hardware außer Dienst stellen und Hardware-Aktualisierungszyklen deutlich reduzieren
Nutzen Sie die pay-as-you-go Preisgestaltung, die mit dem Cloudera-Lizenzmodell (CCU) auf Cloudera-Workloads auf AWS ausgedehnt wird
Nutzen Sie die Vorteile einer schnelleren Bereitstellung und einer verbesserten Integration mit Plattformen für kontinuierliche Integration und kontinuierliche Bereitstellung (CI/CD)
Verwenden Sie eine einzige einheitliche Plattform (CDP) für mehrere Workloads
Cloudera unterstützt alle wichtigen Workloads, einschließlich Machine Learning, Data Engineering, Data Warehouse, Operational Database, Stream Processing (CSP) sowie Datensicherheit und Governance. Cloudera bietet diese Workloads seit vielen Jahren vor Ort an, und Sie können diese Workloads in die AWS-Cloud migrieren, indem Sie CDP Public Cloud mit Workload Manager und Replication Manager verwenden.
Cloudera Shared Data Experience (SDX) bietet einen gemeinsamen Metadatenkatalog für diese Workloads, um eine konsistente Datenverwaltung und einen konsistenten Betrieb zu ermöglichen. SDX bietet außerdem umfassende, differenzierte Sicherheit zum Schutz vor Bedrohungen und eine einheitliche Steuerung für Prüf- und Suchfunktionen zur Einhaltung von Standards wie dem Payment Card Industry Data Security Standard (PCI DSS) und der DSGVO.
Die CDP-Migration auf einen Blick
Arbeitslast | Quell-Workload | CDH, HDP und CDP Private Cloud |
Quellumgebung |
| |
Ziel-Workload | CDP Public Cloud auf AWS | |
Zielumgebung |
| |
Migration | Migrationsstrategie (7Rs) | Rehosten, Neuplattformen oder Refactoring |
Handelt es sich um ein Upgrade der Workload-Version? | Ja | |
Dauer der Migration |
| |
Kosten | Kosten für die Ausführung des Workloads auf AWS |
|
Infrastrukturvereinbarungen und Rahmenbedingungen | Systemanforderungen | Weitere Informationen finden Sie im Abschnitt Voraussetzungen. |
SLA | Weitere Informationen finden Sie unter Cloudera Service Level Agreement für CDP Public | |
DR | Weitere Informationen finden Sie in der Cloudera-Dokumentation unter Disaster Recovery | |
Lizenz- und Betriebsmodell (für AWS-Zielkonto) | Modell „Bring Your Own License“ (BYOL) | |
Compliance | Anforderungen an Sicherheit | Weitere Informationen finden Sie in der Cloudera-Dokumentation im Überblick über die Cloudera-Sicherheit |
Informationen zur Einhaltung der Allgemeinen Datenschutzverordnung (DSGVO |
Voraussetzungen und Einschränkungen
Voraussetzungen
AWS-Kontoanforderungen
, einschließlich Konten, Ressourcen, Services und Berechtigungen, z. B. Einrichtung von Rollen und Richtlinien für AWS Identity and Access Management (IAM) Voraussetzungen für die Bereitstellung von CDP
über die Cloudera-Website
Die Migration erfordert die folgenden Rollen und Fachkenntnisse:
Rolle | Fähigkeiten und Verantwortlichkeiten |
Führung im Bereich Migration | Sorgt für die Unterstützung der Geschäftsleitung, die Zusammenarbeit, Planung, Implementierung und Bewertung im Team |
Cloudera KMU | Fachkenntnisse in den Bereichen CDH-, HDP- und CDP-Administration, Systemadministration und Architektur |
AWS-Architekt | Kenntnisse in AWS-Services, Netzwerken, Sicherheit und Architekturen |
Architektur
Der Aufbau der geeigneten Architektur ist ein entscheidender Schritt, um sicherzustellen, dass Migration und Leistung Ihren Erwartungen entsprechen. Damit Ihre Migrationsbemühungen die Annahmen dieses Playbooks erfüllen, muss Ihre Zieldatenumgebung in der AWS-Cloud, entweder auf gehosteten Virtual Private Cloud (VPC) -Instances oder CDP, in Bezug auf Betriebssystem- und Softwareversionen sowie wichtige Maschinenspezifikationen Ihrer Quellumgebung entsprechen.
Das folgende Diagramm (mit freundlicher Genehmigung aus dem Cloudera Shared Data Experience-Datenblatt

Die Architektur umfasst die folgenden CDP-Komponenten:
Data Hub ist ein Dienst zum Starten und Verwalten von Workload-Clustern, der von Cloudera Runtime unterstützt wird. Sie können die Clusterdefinitionen in Data Hub verwenden, um Workload-Cluster für benutzerdefinierte Anwendungsfälle bereitzustellen und auf sie zuzugreifen und benutzerdefinierte Clusterkonfigurationen zu definieren. Weitere Informationen finden Sie auf der Cloudera-Website
. Data Flow and Streaming befasst sich mit den wichtigsten Herausforderungen, mit denen Unternehmen bei der Übertragung von Daten konfrontiert sind. Es verwaltet Folgendes:
Verarbeitung von Echtzeit-Datenstreaming mit hohem Volumen und großem Umfang
Verfolgung der Herkunft und Herkunft von Streaming-Daten
Verwaltung und Überwachung von Edge-Anwendungen und Streaming-Quellen
Weitere Informationen finden Sie unter Cloudera DataFlow
und CSP auf der Cloudera-Website. Data Engineering umfasst Datenintegration, Datenqualität und Datenverwaltung, die Unternehmen beim Aufbau und der Pflege von Daten-Pipelines und Workflows unterstützen. Weitere Informationen finden Sie auf der Cloudera-Website
. Erfahren Sie mehr über die Unterstützung für Spot-Instances, um Kosteneinsparungen bei AWS for Cloudera Data Engineering-Workloads zu ermöglichen . Mit Data Warehouse können Sie unabhängige Data Warehouses und Data Marts einrichten, die automatisch skaliert werden, um den Workload-Anforderungen gerecht zu werden. Dieser Service bietet isolierte Recheninstanzen und automatisierte Optimierungen für jedes Data Warehouse und jeden Data Mart und hilft Ihnen, während der Besprechung SLAs Kosten zu sparen. Weitere Informationen finden Sie auf der Cloudera-Website
. Erfahren Sie mehr über Kostenmanagement und auto-scaling für Cloudera Data Warehouse auf AWS. Die Betriebsdatenbank in CDP bietet eine zuverlässige und flexible Grundlage für skalierbare Hochleistungsanwendungen. Sie bietet eine jederzeit verfügbare, skalierbare Echtzeitdatenbank, die traditionelle strukturierte Daten zusammen mit neuen, unstrukturierten Daten auf einer einheitlichen Betriebs- und Warehousing-Plattform bereitstellt. Weitere Informationen finden Sie auf der Cloudera-Website.
Machine Learning ist eine Cloud-native Plattform für maschinelles Lernen, die Self-Service-Funktionen für Datenwissenschaft und Datentechnik zu einem einzigen, portablen Service innerhalb einer Unternehmensdatencloud zusammenführt. Sie ermöglicht den skalierbaren Einsatz von maschinellem Lernen und künstlicher Intelligenz (KI) für Daten an jedem beliebigen Ort. Weitere Informationen finden Sie auf der Cloudera-Website
.
CDP auf AWS
Das folgende Diagramm (mit freundlicher Genehmigung der Cloudera-Website angepasst) zeigt die High-Level-Architektur von CDP auf AWS. CDP implementiert ein eigenes Sicherheitsmodell

Die CDP-Steuerebene befindet sich in einem Cloudera-Master-Konto in einer eigenen VPC. Jedes Kundenkonto hat sein eigenes Unterkonto und eine eigene VPC. Kontoübergreifende IAM-Rollen und SSL-Technologien leiten den Verwaltungsdatenverkehr zur und von der Steuerungsebene an Kundenservices weiter, die sich in öffentlichen Subnetzen befinden, die über das Internet routbar sind, innerhalb jeder Kunden-VPC. Auf der VPC des Kunden bietet die Cloudera Shared Data Experience (SDX) unternehmensweite Sicherheit mit einheitlicher Governance und Compliance, sodass Sie schneller Erkenntnisse aus Ihren Daten gewinnen können. SDX ist eine Designphilosophie, die in alle Cloudera-Produkte integriert ist. Weitere Informationen zu SDX
Tools
AWS-Services
Amazon Elastic Compute Cloud (Amazon EC2) bietet skalierbare Rechenkapazität in der AWS-Cloud. Sie können so viele virtuelle Server wie nötig nutzen und sie schnell nach oben oder unten skalieren.
Amazon Elastic Kubernetes Service (Amazon EKS) hilft Ihnen, Kubernetes auf AWS auszuführen, ohne Ihre eigene Kubernetes-Steuerebene oder Knoten installieren oder verwalten zu müssen.
AWS Identity and Access Management (IAM) hilft Ihnen dabei, den Zugriff auf Ihre AWS-Ressourcen sicher zu verwalten, indem kontrolliert wird, wer authentifiziert und autorisiert ist, diese zu verwenden.
Amazon Relational Database Service (Amazon RDS) unterstützt Sie bei der Einrichtung, dem Betrieb und der Skalierung einer relationalen Datenbank in der AWS-Cloud.
Amazon Simple Storage Service (Amazon S3) ist ein cloudbasierter Objektspeicherservice, der Sie beim Speichern, Schützen und Abrufen beliebiger Datenmengen unterstützt.
Automatisierung und Tools
Für zusätzliche Tools können Sie Cloudera Backup Data Recovery (BDR)
, AWS Snowball und AWS Snowmobile verwenden, um Daten von lokalen CDH, HDP und CDP auf AWS-gehostete CDP zu migrieren. Für neue Bereitstellungen empfehlen wir, die AWS-Partnerlösung für CDP
zu verwenden.
Epics
Aufgabe | Beschreibung | Erforderliche Fähigkeiten |
---|---|---|
Binden Sie das Cloudera-Team ein. | Cloudera verfolgt ein standardisiertes Kooperationsmodell mit seinen Kunden und kann mit Ihrem Systemintegrator (SI) zusammenarbeiten, um denselben Ansatz zu fördern. Wenden Sie sich an das Cloudera-Kundenteam, damit es Ihnen mit Rat und Tat zur Seite steht und Ihnen die notwendigen technischen Ressourcen für den Start des Projekts zur Verfügung stellt. Durch die Kontaktaufnahme mit dem Cloudera-Team wird sichergestellt, dass sich alle erforderlichen Teams auf die Migration vorbereiten können, wenn der Termin näher rückt. Sie können sich an Cloudera Professional Services wenden, um Ihre Cloudera-Implementierung schnell, zu geringeren Kosten und mit Spitzenleistung von der Pilotphase zur Produktion zu überführen. Eine vollständige Liste der Angebote finden Sie auf der Cloudera-Website | Leiter der Migration |
Erstellen Sie eine CDP Public Cloud-Umgebung auf AWS für Ihre VPC. | Arbeiten Sie mit Cloudera Professional Services oder Ihrem SI zusammen, um CDP Public Cloud in einer VPC auf AWS zu planen und bereitzustellen. | Cloud-Architekt, Cloudera SME |
Priorisieren und bewerten Sie die zu migrierenden Workloads. | Bewerten Sie alle Ihre lokalen Workloads, um herauszufinden, welche Workloads am einfachsten zu migrieren sind. Anwendungen, die nicht geschäftskritisch sind, sollten am besten zuerst verschoben werden, da sie nur minimale Auswirkungen auf Ihre Kunden haben werden. Speichern Sie die geschäftskritischen Workloads bis zum Schluss, nachdem Sie andere Workloads erfolgreich migriert haben. AnmerkungTransiente Workloads (CDP Data Engineering) lassen sich einfacher migrieren als persistente Workloads (CDP Data Warehouse). Es ist auch wichtig, bei der Migration das Datenvolumen und die Standorte zu berücksichtigen. Zu den Herausforderungen können die kontinuierliche Replikation von Daten aus einer lokalen Umgebung in die Cloud und die Änderung der Datenerfassungspipelines gehören, um Daten direkt in die Cloud zu importieren. | Leitung der Migration |
Erörtern Sie Aktivitäten zur Migration von CDH, HDP, CDP und Legacy-Anwendungen. | Erwägen Sie mit Cloudera Workload Manager die folgenden Aktivitäten und beginnen Sie mit der Planung:
| Leitung der Migration |
Erfüllen Sie die Anforderungen und Empfehlungen von Cloudera Replication Manager. | Arbeiten Sie mit Cloudera Professional Services und Ihrem SI zusammen, um die Migration von Workloads in Ihre CDP Public Cloud-Umgebung auf AWS vorzubereiten. Wenn Sie die folgenden Anforderungen und Empfehlungen kennen, können Sie häufig auftretende Probleme während und nach der Installation des Replication Manager-Service vermeiden.
| Leiter der Migration |
Aufgabe | Beschreibung | Erforderliche Fähigkeiten |
---|---|---|
Migrieren Sie den ersten Workload für Entwicklungs-/Testumgebungen mithilfe von Cloudera Workload Manager. | Ihr SI kann Ihnen helfen, Ihren ersten Workload in die AWS-Cloud zu migrieren. Dabei sollte es sich um eine Anwendung handeln, die nicht kundenorientiert oder geschäftskritisch ist. Ideale Kandidaten für die Dev/Test-Migration sind Anwendungen mit Daten, die die Cloud problemlos aufnehmen kann, wie z. B. CDP Data Engineering-Workloads. Dabei handelt es sich um eine vorübergehende Arbeitslast, auf die in der Regel weniger Benutzer zugreifen, verglichen mit einer persistenten Arbeitslast wie einer CDP Data Warehouse-Arbeitslast, auf die viele Benutzer ununterbrochenen Zugriff benötigen. Data Engineering-Workloads sind nicht dauerhaft, wodurch die Auswirkungen auf das Geschäft minimiert werden, falls etwas schief geht. Diese Aufgaben können jedoch für die Produktionsberichterstattung von entscheidender Bedeutung sein. Priorisieren Sie daher zunächst Datenverarbeitungs-Workloads mit geringen Auswirkungen. | Leiter der Migration |
Wiederholen Sie die Migrationsschritte nach Bedarf. | Cloudera Workload Manager hilft bei der Identifizierung von Workloads, die sich am besten für die Cloud eignen. Er bietet Kennzahlen wie Cloud-Leistungsbewertungen, Größen-/Kapazitätspläne für die Zielumgebung und Replikationspläne. Die besten Kandidaten für eine Migration sind saisonale Workloads, Ad-hoc-Berichte und zeitweilige Jobs, die nicht viele Ressourcen verbrauchen. Cloudera Replication Manager verschiebt Daten von lokalen Standorten in die Cloud und von der Cloud in lokale Umgebungen. Optimieren Sie mithilfe von Workload Manager proaktiv Workloads, Anwendungen, Leistung und Infrastrukturkapazität für Data Warehousing, Data Engineering und maschinelles Lernen. Eine vollständige Anleitung zur Modernisierung eines Data Warehouse finden Sie auf der Cloudera-Website. | Cloudera SME |
Zugehörige Ressourcen
Cloudera-Dokumentation:
AWS-Dokumentation: