Migrieren Sie lokale Cloudera-Workloads zur Cloudera Data Platform auf AWS - AWS Prescriptive Guidance

Die vorliegende Übersetzung wurde maschinell erstellt. Im Falle eines Konflikts oder eines Widerspruchs zwischen dieser übersetzten Fassung und der englischen Fassung (einschließlich infolge von Verzögerungen bei der Übersetzung) ist die englische Fassung maßgeblich.

Migrieren Sie lokale Cloudera-Workloads zur Cloudera Data Platform auf AWS

Erstellt von Battulga Purevragchaa (AWS), Nijjwol Lamsal (Partner) und Nidhi Gupta (AWS)

Übersicht

Dieses Muster beschreibt die allgemeinen Schritte für die Migration Ihrer lokalen Cloudera Distributed Hadoop (CDH), Hortonworks Data Platform (HDP) und Cloudera Data Platform (CDP) -Workloads zur CDP Public Cloud auf AWS. Wir empfehlen Ihnen, mit Cloudera Professional Services und einem Systemintegrator (SI) zusammenzuarbeiten, um diese Schritte umzusetzen.

Es gibt viele Gründe, warum Cloudera-Kunden ihre lokalen CDH-, HDP- und CDP-Workloads in die Cloud verlagern möchten. Zu den typischen Gründen gehören:

  • Rationalisieren Sie die Einführung neuer Datenplattform-Paradigmen wie Data Lakehouse oder Data Mesh

  • Erhöhen Sie die Flexibilität Ihres Unternehmens, demokratisieren Sie den Zugriff auf bestehende Datenbestände und die daraus resultierenden Rückschlüsse

  • Senken Sie die Gesamtbetriebskosten (TCO)

  • Verbessern Sie die Workload-Elastizität

  • Ermöglichen Sie eine höhere Skalierbarkeit und reduzieren Sie den Zeitaufwand für die Bereitstellung von Datendiensten im Vergleich zu herkömmlichen Installationen vor Ort drastisch

  • Legacy-Hardware außer Dienst stellen und Hardware-Aktualisierungszyklen deutlich reduzieren

  • Nutzen Sie die pay-as-you-go Preisgestaltung, die mit dem Cloudera-Lizenzmodell (CCU) auf Cloudera-Workloads auf AWS ausgedehnt wird

  • Nutzen Sie die Vorteile einer schnelleren Bereitstellung und einer verbesserten Integration mit Plattformen für kontinuierliche Integration und kontinuierliche Bereitstellung (CI/CD)

  • Verwenden Sie eine einzige einheitliche Plattform (CDP) für mehrere Workloads

Cloudera unterstützt alle wichtigen Workloads, einschließlich Machine Learning, Data Engineering, Data Warehouse, Operational Database, Stream Processing (CSP) sowie Datensicherheit und Governance. Cloudera bietet diese Workloads seit vielen Jahren vor Ort an, und Sie können diese Workloads in die AWS-Cloud migrieren, indem Sie CDP Public Cloud mit Workload Manager und Replication Manager verwenden. 

Cloudera Shared Data Experience (SDX) bietet einen gemeinsamen Metadatenkatalog für diese Workloads, um eine konsistente Datenverwaltung und einen konsistenten Betrieb zu ermöglichen. SDX bietet außerdem umfassende, differenzierte Sicherheit zum Schutz vor Bedrohungen und eine einheitliche Steuerung für Prüf- und Suchfunktionen zur Einhaltung von Standards wie dem Payment Card Industry Data Security Standard (PCI DSS) und der DSGVO. 

Die CDP-Migration auf einen Blick

 

 

 

Arbeitslast

Quell-Workload

CDH, HDP und CDP Private Cloud

Quellumgebung

  • Windows, Linux

  • Lokal, Colocation oder jede Umgebung außerhalb von AWS

Ziel-Workload

CDP Public Cloud auf AWS

Zielumgebung

  • Bereitstellungsmodell: Kundenkonto

  • Betriebsmodell: Kunde/ClouderA-Steuerebene

 

 

Migration

Migrationsstrategie (7Rs)

Rehosten, Neuplattformen oder Refactoring

Handelt es sich um ein Upgrade der Workload-Version?

Ja

Dauer der Migration

  • Bereitstellung: Ungefähr eine Woche, um ein Kundenkonto, eine vom Kunden verwaltete Virtual Private Cloud (VPC) und eine CDP Public Cloud-Umgebung zu erstellen.

  • Migrationsdauer: 1—4 Monate, abhängig von der Komplexität und Größe der Arbeitslast.

Kosten

Kosten für die Ausführung des Workloads auf AWS

 

 

Infrastrukturvereinbarungen und Rahmenbedingungen

Systemanforderungen

Weitere Informationen finden Sie im Abschnitt Voraussetzungen.

SLA

Weitere Informationen finden Sie unter Cloudera Service Level Agreement für CDP Public Cloud.

DR

Weitere Informationen finden Sie in der Cloudera-Dokumentation unter Disaster Recovery.

Lizenz- und Betriebsmodell (für AWS-Zielkonto)

Modell „Bring Your Own License“ (BYOL)

 

Compliance

Anforderungen an Sicherheit

Weitere Informationen finden Sie in der Cloudera-Dokumentation im Überblick über die Cloudera-Sicherheit.

Andere Compliance-Zertifizierungen

Informationen zur Einhaltung der Allgemeinen Datenschutzverordnung (DSGVO) und zum CDP Trust Center finden Sie auf der Cloudera-Website.

Voraussetzungen und Einschränkungen

Voraussetzungen

Die Migration erfordert die folgenden Rollen und Fachkenntnisse:

Rolle

Fähigkeiten und Verantwortlichkeiten

Führung im Bereich Migration

Sorgt für die Unterstützung der Geschäftsleitung, die Zusammenarbeit, Planung, Implementierung und Bewertung im Team

Cloudera KMU

Fachkenntnisse in den Bereichen CDH-, HDP- und CDP-Administration, Systemadministration und Architektur

AWS-Architekt

Kenntnisse in AWS-Services, Netzwerken, Sicherheit und Architekturen

Architektur

Der Aufbau der geeigneten Architektur ist ein entscheidender Schritt, um sicherzustellen, dass Migration und Leistung Ihren Erwartungen entsprechen. Damit Ihre Migrationsbemühungen die Annahmen dieses Playbooks erfüllen, muss Ihre Zieldatenumgebung in der AWS-Cloud, entweder auf gehosteten Virtual Private Cloud (VPC) -Instances oder CDP, in Bezug auf Betriebssystem- und Softwareversionen sowie wichtige Maschinenspezifikationen Ihrer Quellumgebung entsprechen.

Das folgende Diagramm (mit freundlicher Genehmigung aus dem Cloudera Shared Data Experience-Datenblatt wiedergegeben) zeigt die Infrastrukturkomponenten für die CDP-Umgebung und wie die Stufen oder Infrastrukturkomponenten interagieren.

Komponenten der CDP-Umgebung

Die Architektur umfasst die folgenden CDP-Komponenten:

  • Data Hub ist ein Dienst zum Starten und Verwalten von Workload-Clustern, der von Cloudera Runtime unterstützt wird. Sie können die Clusterdefinitionen in Data Hub verwenden, um Workload-Cluster für benutzerdefinierte Anwendungsfälle bereitzustellen und auf sie zuzugreifen und benutzerdefinierte Clusterkonfigurationen zu definieren. Weitere Informationen finden Sie auf der Cloudera-Website.

  • Data Flow and Streaming befasst sich mit den wichtigsten Herausforderungen, mit denen Unternehmen bei der Übertragung von Daten konfrontiert sind. Es verwaltet Folgendes:

    • Verarbeitung von Echtzeit-Datenstreaming mit hohem Volumen und großem Umfang

    • Verfolgung der Herkunft und Herkunft von Streaming-Daten

    • Verwaltung und Überwachung von Edge-Anwendungen und Streaming-Quellen

    Weitere Informationen finden Sie unter Cloudera DataFlow und CSP auf der Cloudera-Website.

  • Data Engineering umfasst Datenintegration, Datenqualität und Datenverwaltung, die Unternehmen beim Aufbau und der Pflege von Daten-Pipelines und Workflows unterstützen. Weitere Informationen finden Sie auf der Cloudera-Website. Erfahren Sie mehr über die Unterstützung für Spot-Instances, um Kosteneinsparungen bei AWS for Cloudera Data Engineering-Workloads zu ermöglichen.

  • Mit Data Warehouse können Sie unabhängige Data Warehouses und Data Marts einrichten, die automatisch skaliert werden, um den Workload-Anforderungen gerecht zu werden. Dieser Service bietet isolierte Recheninstanzen und automatisierte Optimierungen für jedes Data Warehouse und jeden Data Mart und hilft Ihnen, während der Besprechung SLAs Kosten zu sparen. Weitere Informationen finden Sie auf der Cloudera-Website. Erfahren Sie mehr über Kostenmanagement und auto-scaling für Cloudera Data Warehouse auf AWS.

  • Die Betriebsdatenbank in CDP bietet eine zuverlässige und flexible Grundlage für skalierbare Hochleistungsanwendungen. Sie bietet eine jederzeit verfügbare, skalierbare Echtzeitdatenbank, die traditionelle strukturierte Daten zusammen mit neuen, unstrukturierten Daten auf einer einheitlichen Betriebs- und Warehousing-Plattform bereitstellt. Weitere Informationen finden Sie auf der Cloudera-Website.

  • Machine Learning ist eine Cloud-native Plattform für maschinelles Lernen, die Self-Service-Funktionen für Datenwissenschaft und Datentechnik zu einem einzigen, portablen Service innerhalb einer Unternehmensdatencloud zusammenführt. Sie ermöglicht den skalierbaren Einsatz von maschinellem Lernen und künstlicher Intelligenz (KI) für Daten an jedem beliebigen Ort. Weitere Informationen finden Sie auf der Cloudera-Website.

CDP auf AWS

Das folgende Diagramm (mit freundlicher Genehmigung der Cloudera-Website angepasst) zeigt die High-Level-Architektur von CDP auf AWS. CDP implementiert ein eigenes Sicherheitsmodell, um sowohl Konten als auch den Datenfluss zu verwalten. Diese werden mithilfe von kontenübergreifenden Rollen in IAM integriert. 

CDP auf AWS-High-Level-Architektur

Die CDP-Steuerebene befindet sich in einem Cloudera-Master-Konto in einer eigenen VPC. Jedes Kundenkonto hat sein eigenes Unterkonto und eine eigene VPC. Kontoübergreifende IAM-Rollen und SSL-Technologien leiten den Verwaltungsdatenverkehr zur und von der Steuerungsebene an Kundenservices weiter, die sich in öffentlichen Subnetzen befinden, die über das Internet routbar sind, innerhalb jeder Kunden-VPC. Auf der VPC des Kunden bietet die Cloudera Shared Data Experience (SDX) unternehmensweite Sicherheit mit einheitlicher Governance und Compliance, sodass Sie schneller Erkenntnisse aus Ihren Daten gewinnen können. SDX ist eine Designphilosophie, die in alle Cloudera-Produkte integriert ist. Weitere Informationen zu SDX und der CDP Public Cloud-Netzwerkarchitektur für AWS finden Sie in der Cloudera-Dokumentation.

Tools

AWS-Services

Automatisierung und Tools

Epics

AufgabeBeschreibungErforderliche Fähigkeiten

Binden Sie das Cloudera-Team ein.

Cloudera verfolgt ein standardisiertes Kooperationsmodell mit seinen Kunden und kann mit Ihrem Systemintegrator (SI) zusammenarbeiten, um denselben Ansatz zu fördern. Wenden Sie sich an das Cloudera-Kundenteam, damit es Ihnen mit Rat und Tat zur Seite steht und Ihnen die notwendigen technischen Ressourcen für den Start des Projekts zur Verfügung stellt. Durch die Kontaktaufnahme mit dem Cloudera-Team wird sichergestellt, dass sich alle erforderlichen Teams auf die Migration vorbereiten können, wenn der Termin näher rückt. 

Sie können sich an Cloudera Professional Services wenden, um Ihre Cloudera-Implementierung schnell, zu geringeren Kosten und mit Spitzenleistung von der Pilotphase zur Produktion zu überführen. Eine vollständige Liste der Angebote finden Sie auf der Cloudera-Website.

Leiter der Migration

Erstellen Sie eine CDP Public Cloud-Umgebung auf AWS für Ihre VPC.

Arbeiten Sie mit Cloudera Professional Services oder Ihrem SI zusammen, um CDP Public Cloud in einer VPC auf AWS zu planen und bereitzustellen.

Cloud-Architekt, Cloudera SME

Priorisieren und bewerten Sie die zu migrierenden Workloads.

Bewerten Sie alle Ihre lokalen Workloads, um herauszufinden, welche Workloads am einfachsten zu migrieren sind. Anwendungen, die nicht geschäftskritisch sind, sollten am besten zuerst verschoben werden, da sie nur minimale Auswirkungen auf Ihre Kunden haben werden. Speichern Sie die geschäftskritischen Workloads bis zum Schluss, nachdem Sie andere Workloads erfolgreich migriert haben.

Anmerkung

Transiente Workloads (CDP Data Engineering) lassen sich einfacher migrieren als persistente Workloads (CDP Data Warehouse). Es ist auch wichtig, bei der Migration das Datenvolumen und die Standorte zu berücksichtigen. Zu den Herausforderungen können die kontinuierliche Replikation von Daten aus einer lokalen Umgebung in die Cloud und die Änderung der Datenerfassungspipelines gehören, um Daten direkt in die Cloud zu importieren.

Leitung der Migration

Erörtern Sie Aktivitäten zur Migration von CDH, HDP, CDP und Legacy-Anwendungen.

Erwägen Sie mit Cloudera Workload Manager die folgenden Aktivitäten und beginnen Sie mit der Planung:

  • Daten und Workloads zum Kopieren in Ihre AWS-Umgebung

  • Cloud-fähige Daten

  • Laute Nachbarn, die Ressourcen verbrauchen und anderen Mietern Probleme bereiten

  • Elastische Workloads

  • Kleine Cluster mit hohem Betriebsaufwand

Leitung der Migration

Erfüllen Sie die Anforderungen und Empfehlungen von Cloudera Replication Manager.

Arbeiten Sie mit Cloudera Professional Services und Ihrem SI zusammen, um die Migration von Workloads in Ihre CDP Public Cloud-Umgebung auf AWS vorzubereiten. Wenn Sie die folgenden Anforderungen und Empfehlungen kennen, können Sie häufig auftretende Probleme während und nach der Installation des Replication Manager-Service vermeiden.

  • Überprüfen Sie anhand der Begleitdokumente zu Replication Manager, ob Sie die Umgebungs- und Systemanforderungen erfüllen. Weitere Informationen finden Sie unter Supportmatrix für CDP Public Cloud Replication Manager auf der Cloudera-Website.

  • Sie benötigen keinen Root-Zugriff auf die Knoten, auf denen die Replication Manager App und die Data Lifecycle Manager (DLM) -Engine installiert werden.

  • Installieren Sie Apache Hive während der Erstinstallation von Replication Manager, sofern Sie nicht sicher sind, dass Sie die Hive-Replikation in future nicht mehr verwenden werden. Wenn Sie Hive installieren möchten, nachdem Sie HDFS-Replikationsrichtlinien in Replication Manager erstellt haben, müssen Sie alle HDFS-Replikationsrichtlinien löschen und anschließend neu erstellen, nachdem Sie Hive hinzugefügt haben.

  • In Replication Manager verwendete Cluster müssen symmetrische Konfigurationen haben. Jeder Cluster in einer Replikationsbeziehung muss in Bezug auf Sicherheit (Kerberos), Benutzerverwaltung (LDAP/AD) und Knox Proxy exakt gleich konfiguriert sein. Clusterdienste wie Hadoop Distributed File System (HDFS), Apache Hive, Apache Knox, Apache Ranger und Apache Atlas können unterschiedliche Konfigurationen für Hochverfügbarkeit (HA) haben. Quell- und Zielcluster können beispielsweise separate HA- und Nicht-HA-Konfigurationen haben.

Leiter der Migration
AufgabeBeschreibungErforderliche Fähigkeiten

Migrieren Sie den ersten Workload für Entwicklungs-/Testumgebungen mithilfe von Cloudera Workload Manager.

Ihr SI kann Ihnen helfen, Ihren ersten Workload in die AWS-Cloud zu migrieren. Dabei sollte es sich um eine Anwendung handeln, die nicht kundenorientiert oder geschäftskritisch ist. Ideale Kandidaten für die Dev/Test-Migration sind Anwendungen mit Daten, die die Cloud problemlos aufnehmen kann, wie z. B. CDP Data Engineering-Workloads. Dabei handelt es sich um eine vorübergehende Arbeitslast, auf die in der Regel weniger Benutzer zugreifen, verglichen mit einer persistenten Arbeitslast wie einer CDP Data Warehouse-Arbeitslast, auf die viele Benutzer ununterbrochenen Zugriff benötigen. Data Engineering-Workloads sind nicht dauerhaft, wodurch die Auswirkungen auf das Geschäft minimiert werden, falls etwas schief geht. Diese Aufgaben können jedoch für die Produktionsberichterstattung von entscheidender Bedeutung sein. Priorisieren Sie daher zunächst Datenverarbeitungs-Workloads mit geringen Auswirkungen.

Leiter der Migration

Wiederholen Sie die Migrationsschritte nach Bedarf.

Cloudera Workload Manager hilft bei der Identifizierung von Workloads, die sich am besten für die Cloud eignen. Er bietet Kennzahlen wie Cloud-Leistungsbewertungen, Größen-/Kapazitätspläne für die Zielumgebung und Replikationspläne. Die besten Kandidaten für eine Migration sind saisonale Workloads, Ad-hoc-Berichte und zeitweilige Jobs, die nicht viele Ressourcen verbrauchen.

Cloudera Replication Manager verschiebt Daten von lokalen Standorten in die Cloud und von der Cloud in lokale Umgebungen.

Optimieren Sie mithilfe von Workload Manager proaktiv Workloads, Anwendungen, Leistung und Infrastrukturkapazität für Data Warehousing, Data Engineering und maschinelles Lernen. Eine vollständige Anleitung zur Modernisierung eines Data Warehouse finden Sie auf der Cloudera-Website.

Cloudera SME

Zugehörige Ressourcen

Cloudera-Dokumentation:

AWS-Dokumentation: