翻訳は機械翻訳により提供されています。提供された翻訳内容と英語版の間で齟齬、不一致または矛盾がある場合、英語版が優先します。
オンプレミスの Cloudera ワークロードを AWS 上の Cloudera データプラットフォームに移行する
Battulga Purevragchaa と Nidhi Gupta、Amazon Web Services
Nijjwol Lamsal、パートナー
概要
このパターンでは、オンプレミスの Cloudera 分散 Hadoop (CDH)、Hortonworks データプラットフォーム (HDP)、および Cloudera データプラットフォーム (CDP) のワークロードを AWS 上の CDP パブリッククラウドに移行するための概要レベルの手順を説明しています。Cloudera プロフェッショナルサービスおよびシステムインテグレーター (SI) と提携して、これらのステップを実装することをお勧めします。
Cloudera のお客様がオンプレミスの CDH、HDP、CDP のワークロードをクラウドに移行したいと思う理由はたくさんあります。一般的な理由は以下のとおりです。
- データレイクハウスやデータメッシュなどの新しいデータプラットフォームパラダイムの採用を効率化します。 
- ビジネスの俊敏性を高め、既存のデータ資産へのアクセスと推論を民主化します。 
- 総保有コスト (TCO) が低くなります 
- ワークロードの伸縮自在性を強化 
- 従来のオンプレミスのインストールベースと比較して、スケーラビリティを高め、データサービスのプロビジョニングにかかる時間を大幅に短縮できます。 
- レガシーハードウェアを廃止、ハードウェアの更新サイクルを大幅に短縮 
- 従量制料金を活用してください。この価格は、Cloudera ライセンスモデル (CCU) を使用した AWS 上の Cloudera ワークロードにも適用されます。 
- 継続的インテグレーションおよび継続的デリバリー (CI/CD) のプラットフォームにより、より迅速な導入や統合の強化を活用する 
- 単一の統合プラットフォーム (CDP) で複数のワークロードに対応 
Clouderaは、機械学習、データエンジニアリング、データウェアハウス、オペレーショナルデータベース、ストリーム処理 (CSP)、データセキュリティとガバナンスなど、主要なワークロードをすべてサポートします。Cloudera はこれらのワークロードを長年にわたりオンプレミスで提供してきました。ワークロードマネージャーとレプリケーションマネージャーを備えた CDP パブリッククラウドを使用することで、これらのワークロードを AWS クラウドに移行できます。
Cloudera Shared Data Experience (SDX) では、これらのワークロード全体で共有メタデータカタログが提供されるため、一貫したデータ管理と運用が容易になります。SDX には、脅威から保護するための包括的できめ細かなセキュリティと、ペイメントカード業界データセキュリティ標準 (PCI DSS) や GDPR などの標準に準拠するための監査および検索機能の統合ガバナンスも含まれています。
一見してのCDP の移行
| 
 
 
 ワークロード | ソースワークロード | CDH、HDP、および CDP プライベートクラウド | 
|---|---|---|
| ソース環境 | 
 | |
| 送信先ワークロード | AWS 上の CDP パブリッククラウド | |
| 送信先環境 | 
 | |
| 
 
 移行 | 移行戦略 (「7Rs」) | リホスト、リプラットフォーム、リファクタリング | 
| これはワークロードのバージョンアップですか? | あり | |
| 移行期間 | 
 | |
| コスト | AWS でのワークロードの実行コスト | 
 | 
| 
 
 インフラストラクチャー契約とフレームワーク | システム要件 | 「前提条件」セクションを参照してください。 | 
| SLA | 「CDP パブリッククラウドに関する Cloudera サービスレベル契約 | |
| DR | Cloudera ドキュメントの「ディザスタリカバリ | |
| ライセンスと運用モデル (ターゲット AWSアカウントの場合) | Bring Your Own License (BYOL) モデル | |
| 
 コンプライアンス | セキュリティ要件 | Cloudera ドキュメントの「Cloudera セキュリティの概要 | 
| その他の「コンプライアンス認証 | 「一般データ保護規則 (GDPR) | 
前提条件と制限
前提条件
- アカウント、リソース、サービス、アクセス許可 (AWS ID & アクセス管理 (IAM) ロールやポリシー設定など) を含む「AWS アカウント要件 - 」 
- Cloudera ウェブサイトから「CDP をデプロイするための前提条件 - 」 
移行には以下の役割と専門知識が必要です。
| ロール | スキルと責任 | 
|---|---|
| 移行リード | 経営陣のサポート、チームコラボレーション、計画、実装、評価を保証する | 
| Cloudera SME | CDH、HDP、CDP の管理、システム管理、アーキテクチャに関する専門スキル | 
| AWS アーキテクト | AWS のサービス、ネットワーク、セキュリティ、アーキテクチャのスキル | 
アーキテクチャ
適切なアーキテクチャを構築することは、移行とパフォーマンスを確実に期待に応えるための重要なステップです。移行作業がこのプレイブックの前提条件を満たすようにするには、仮想プライベートクラウド (VPC) ホストインスタンスまたは CDP 上の AWS クラウド内のターゲットデータ環境が、オペレーティングシステムとソフトウェアのバージョン、および主要なマシン仕様の点でソース環境と同等である必要があります。
以下の図(「Cloudera Shared Data Experience データシート

アーキテクチャには以下の CDP コンポーネントが含まれます。
- データハブは Cloudera Runtime を搭載したワークロードクラスターを起動および管理するためのサービスです。データハブのクラスター定義を使用して、カスタムユースケース向けにワークロードクラスターをプロビジョニングしてアクセスしたり、カスタムクラスター構成を定義したりできます。詳細については、「Cloudera のウェブサイト - 」を参照してください。 
- データフローとストリーミングは、データが移動する中で企業が直面する主な課題に対処します。以下のような管理をしています。 - 高ボリュームおよび高スケールでのリアルタイムデータストリーミングの処理 
- ストリーミングデータの出所とリネージのトラッキング 
- エッジアプリケーションとストリーミングソースの管理と監視 
 - 詳細については、Cloudera ウェブサイトの「Cloudera DataFlow - 」と「CSP - 」を参照してください。 
- データエンジニアリングには、組織がデータパイプラインとワークフローを構築し維持するのに役立つデータ統合、データ品質、データガバナンスが含まれます。詳細については、「Cloudera のウェブサイト - 」を参照してください。Cloudera Data Engineering ワークロードの「AWS でのコスト削減を促進するスポットインスタンスのサポート - 」についてご覧ください。 
- Data Warehouse を利用すると、ワークロードの需要に応じて自動的にスケーリングする独立したデータウェアハウスとデータマートを作成できます。このサービスでは、データウェアハウスとデータマートごとに独立したコンピューティングインスタンスと自動最適化が可能になり、SLA を満たしながらコストを節約できます。詳細については、「Cloudera のウェブサイト - 」を参照してください。AWS 上の Cloudera データウェアハウスの「コスト管理 - 」と「自動スケーリング - 」について学びましょう。 
- CDP のオペレーショナルデータベースは、スケーラブルで高性能なアプリケーションのための信頼性が高く柔軟な基盤を提供します。運用とウェアハウジングの統合プラットフォーム内で、従来の構造化データだけでなく新しい非構造化データも提供する、リアルタイムで、いつでも利用可能な、スケーラブルなデータベースを実現します。詳細については、「Cloudera のウェブサイト - 」を参照してください。 
- Machine Learning は、セルフサービスのデータサイエンスとデータエンジニアリング機能をエンタープライズデータクラウド内の単一のポータブルサービスに統合するクラウドネイティブな機械学習プラットフォームです。機械学習と人工知能 (AI) をどこにでもデータにスケーラブルに展開できます。詳細については、「Cloudera のウェブサイト - 」を参照してください。 
AWS 上の CDP
以下の図 (Cloudera ウェブサイトからの許可を得て改変) は、AWS 上の CDP の大まかなアーキテクチャを示しています。CDP は「独自のセキュリティモデル

CDP コントロールプレーンは、独自の VPC の Cloudera マスターアカウントにあります。各顧客アカウントには独自のサブアカウントと固有の VPC があります。クロスアカウントIAMロールとSSLテクノロジーは、コントロールプレーン間の管理トラフィックを、各顧客VPC 内のインターネットでルーティング可能なパブリックサブネットにあるカスタマーサービスにルーティングします。お客様のVPC では、Cloudera Shared Data Experience(SDX)が統合ガバナンスとコンプライアンスを備えたエンタープライズクラスのセキュリティを実現し、データからより迅速に洞察を引き出すことができます。SDX は Cloudera のすべての製品に組み込まれている設計哲学です。「SDX
ツール
サービス
- 「Amazon Elastic Compute Cloud (Amazon EC2)」は、AWS クラウドでスケーラブルなコンピューティング容量を提供します。必要な数の仮想サーバーを起動することができ、迅速にスケールアップまたはスケールダウンができます。 
- 「Amazon Elastic Kubernetes Service (Amazon EKS)」は、AWS で Kubernetes を実行する際に役立ち、独自の Kubernetes コントロールプレーンまたはノードをインストールまたは維持する必要はありません。 
- 「AWS Identity and Access Management (IAM)」は、AWS リソースへのアクセスを安全に管理し、誰が認証され、使用する権限があるかを制御するのに役立ちます。 
- Amazon Relational Database Service (Amazon RDS) を使用して、AWS クラウドでリレーショナルデータベース (DB) をセットアップ、運用、スケーリングできます。 
- Amazon Simple Storage Service (Amazon S3) は、どのようなデータ量であっても、データを保存、保護、取得することを支援するクラウドベースのオブジェクトストレージサービスです。 
オートメーションとツール
- その他のツールとしては、「Cloudera Backup データリカバリ (BDR) - 」、「AWS Snowball - 」、「AWS Snowmobile - 」を使用して、オンプレミスの CDH、HDP、CDP から AWS がホストする CDP へのデータ移行を支援できます。 
- 新規導入には、「CDP 用 AWS パートナーソリューション - 」を使用することをお勧めします。 
エピック
| タスク | 説明 | 必要なスキル | 
|---|---|---|
| Cloudera チームと連携してください。 | Cloudera は顧客との標準化されたエンゲージメントモデルを追求しており、貴社のシステムインテグレーター (SI) と協力して同じアプローチを推進することができます。Cloudera のカスタマーチームに連絡すれば、プロジェクトを開始するためのガイダンスや必要な技術リソースを提供してもらえます。Cloudera チームに連絡することで、移行日が近づいたら、必要なすべてのチームが移行の準備を整えることができます。 Cloudera プロフェッショナルサービスに連絡して、Cloudera の導入をパイロット版から本番環境に迅速に、低コストで、最高のパフォーマンスで移行できます。サービスの詳細なリストについては、「Cloudera ウェブサイト | 移行リード | 
| VPC 用の CDP パブリッククラウド環境を AWS 上に作成します。 | Cloudera プロフェッショナルサービスまたは SI と連携して CDP パブリッククラウドを計画し、AWS 上の VPC にデプロイします。 | Cloudera 中小企業のクラウドアーキテクト | 
| 移行するワークロードに優先順位を付け、評価する。 | オンプレミスのすべてのワークロードを評価して、移行が最も簡単なワークロードを決定します。ミッションクリティカルではないアプリケーションは、顧客への影響が最小限になるため、最初に移行するのが最適です。ミッションクリティカルなワークロードは、他のワークロードの移行に成功したら、最後に保存しておきます。 注記一時的な (CDP データエンジニアリング) ワークロードは、永続的な (CDP データウェアハウス) ワークロードよりも移行が容易です。移行の際には、データ量と場所を考慮することも重要です。課題としては、データをオンプレミス環境からクラウドに継続的に複製することや、データをクラウドに直接インポートするようにデータインジェストパイプラインを変更することが挙げられます。 | 移行リード | 
| CDH、HDP、CDP、レガシーアプリケーションの移行アクティビティについて話し合う。 | Cloudera ワークロードマネージャーを使用して、以下のアクティビティを検討し、計画を開始してください。 
 | 移行リード | 
| Cloudera レプリケーションマネージャーの要件と推奨事項をすべて記入してください。 | Cloudera プロフェッショナルサービスおよび SI と協力して、AWS 上の CDP パブリッククラウド環境にワークロードを移行する準備をしてください。 以下の要件と推奨事項を理解しておくと、Replication Manager サービスのインストール中およびインストール後に発生する一般的な問題を回避するのに役立ちます。 
 | 移行リード | 
| タスク | 説明 | 必要なスキル | 
|---|---|---|
| Cloudera ワークロードマネージャーを使用して、開発/テスト環境の最初のワークロードを移行します。 | SI は、最初のワークロードを AWS クラウドに移行するのに役立ちます。これは、顧客向けのものでもミッションクリティカルなものでもないアプリケーションでなければなりません。開発/テスト移行の理想的な候補は、CDP Data Engineering ワークロードなど、クラウドで簡単にデータを取り込めるアプリケーションです。これは、中断のないアクセスを必要とする多数のユーザーがいる可能性のある CDP データウェアハウスワークロードのような永続的なワークロードと比較して、通常はアクセスするユーザーが少ない一時的なワークロードです。データエンジニアリングのワークロードは永続的ではないため、何か問題が発生した場合のビジネスへの影響を最小限に抑えることができます。ただし、これらのジョブはプロダクションレポートにとって重要になる可能性があるため、影響の少ないデータエンジニアリングのワークロードを最初に優先してください。 | 移行リード | 
| 必要に応じて移行手順を繰り返します。 | Cloudera ワークロードマネージャーは、クラウドに最適なワークロードを特定するのに役立ちます。クラウドのパフォーマンス評価、ターゲット環境のサイジング/キャパシティプラン、レプリケーションプランなどの指標を提供します。移行に最適な候補は、季節的なワークロード、臨時のレポート、リソースをあまり消費しない断続的なジョブです。 Cloudera Replication Managerは、データをオンプレミスからクラウドへ、そしてクラウドからオンプレミスへと移動します。 ワークロードマネージャーを使用して、データウェアハウス、データエンジニアリング、機械学習のワークロード、アプリケーション、パフォーマンス、インフラストラクチャ容量をプロアクティブに最適化します。データウェアハウスをモダナイズする方法の詳細なガイドについては、「Cloudera ウェブサイト | Cloudera SME | 
関連リソース
Cloudera ドキュメント
AWS ドキュメント