

翻訳は機械翻訳により提供されています。提供された翻訳内容と英語版の間で齟齬、不一致または矛盾がある場合、英語版が優先します。

# ワークロード AWS Data Pipeline を から Amazon MWAA に移行する
<a name="migrating-pipeline-workloads"></a>

AWS は 2012 年に AWS Data Pipeline サービスを開始しました。当時、顧客は、さまざまなコンピューティングオプションを使用して、異なるデータソース間でデータを移動できるサービスを求めていました。データ転送のニーズは時間とともに変化するため、そのニーズに対応するソリューションも変化します。現在は、ビジネス要件に最も近いソリューションを選択できるようになりました。ワークロードは、次のいずれかのサービスに移行できます AWS 。
+ Amazon Managed Workflows for Apache Airflow (Amazon MWAA) を使用して、Apache Airflow のワークフローオーケストレーションを管理します。
+ Step Functionsを使用して、複数の AWS のサービス間でワークフローを組織化します。
+  AWS Glue を使用して Apache Spark アプリケーションを実行およびオーケストレーションします。

選択するオプションは、 AWS Data Pipelineの現在のワークロードによって異なります。このトピックでは、 から Amazon MWAA AWS Data Pipeline に移行する方法について説明します。

**Topics**
+ [Amazon MWAA を選択する](#migrating-pipeline-workloads-mwaa)
+ [アーキテクチャとコンセプトのマッピング](#migrating-pipeline-workloads-concept-mapping)
+ [実装例](#migrating-pipeline-workloads-examples)
+ [価格比較](#migrating-pipeline-workloads-price-comparison)
+ [関連リソース](#migrating-pipeline-workloads-resources)

## Amazon MWAA を選択する
<a name="migrating-pipeline-workloads-mwaa"></a>

 Amazon Managed Workflows for Apache Airflow（Amazon MWAA）は、Apache Airflow向けのマネージド・オーケストレーション・サービスで、クラウド上でエンドツーエンドのデータ・パイプラインを大規模にセットアップし、運用することができます。[Apache Airflow](https://airflow.apache.org/) は、*ワークフロー* と呼ばれる一連のプロセスやタスクをプログラムで作成、スケジュール設定、監視するために使用されるオープンソースのツールです。Amazon MWAAを使用すると、スケーラビリティ、可用性、セキュリティのための基盤を管理する必要なく、Apache Airflow と Python プログラミング言語を使用してワークフローを作成できます。Amazon MWAA は、ニーズに合わせてワークフロー容量を自動的にスケーリングし、 AWS セキュリティサービスと統合して、データへの迅速かつ安全なアクセスを提供します。

から Amazon MWAA に移行する利点のいくつか AWS Data Pipeline を以下に示します。
+ **スケーラビリティとパフォーマンスの強化** — Amazon MWAA は、ワークフローを定義して実行するための柔軟でスケーラブルなフレームワークを提供します。これにより、ユーザーは大規模で複雑なワークフローを簡単に処理でき、動的タスクスケジューリング、データ駆動型ワークフロー、並列処理などの機能を活用できます。
+ **モニタリングとロギングの向上** — Amazon MWAA は Amazon CloudWatch と統合され、ワークフローのモニタリングとロギングを強化します。Amazon MWAA は、システムメトリックスとログを CloudWatch に自動的に送信します。つまり、ワークフローの進行状況とパフォーマンスをリアルタイムで追跡し、発生した問題を特定できるということです。
+ ** AWS サービスやサードパーティーソフトウェアとの統合の向上** – Amazon MWAA は、Amazon S3、Amazon Redshift AWS Glue、[DBT](https://www.getdbt.com/)、[Snowflake](https://www.snowflake.com/en/)、[Databricks](https://www.databricks.com/) などのサードパーティーソフトウェアなどのさまざまな AWS サービスと統合されます。これにより、さまざまな環境やサービス間でデータを処理し、転送することができます。
+ **オープンソースのデータパイプラインツール** — Amazon MWAA は、使い慣れたオープンソースの Apache Airflow 製品を活用しています。Apache Airflow は、取り込み、処理、転送、整合性テスト、品質チェック、データリネージの確認など、データパイプライン管理のあらゆる側面を処理するように設計された専用ツールです。
+ **モダンで柔軟なアーキテクチャ** — Amazon MWAA はコンテナ化とクラウドネイティブなサーバーレステクノロジーを活用しています。つまり、柔軟性と移植性が向上し、ワークフロー環境のデプロイと管理が容易になります。

## アーキテクチャとコンセプトのマッピング
<a name="migrating-pipeline-workloads-concept-mapping"></a>

 AWS Data Pipeline と Amazon MWAA には異なるアーキテクチャとコンポーネントがあり、移行プロセスやワークフローの定義と実行方法に影響を与える可能性があります。このセクションでは、両方のサービスのアーキテクチャとコンポーネントの概要を説明し、主な相違点をいくつか強調します。

 AWS Data Pipeline と Amazon MWAA はどちらもフルマネージドサービスです。ワークロードを Amazon MWAA に移行する場合、Apache Airflow を使用して既存のワークフローをモデル化するための新しい概念を学ぶ必要があるかもしれません。ただし、インフラストラクチャを管理したり、ワーカーにパッチを適用したり、オペレーティングシステムの更新を管理したりする必要はありません。

 次の表は、 の主要な概念 AWS Data Pipeline を Amazon MWAA の主要な概念と関連付けています。この情報を基にして移行計画を設計してください。



- **パイプライン定義**
  - **AWS Data Pipeline:**  AWS Data Pipeline は、ワークフローを定義する JSON ベースの設定ファイルを使用します。
  - **Amazon MWAA:** Amazon MWAA は、ワークフローを定義する Python [ベースの有向非循環グラフ](https://airflow.apache.org/docs/apache-airflow/stable/core-concepts/dags.html) (DAGs) を使用します。

- **パイプライン実行環境**
  - **AWS Data Pipeline:** ワークフローは Amazon EC2 instances. AWS Data Pipeline provisions で実行され、ユーザーに代わってこれらのインスタンスを管理します。
  - **Amazon MWAA:** Amazon MWAA は Amazon ECS コンテナ環境を使用してタスクを実行します。

- **パイプラインコンポーネント**
  - **AWS Data Pipeline:** アクティビティ とは、ワークフローの一部として実行されるタスクを処理することです。 / **Amazon MWAA:** [オペレータ](https://airflow.apache.org/docs/apache-airflow/stable/core-concepts/operators.html) ([タスク](https://airflow.apache.org/docs/apache-airflow/stable/core-concepts/tasks.html)) はワークフローの基本的な処理単位です。
  - **AWS Data Pipeline:** 前提条件 には、アクティビティが実行される前に正でなければならない条件文が含まれます。 / **Amazon MWAA:** [センサー](https://airflow.apache.org/docs/apache-airflow/stable/core-concepts/sensors.html) ([タスク](https://airflow.apache.org/docs/apache-airflow/stable/core-concepts/tasks.html)) は、リソースまたはタスクが完了するのを待ってから実行できる条件ステートメントです。
  - **AWS Data Pipeline:** のリソース AWS Data Pipeline は、パイプラインアクティビティが指定する作業を実行する AWS コンピューティングリソースを指します。Amazon EC2 と Amazon EMR は、2 つのリソースで利用できます。 / **Amazon MWAA:** DAG 内のタスクを使用すると、Amazon ECS、Amazon EMR、Amazon EKS など、さまざまなコンピューティングリソースを定義できます。Amazon MWAA は、Amazon ECS 上で実行されるワーカーに対して Python オペレーションを実行します。

- **パイプラインの実行**
  - **AWS Data Pipeline:** AWS Data Pipeline では、通常のレートベースおよび cron ベースのパターンで実行をスケジュールできます。 / **Amazon MWAA:** Amazon MWAA は、[cron](https://airflow.apache.org/docs/apache-airflow/stable/core-concepts/dag-run.html#cron-presets) の式やプリセット、カスタム[タイムテーブル](https://airflow.apache.org/docs/apache-airflow/stable/authoring-and-scheduling/timetable.html)によるスケジューリングをサポートしています。
  - **AWS Data Pipeline:** インスタンス とは、パイプラインの各実行を指します。 / **Amazon MWAA:** [DAG 実行](https://airflow.apache.org/docs/apache-airflow/stable/core-concepts/dag-run.html)とは、Apache Airflow ワークフローの各実行を指します。
  - **AWS Data Pipeline:** 試行 とは、失敗した操作を再試行することです。 / **Amazon MWAA:** Amazon MWAA は、DAG レベルまたはタスクレベルで定義した再試行をサポートします。



## 実装例
<a name="migrating-pipeline-workloads-examples"></a>

 多くの場合、Amazon MWAA に移行 AWS Data Pipeline した後、現在オーケストレーションしているリソースを再利用できます。次のリストには、最も一般的な AWS Data Pipeline ユースケースで Amazon MWAA を使用する実装例が含まれています。
+ [Amazon EMR ジョブの実行](https://catalog.us-east-1.prod.workshops.aws/workshops/795e88bb-17e2-498f-82d1-2104f4824168/en-US/workshop-2-2-2/m1-processing/emr) (AWS ワークショップ)
+ [Apache Hive と Hadoop 用のカスタムプラグインの作成](https://docs.aws.amazon.com/mwaa/latest/userguide/samples-hive.html)(*Amazon MWAA ユーザーガイド*)
+ [S3 から Redshift へのデータのコピー](https://catalog.us-east-1.prod.workshops.aws/workshops/795e88bb-17e2-498f-82d1-2104f4824168/en-US/workshop-2-2-2/m1-processing/redshift) (AWS workshop)
+ [リモート Amazon ECS インスタンスでのシェルスクリプトの実行 ](https://docs.aws.amazon.com/mwaa/latest/userguide/samples-ssh.html)(*Amazon MWAA ユーザーガイド*)
+ [ハイブリッド (オンプレミス) ワークフローの調整](https://dev.to/aws/orchestrating-hybrid-workflows-using-amazon-managed-workflows-for-apache-airflow-mwaa-2boc) (ブログ記事)

 その他のチュートリアルと例については、以下を参照してください。
+ [Amazon MWAA チュートリアル](https://docs.aws.amazon.com/mwaa/latest/userguide/tutorials.html)
+ [Amazon MWAA コード例](https://docs.aws.amazon.com/mwaa/latest/userguide/sample-code.html)

## 価格比較
<a name="migrating-pipeline-workloads-price-comparison"></a>

 の料金は AWS Data Pipeline 、パイプラインの数と各パイプラインの使用量に基づきます。1 日に 2 回以上 (高頻度) 実行するアクティビティには、1 アクティビティにつき 1 か月あたり 1 USD の費用がかかります。1 日 1 回以下 (低頻度) に実行するアクティビティには、1 回のアクティビティにつき 1 か月あたり 0.60 USD の費用がかかります。非アクティブなパイプラインの料金は、パイプライン 1 つにつき 1 USD です。詳細については、[AWS Data Pipeline 料金表](https://aws.amazon.com/datapipeline/pricing/) ページを参照してください。

Amazon MWAA の料金は、マネージド Apache Airflow 環境の存続期間と、より多くのワーカーやスケジューラーの容量を提供するために必要な追加の自動スケーリングに基づいています。Amazon MWAA 環境の使用量に対しては、時間単位 (1 秒単位で請求) で支払いますが、料金は環境の規模によって異なります。Amazon MWAA は、環境設定に基づいてワーカー数を自動スケーリングします。 AWS は追加のワーカーのコストは個別に計算します。さまざまな Amazon MWAA 環境サイズを使用する場合の 1 時間あたりのコストの詳細については、[Amazon MWAA 料金表](https://aws.amazon.com/managed-workflows-for-apache-airflow/pricing/) ページを参照してください。

## 関連リソース
<a name="migrating-pipeline-workloads-resources"></a>

 Amazon MWAA の使用に関する詳細情報とベストプラクティスについては、次のリソースを参照してください。
+ [Amazon MWAA API リファレンス](https://docs.aws.amazon.com/mwaa/latest/API/Welcome.html)
+ [Amazon MWAA のモニタリングダッシュボードとアラーム](https://docs.aws.amazon.com/mwaa/latest/userguide/monitoring-dashboard.html)
+ [Amazon MWAA での Apache Airflow のパフォーマンス調整](https://docs.aws.amazon.com/mwaa/latest/userguide/best-practices-tuning.html)