システムロールバックのベストプラクティス - Managed Service for Apache Flink

Amazon Managed Service for Apache Flink (Amazon MSF) は、以前は Amazon Kinesis Data Analytics for Apache Flink と呼ばれていました。

システムロールバックのベストプラクティス

Amazon Managed Service for Apache Flink の自動システムロールバックとオペレーションの可視化機能により、アプリケーションの問題を特定して解決できます。

システムロールバック

コードのバグやアクセス許可の問題など、顧客側のエラーが原因でアプリケーションの更新またはスケーリング操作が失敗した場合、この機能にオプトインしていれば、Amazon Managed Service for Apache Flink は自動で以前の稼働バージョンへロールバックを試みます。詳細については、「Managed Service for Apache Flink アプリケーションのシステムロールバックを有効にする」を参照してください。この自動ロールバックが失敗した場合、またはオプトインまたはオプトアウトしていない場合、アプリケーションは READY 状態になります。アプリケーションを更新するには、次のステップを実行します。

手動ロールバック

アプリケーションが進行しておらず、長時間一時的な状態である場合、またはアプリケーションが正常に Running に移行したが、正常に更新された Flink アプリケーションで処理エラーなどのダウンストリームの問題が表示される場合は、RollbackApplication API を使用して手動でロールバックできます。

  1. RollbackApplication の呼び出し- これにより、以前の稼働バージョンに戻り、以前の状態が復元されます。

  2. DescribeApplicationOperation API を使用してロールバック操作をモニタリングします。

  3. ロールバックが失敗した場合は、前のシステムロールバックステップを使用します。

操作の可視性

ListApplicationOperations API には、アプリケーションのすべての顧客とシステムオペレーションの履歴が表示されます。

  1. 失敗した操作の operationId をリストから取得します。

  2. DescribeApplicationOperation を呼び出し、ステータスと statusDescription を確認します。

  3. もし操作が失敗した場合、その説明には調査対象となる可能性のあるエラーが記載されます。

一般的なエラーコードのバグ: ロールバック機能を使用して、最後の動作バージョンに戻ります。バグを解決し、更新を再試行します。

アクセス許可の問題: DescribeApplicationOperation を使用して、必要なアクセス許可を確認します。アプリケーションのアクセス許可を更新して再試行します。

Amazon Managed Service for Apache Flink サービスの問題: AWS Health Dashboard を確認するか、サポートケースを開きます。