Amazon Managed Service for Apache Flink (Amazon MSF) は、以前は Amazon Kinesis Data Analytics for Apache Flink と呼ばれていました。
システムロールバックのベストプラクティス
Amazon Managed Service for Apache Flink の自動システムロールバックとオペレーションの可視化機能により、アプリケーションの問題を特定して解決できます。
システムロールバック
コードのバグやアクセス許可の問題など、顧客側のエラーが原因でアプリケーションの更新またはスケーリング操作が失敗した場合、この機能にオプトインしていれば、Amazon Managed Service for Apache Flink は自動で以前の稼働バージョンへロールバックを試みます。詳細については、「Managed Service for Apache Flink アプリケーションのシステムロールバックを有効にする」を参照してください。この自動ロールバックが失敗した場合、またはオプトインまたはオプトアウトしていない場合、アプリケーションは READY 状態になります。アプリケーションを更新するには、次のステップを実行します。
手動ロールバック
アプリケーションが進行しておらず、長時間一時的な状態である場合、またはアプリケーションが正常に Running に移行したが、正常に更新された Flink アプリケーションで処理エラーなどのダウンストリームの問題が表示される場合は、RollbackApplication API を使用して手動でロールバックできます。
-
RollbackApplicationの呼び出し- これにより、以前の稼働バージョンに戻り、以前の状態が復元されます。 -
DescribeApplicationOperationAPI を使用してロールバック操作をモニタリングします。 -
ロールバックが失敗した場合は、前のシステムロールバックステップを使用します。
操作の可視性
ListApplicationOperations API には、アプリケーションのすべての顧客とシステムオペレーションの履歴が表示されます。
-
失敗した操作の operationId をリストから取得します。
-
DescribeApplicationOperationを呼び出し、ステータスと statusDescription を確認します。 -
もし操作が失敗した場合、その説明には調査対象となる可能性のあるエラーが記載されます。
一般的なエラーコードのバグ: ロールバック機能を使用して、最後の動作バージョンに戻ります。バグを解決し、更新を再試行します。
アクセス許可の問題: DescribeApplicationOperation を使用して、必要なアクセス許可を確認します。アプリケーションのアクセス許可を更新して再試行します。
Amazon Managed Service for Apache Flink サービスの問題: AWS Health Dashboard を確認するか、サポートケースを開きます。