系統復原最佳實務 - Managed Service for Apache Flink

Amazon Managed Service for Apache Flink (Amazon MSF) 先前稱為 Amazon Kinesis Data Analytics for Apache Flink。

本文為英文版的機器翻譯版本,如內容有任何歧義或不一致之處,概以英文版為準。

系統復原最佳實務

透過 Amazon Managed Service for Apache Flink 中的自動系統復原和操作可見性功能,您可以識別和解決應用程式的問題。

系統轉返

如果您的應用程式更新或擴展操作因客戶錯誤而失敗,例如程式碼錯誤或許可問題,如果您已選擇使用此功能,Amazon Managed Service for Apache Flink 會自動嘗試轉返至先前的執行版本。如需詳細資訊,請參閱為 Managed Service for Apache Flink 應用程式啟用系統復原。如果此自動轉返失敗,或者您尚未選擇加入或退出,您的應用程式將進入 READY 狀態。若要更新您的應用程式,請完成下列步驟:

手動轉返

如果應用程式未進行且處於暫時狀態很長的時間,或者應用程式成功轉換為 Running,但您看到下游問題,例如在成功更新的 Flink 應用程式中處理錯誤,您可以使用 RollbackApplication API 手動將其轉返。

  1. 呼叫 RollbackApplication - 這將還原至先前的執行版本,並還原先前的狀態。

  2. 使用 DescribeApplicationOperation API 監控轉返操作。

  3. 如果轉返失敗,請使用先前的系統轉返步驟。

操作可見性

ListApplicationOperations API 會顯示應用程式上所有客戶和系統操作的歷史記錄。

  1. 從清單中取得失敗操作的 operationId

  2. 呼叫DescribeApplicationOperation並檢查狀態和statusDescription

  3. 如果 操作失敗,描述會指向調查的潛在錯誤。

常見的錯誤碼錯誤:使用復原功能還原至上次運作的版本。解決錯誤並重試更新。

許可問題:使用 DescribeApplicationOperation 查看所需的許可。更新應用程式許可並重試。

Amazon Managed Service for Apache Flink 服務問題:檢查 AWS Health 儀板表 或開啟支援案例。