View a markdown version of this page

系統復原最佳實務 - Managed Service for Apache Flink

本文為英文版的機器翻譯版本,如內容有任何歧義或不一致之處,概以英文版為準。

系統復原最佳實務

透過 Amazon Managed Service for Apache Flink 中的自動系統復原和操作可見性功能,您可以識別和解決應用程式的問題。

系統轉返

如果您的應用程式更新或擴展操作因客戶錯誤而失敗,例如程式碼錯誤或許可問題,如果您已選擇使用此功能,Amazon Managed Service for Apache Flink 會自動嘗試回復至先前的執行版本。如需詳細資訊,請參閱為您的 Managed Service for Apache Flink 應用程式啟用系統復原。如果此自動轉返失敗,或您尚未選擇加入或退出,您的應用程式將進入 READY 狀態。若要更新您的應用程式,請完成下列步驟:

手動轉返

如果應用程式未進行且長時間處於暫時性狀態,或者應用程式成功轉換為 Running,但您看到下游問題,例如在成功更新的 Flink 應用程式中處理錯誤,您可以使用 RollbackApplication API 手動將其轉返。

  1. 呼叫 RollbackApplication - 這將還原至先前的執行版本,並還原先前的狀態。

  2. 使用 DescribeApplicationOperation API 監控轉返操作。

  3. 如果轉返失敗,請使用先前的系統轉返步驟。

操作可見性

ListApplicationOperations API 會顯示應用程式上所有客戶和系統操作的歷史記錄。

  1. 從清單中取得失敗操作的 operationId

  2. 呼叫DescribeApplicationOperation並檢查狀態和statusDescription

  3. 如果操作失敗,描述會指向調查的潛在錯誤。

常見的錯誤碼錯誤:使用復原功能來還原至上次運作的版本。解決錯誤並重試更新。

許可問題:使用 DescribeApplicationOperation 查看所需的許可。更新應用程式許可並重試。

Amazon Managed Service for Apache Flink 服務問題:檢查 AWS Health 儀板表 或開啟支援案例。