アラートの AMS 自動修復 - AMS Accelerate ユーザーガイド

翻訳は機械翻訳により提供されています。提供された翻訳内容と英語版の間で齟齬、不一致または矛盾がある場合、英語版が優先します。

アラートの AMS 自動修復

検証後、AWS Managed Services (AMS) は、このセクションで説明されている特定の条件とプロセスに従って、特定のアラートを自動的に修復します。

アラート名 説明 しきい値 アクション

ステータスチェックに失敗

インスタンスのハードウェア障害または障害状態が発生する可能性があります。

システムは、過去 15 分以内に少なくとも 1 回失敗したステータスを検出しました。

AMS 自動修復は、最初にインスタンスにアクセスできるかどうかを検証します。インスタンスにアクセスできない場合、インスタンスは停止して再起動されます。停止と起動により、インスタンスは新しい基盤となるハードウェアに移行できます。詳細については、次のセクションEC2 Status Check Failure Remediation Automation」を参照してください。

AMSLinuxDiskUsage

EC2 インスタンスの 1 つのマウントポイント (ボリュームの指定領域) のディスク使用量がいっぱいになるとトリガーされます。

しきい値は、過去 30 分間に定義された値を 6 回上回っています。

AMS 自動修復は、まず一時ファイルを削除します。十分なディスク容量が解放されない場合は、ボリュームがいっぱいになった場合のダウンタイムを防ぐためにボリュームを拡張します。

AMSWindowsDiskUsage

EC2 インスタンスの 1 つのマウントポイント (ボリュームの指定領域) のディスク使用量がいっぱいになったとき。

しきい値は、過去 30 分間に定義された値を 6 回上回っています。

AMS 自動修復は、まず一時ファイルを削除します。十分なディスク容量が解放されない場合は、ボリュームがいっぱいになった場合のダウンタイムを防ぐためにボリュームを拡張します。

RDS-EVENT-0089

DB インスタンスは割り当てられたストレージの 90% 以上を使用しています。

ストレージが 90% 以上割り当てられている。

AMS 自動修復は、まず DB が変更可能で使用可能、またはストレージフル状態であることを検証します。次に、CloudFormation の変更セットを通じて、割り当てられたストレージ、IOPS、ストレージスループットの向上を試みます。スタックドリフトが既に検出されている場合、ダウンタイムを防ぐために RDS API にフォールバックします。

この機能は、RDS DB インスタンスに次のタグを追加することでオプトアウトできます。 "Key: ams:rt:ams-rds-max-allocated-storage-policy, Value: ams-opt-out".

RDS-EVENT-0007

DB インスタンスに割り当てられたストレージが使い果たされました。解決するには、追加のストレージを割り当てます。

ストレージは 100% 割り当てられます。

AMS 自動修復は、まず DB が変更可能で使用可能、またはストレージフル状態であることを検証します。次に、CloudFormation の変更セットを通じて、割り当てられたストレージ、IOPS、ストレージスループットの向上を試みます。スタックドリフトが既に検出されている場合、ダウンタイムを防ぐために RDS API にフォールバックします。

この機能は、RDS DB インスタンスに次のタグを追加することでオプトアウトできます。 "Key: ams:rt:ams-rds-max-allocated-storage-policy, Value: ams-opt-out".

RDS-EVENT-0224

リクエストされた割り当てられたストレージが、設定された最大ストレージしきい値に達するか、超えます。

DB インスタンスの最大ストレージしきい値が枯渇したか、リクエストされた割り当てられたストレージ以上です。

AMS 自動修復は、最初に、リクエストされた RDS ストレージの量が最大ストレージしきい値を超えていることを検証します。確認された場合、AMS は CloudFormation 変更セットを使用して最大ストレージしきい値を 30% 増やそうとします。リソースが CloudFormation を介してプロビジョニングされていない場合は RDS API を指示します。

この機能は、RDS DB インスタンスに次のタグを追加することでオプトアウトできます。 "Key: ams:rt:ams-rds-max-allocated-storage-policy, Value: ams-opt-out".

RDS-Storage-Capacity

DB インスタンスに割り当てられたストレージに 1GB 未満が残っています。

ストレージは 99% が割り当てられます。

AMS 自動修復は、まず DB が変更可能で使用可能、またはストレージフル状態であることを検証します。次に、CloudFormation の変更セットを通じて、割り当てられたストレージ、IOPS、ストレージスループットの向上を試みます。スタックドリフトが既に検出されている場合、ダウンタイムを防ぐために RDS API にフォールバックします。

この機能は、RDS DB インスタンスに次のタグを追加することでオプトアウトできます。 "Key: ams:rt:ams-rds-max-allocated-storage-policy, Value: ams-opt-out".

EC2 ステータスチェックの失敗: 修復オートメーションに関する注意事項

EC2 ステータスチェックの失敗の問題に対する AMS 自動修復の仕組み:

  • Amazon EC2 インスタンスにアクセスできなくなった場合は、インスタンスを停止して再度起動し、新しいハードウェアに移行して復旧できるようにする必要があります。

  • 問題のルートが OS 内にある場合 (fstab のデバイスの欠落、カーネルの破損など)、オートメーションはインスタンスを復旧できません。

  • インスタンスが Auto Scaling グループに属している場合、自動化はアクションを実行しません。AutoScalingGroup スケーリングアクションはインスタンスを置き換えます。

  • インスタンスで EC2 Auto Recovery が有効になっている場合、修復はアクションを実行しません。

EC2 ボリューム使用量修復の自動化

EC2 ボリュームの使用状況の問題に対する AWS Managed Services (AMS) 自動修復の仕組み:

  • オートメーションはまず、ボリュームの拡張が必要かどうか、および実行できるかどうかを検証します。拡張が適切であると判断された場合、自動化によりボリューム容量が増加する可能性があります。この自動化されたプロセスにより、制御された限られた拡張で成長の必要性のバランスが取れます。

  • ボリュームを拡張する前に、オートメーションはインスタンスでクリーンアップタスク (Windows: Disk Cleaner、Linux: Logrotate + Simple Service Manager エージェントログの削除) を実行して、領域を解放しようとします。

    注記

    クリーンアップタスクは、継続的な機能のために CPU クレジットに依存するため、EC2 "T" ファミリーインスタンスでは実行されません。

  • Linux では、オートメーションは EXT2, EXT3, EXT4XFS タイプの拡張ファイルシステムのみをサポートします。

  • Windows では、自動化は新しいテクノロジーファイルシステム (NTFS) とレジリエントファイルシステム (ReFS) のみをサポートします。

  • 自動化は、Logical Volume Manager (LVM) または RAID アレイの一部であるボリュームを拡張しません。

  • 自動化はインスタンスストアボリュームを拡張しません。

  • 影響を受けるボリュームがすでに 2 TiB を超えている場合、オートメーションはアクションを実行しません。

  • 自動化による拡張は、システムの存続期間中、週に最大 3 回、合計 5 回に制限されています。

  • 前の拡張が過去 6 時間以内に発生した場合、オートメーションはボリュームを拡張しません。

これらのルールによってオートメーションがアクションを実行できない場合、AMS はアウトバウンドサービスリクエストを通じてお客様に連絡し、次に実行するアクションを決定します。

Amazon RDS の低ストレージイベント修復の自動化

AWS Managed Services (AMS) 自動修復が Amazon RDS の低ストレージイベントの問題とどのように連携するか:

  • Amazon RDS インスタンスストレージを拡張する前に、オートメーションはいくつかのチェックを実行して、Amazon RDS インスタンスが変更可能で使用可能、またはストレージフル状態であることを確認します。

  • CloudFormation スタックドリフトが検出された場合、修復は Amazon RDS API を通じて行われます。

  • 修復アクションは、次のシナリオでは実行されません。

    • Amazon RDS インスタンスのステータスが「使用可能」または「ストレージフル」ではありません。

    • Amazon RDS インスタンスストレージは現在変更できません (過去 6 時間以内にストレージが変更された場合など)。

    • Amazon RDS インスタンスでは、自動スケーリングストレージが有効になっています。

    • Amazon RDS インスタンスは CloudFormation スタック内のリソースではありません。

  • 修復は 6 時間あたり 1 回の拡張に制限され、14 日間に 3 回まで拡張できます。

  • これらのシナリオが発生すると、AMS はアウトバウンドインシデントでお客様に連絡し、次のアクションを決定します。