アラートの AMS 自動修復 - AMS Advanced ユーザーガイド

翻訳は機械翻訳により提供されています。提供された翻訳内容と英語版の間で齟齬、不一致または矛盾がある場合、英語版が優先します。

アラートの AMS 自動修復

検証後、AWS Managed Services (AMS) は、このセクションで説明されている特定の条件とプロセスに従って、特定のアラートを自動的に修復します。

アラート名 説明 しきい値 アクション

壊れたセキュアチャネル

壊れたセキュアチャネルアラームは、インスタンスが AD ドメインコントローラーとの接続を失ったときに Windows EC2 インスタンスでトリガーされます。

しきい値は、過去 15 分間に定義された値を 10 回上回っています。

AMS 自動修復は、インスタンスが SSM でオンラインであること、ホスト名が重複していないこと、AD コンピュータオブジェクトが CloudFormation スタック と整列していることを検証します。この修復により、セキュアチャネル接続が修復され、インスタンスへのアクセスが復元されます。

ステータスチェックに失敗

インスタンスのハードウェア障害または障害状態の可能性。

システムは、過去 15 分以内に少なくとも 1 回失敗したステータスを検出しました。

AMS 自動修復は、最初にインスタンスにアクセスできるかどうかを検証します。インスタンスにアクセスできない場合、インスタンスは停止して再起動されます。停止と起動により、インスタンスは新しい基盤となるハードウェアに移行できます。詳細については、次のセクションEC2 Status Check Failure Remediation Automation」を参照してください。

AMSLinuxDiskUsage

EC2 インスタンスの 1 つのマウントポイント (ボリュームの指定領域) のディスク使用量がいっぱいになるとトリガーされます。

しきい値は、過去 30 分間に定義された値を 6 回上回っています。

AMS 自動修復は、まず一時ファイルを削除します。十分なディスク容量が解放されない場合は、ボリュームがいっぱいになった場合のダウンタイムを防ぐためにボリュームを拡張します。

AMSWindowsDiskUsage

EC2 インスタンスの 1 つのマウントポイント (ボリュームの指定領域) のディスク使用量がいっぱいになったとき。

しきい値は、過去 30 分間に定義された値を 6 回上回っています。

AMS 自動修復は、まず一時ファイルを削除します。十分なディスク容量が解放されない場合は、ボリュームがいっぱいになった場合のダウンタイムを防ぐためにボリュームを拡張します。

RDS-EVENT-0089

DB インスタンスは割り当てられたストレージの 90% 以上を使用しています。

ストレージが 90% 以上割り当てられている。

AMS 自動修復は、まず DB が変更可能で使用可能、またはストレージフル状態であることを検証します。次に、CloudFormation の変更セットを通じて、割り当てられたストレージ、IOPS、ストレージスループットの向上を試みます。スタックドリフトが既に検出されている場合、ダウンタイムを防ぐために RDS API にフォールバックします。

この機能は、RDS DB インスタンスに次のタグを追加することでオプトアウトできます。 "Key: ams:rt:ams-rds-max-allocated-storage-policy, Value: ams-opt-out".

RDS-EVENT-0007

DB インスタンスに割り当てられたストレージが使い果たされました。解決するには、追加のストレージを割り当てます。

ストレージは 100% 割り当てられます。

AMS 自動修復は、まず DB が変更可能で使用可能、またはストレージフル状態であることを検証します。次に、CloudFormation の変更セットを通じて、割り当てられたストレージ、IOPS、ストレージスループットの向上を試みます。スタックドリフトが既に検出されている場合、ダウンタイムを防ぐために RDS API にフォールバックします。

この機能は、RDS DB インスタンスに次のタグを追加することでオプトアウトできます。 "Key: ams:rt:ams-rds-max-allocated-storage-policy, Value: ams-opt-out".

RDS-EVENT-0224

リクエストされた割り当てられたストレージが、設定された最大ストレージしきい値に達するか、超えます。

DB インスタンスの最大ストレージしきい値が枯渇したか、リクエストされた割り当てられたストレージ以上です。

AMS 自動修復は、最初に、リクエストされた RDS ストレージの量が最大ストレージしきい値を超えていることを検証します。確認された場合、AMS は CloudFormation 変更セットを使用して最大ストレージしきい値を 30% 増やそうとします。リソースが CloudFormation を介してプロビジョニングされていない場合は RDS API を指示します。

この機能は、RDS DB インスタンスに次のタグを追加することでオプトアウトできます。 "Key: ams:rt:ams-rds-max-allocated-storage-policy, Value: ams-opt-out".

RDS-Storage-Capacity

DB インスタンスに割り当てられたストレージに 1GB 未満が残っています。

ストレージは 99% が割り当てられます。

AMS 自動修復は、まず DB が変更可能で使用可能、またはストレージフル状態であることを検証します。次に、CloudFormation の変更セットを通じて、割り当てられたストレージ、IOPS、ストレージスループットの向上を試みます。スタックドリフトが既に検出されている場合、ダウンタイムを防ぐために RDS API にフォールバックします。

この機能は、RDS DB インスタンスに次のタグを追加することでオプトアウトできます。 "Key: ams:rt:ams-rds-max-allocated-storage-policy, Value: ams-opt-out".

Amazon EC2 の壊れたセキュアチャネル: 修復の自動化に関する注意事項

AWS Managed Services (AMS) 自動修復が Amazon EC2 Windows 壊れたセキュアチャネルの問題に対して修復を実行する前に、自動化は次の事前チェックを実行し、さらに調査するためのインシデントレポートを作成します。

  • Amazon EC2 インスタンスの SSM ステータスが「オンライン」であることを確認します。

  • Amazon EC2 インスタンスが Auto Scaling グループの一部であるかどうか、および Auto Scaling グループ内のすべてのインスタンスに同じホスト名があるかどうかを検証します。

  • Amazon EC2 インスタンスがプロビジョニングに使用された CloudFormation スタックの一部かどうかを確認します。インスタンスが CloudFormation スタックから削除された場合、オートメーションは、関連付けられた Active Directory Organizational Unit (OU) がまだスタックを参照しているかどうかを検証します。

上記の検証に合格すると、自動化は Broken Secure チャネルの修正に進みます。

修復手順:

  • 自動修復は、EC2 インスタンスと AD ドメイン間の安全なチャネルを修復しようとし、インスタンスへのアクセスを復元します。

  • 修復後、オートメーションはセキュアチャネルが確立されていることを確認します。失敗した場合、AMS はインシデントを作成し、AMS オペレーションに調査を依頼します。

EC2 ステータスチェックの失敗: 修復オートメーションに関する注意事項

EC2 ステータスチェックの失敗の問題に対する AMS 自動修復の仕組み:

  • Amazon EC2 インスタンスにアクセスできなくなった場合は、インスタンスを停止して再度起動し、新しいハードウェアに移行して復旧できるようにする必要があります。

  • 問題のルートが OS 内にある場合 (fstab のデバイスの欠落、カーネルの破損など)、オートメーションはインスタンスを復旧できません。

  • インスタンスが Auto Scaling グループに属している場合、自動化はアクションを実行しません。AutoScalingGroup スケーリングアクションはインスタンスを置き換えます。

  • インスタンスで EC2 Auto Recovery が有効になっている場合、修復はアクションを実行しません。

EC2 ボリューム使用量修復の自動化

EC2 ボリュームの使用状況の問題に対する AWS Managed Services (AMS) 自動修復の仕組み:

  • オートメーションはまず、ボリュームの拡張が必要かどうか、および実行できるかどうかを検証します。拡張が適切であると判断された場合、自動化によりボリューム容量が増加する可能性があります。この自動化されたプロセスは、制御された限定的な拡張で成長の必要性のバランスを取ります。

  • ボリュームを拡張する前に、オートメーションはインスタンスでクリーンアップタスク (Windows: Disk Cleaner、Linux: Logrotate + Simple Service Manager エージェントログの削除) を実行して、領域を解放しようとします。

    注記

    クリーンアップタスクは、継続的な機能のために CPU クレジットに依存するため、EC2 "T" ファミリーインスタンスでは実行されません。

  • Linux では、自動化は EXT2, EXT3, EXT4XFS タイプの拡張ファイルシステムのみをサポートします。

  • Windows では、自動化は新しいテクノロジーファイルシステム (NTFS) とレジリエントファイルシステム (ReFS) のみをサポートします。

  • 自動化は、Logical Volume Manager (LVM) または RAID アレイの一部であるボリュームを拡張しません。

  • 自動化はインスタンスストアボリュームを拡張しません。

  • 影響を受けるボリュームが既に 2 TiB を超えている場合、オートメーションはアクションを実行しません。

  • 自動化による拡張は、システムの存続期間中、週に最大 3 回、合計 5 回に制限されています。

  • 前の拡張が過去 6 時間以内に発生した場合、オートメーションはボリュームを拡張しません。

これらのルールによってオートメーションがアクションを実行できない場合、AMS はアウトバウンドサービスリクエストを通じてお客様に連絡し、次に実行するアクションを決定します。

Amazon RDS の低ストレージイベント修復の自動化

AWS Managed Services (AMS) 自動修復が Amazon RDS の低ストレージイベントの問題とどのように連携するか:

  • Amazon RDS インスタンスストレージを拡張する前に、オートメーションはいくつかのチェックを実行して、Amazon RDS インスタンスが変更可能で使用可能、またはストレージフル状態であることを確認します。

  • CloudFormation スタックドリフトが検出された場合、修復は Amazon RDS API を通じて行われます。

  • 修復アクションは、次のシナリオでは実行されません。

    • Amazon RDS インスタンスのステータスが「使用可能」または「ストレージフル」ではありません。

    • Amazon RDS インスタンスストレージは現在変更できません (過去 6 時間以内にストレージが変更された場合など)。

    • Amazon RDS インスタンスでは、自動スケーリングストレージが有効になっています。

    • Amazon RDS インスタンスは CloudFormation スタック内のリソースではありません。

  • 修復は 6 時間あたり 1 回の拡張に制限され、14 日間に 3 回まで拡張できます。

  • これらのシナリオが発生すると、AMS はアウトバウンドインシデントでお客様に連絡し、次のアクションを決定します。