AMS でのベースラインモニタリングからのアラート - AMS Advanced ユーザーガイド

翻訳は機械翻訳により提供されています。提供された翻訳内容と英語版の間で齟齬、不一致または矛盾がある場合、英語版が優先します。

AMS でのベースラインモニタリングからのアラート

AMS モニタリングのデフォルトについて説明します。詳細については、「AMS でのモニタリングとイベント管理」を参照してください。

次の表は、モニタリング対象とデフォルトのアラートしきい値を示しています。アラートしきい値は、必要な変更を決定し、関連する CloudWatch Amazon SNS トピックにサブスクライブした後に、管理 | その他 | その他 | 更新 (ct-0xdawir96cy7k) RFC で変更できます。トピックの作成とサブスクライブの詳細については、「トピックのサブスクライブ」を参照してください。一般的な情報については、Amazon SNS のFAQs」を参照してください。アラームがしきい値を超えたときに直接通知を受けるには、AMS の標準アラートプロセスに加えて、アラーム設定を上書きする方法に関する以下の手順に従ってくださいAMS によって生成されたアラートの受信

Amazon CloudWatch は、メトリクスの保持期間を延長します。詳細については、CloudWatch の制限」を参照してください。

注記

AMS はベースラインモニタリングを定期的にキャリブレーションします。新しいアカウントは常に最新のベースラインモニタリングでオンボーディングされ、表は新しくオンボーディングされたアカウントのベースラインモニタリングを示しています。AMS は、既存のアカウントのベースラインモニタリングを定期的に更新し、更新が行われるまでに遅延が発生する場合があります。詳細については、「AMS アカウントのモニタリング設定の表示」を参照してください。

注記

EC2 インスタンスアラートNon-root volume usageはデフォルトで DISABLED です。このアラームに基づいてアラート生成が必要な場合は、RFC 変更タイプ ct-0erkoad6uyvg を使用して有効にする必要があります。

ベースラインモニタリングからのアラート

サービス

セキュリティアラート

アラート名とトリガー条件

注意

スター付き (*) アラートの場合、AMS は影響を事前に評価し、可能な場合は修復します。修復が不可能な場合は、AMS がインシデントを作成します。自動化によって問題が修正されない場合、AMS はインシデントケースを通知し、AMS エンジニアが対応します。さらに、これらのアラートは E メールに直接送信できます (Direct-Customer-Alerts SNS トピックにオプトインしている場合)。

Application Load Balancer (ALB) インスタンス

なし

RejectedConnectionCount

合計 > 0 を 1 分間、連続 5 回。

CloudWatch アラームは、ロードバランサーが最大数に達したために拒否された接続の数を示します。

Application Load Balancer (ALB) ターゲット

なし

TargetConnectionErrorCount

合計 > 0 を 1 分間、連続 5 回。

ロードバランサーと登録されたインスタンス間の接続数が正常に確立されなかった場合の CloudWatch アラーム。

Amazon EC2 インスタンス – Windows

なし

SecureChannelFailure

過去 15 個のデータポイントのうち 10 個が > 0.0。

Windows インスタンスの CloudWatch アラームは、チャネル接続の保護が失敗したときに警告します。

Aurora インスタンス

なし

CPUUtilization

> 85%、5 分間、2 回連続。

CloudWatch アラーム。

AWS Backup

あり

DeleteRecoveryPoint

予期しない IAM ロールプリンシパルまたは IAM ユーザープリンシパルが AWS Backup 復旧ポイントを削除しました。

CloudWatch イベント。バックアップ復旧ポイントが削除されたときに出力されます。

AWS Outposts

あり

AMSOutpostsInstanceFamilyCapacityAvailability InstanceFamilyCapacityAvailability

= 5 分間 80%、連続 12 回。

リソースのインスタンスファミリー容量の可用性に関する CloudWatch AWS Outposts アラーム。

AMSOutpostsInstanceTypeCapacityAvailability TypeCapacityAvailability

= 5 分間 80%、連続 12 回。

リソースのインスタンスタイプのキャパシティーの可用性に関する CloudWatch AWS Outposts アラーム。

AMSOutpostsConnectedStatusConnectedStatus

< 1 を 5 分間、1 回連続。

AWS Outposts サービスリンク接続の CloudWatch アラーム。1 カウント未満で障害が発生します。

AMSOutpostsCapacityExceptionCapacityExceptions

0 は 5 分間、1 回連続。

AWS Outpostsリソースのインスタンス起動の容量不足エラーに関する CloudWatch アラーム

.

EC2 インスタンス - OSs

なし

CPUUtilization*

>= 5 分間 95%、連続 6 回。

CloudWatch アラーム。CPU 使用率が高いことは、デッドロック、無限ループ、悪意のある攻撃、その他の異常など、アプリケーションの状態の変化を示す指標です。

StatusCheckFailed

> 0 を 5 分間、連続 3 回。

CloudWatch アラーム。

ルートボリュームの使用

>= 5 分間 95%、連続 6 回。

非ルートボリュームの使用

> 85%、5 分間、2 回連続。

デフォルトでは無効になっています。詳細については、「」を参照してくださいhttps://docs.aws.amazon.com/managedservices/latest/ctref/management-monitoring-cloudwatch-enable-non-root-volumes-monitoring.html#management-monitoring-cloudwatch-enable-non-root-volumes-monitoring-info

メモリ無料*

MemoryFree < 5%、5 分間、6 回連続。

あり

EPS マルウェア

インスタンスでマルウェアが見つかりました。

CloudWatch イベント。

Amazon EC2 インスタンス - Linux

なし

ルートボリューム Inode の使用

平均 >= 5 分間 95%、連続 6 回。

CloudWatch アラーム。Linux インスタンスにのみ適用されます。

スワップ無料*

メモリスワップ < 5% を 5 分間、連続 6 回。

ElastiCache クラスター

なし

CurrConnections = 65000

このアラームは、ElastiCache ホストの最大接続制限を AMS に通知します。

CloudWatch アラーム。このしきい値を更新する場合は、AMS サポートにお問い合わせください。

ElastiCache ノード

なし

CPUUtilization

Average > 15 分間の事前定義された値、連続 2 回。

CloudWatch アラーム。デフォルトは 90 です。Redis の場合は、インスタンスタイプに基づいて次のいずれかの値を使用します。

  • cache.t1.micro: 90%

  • cache.m1.small: 90%

  • cache.m1.medium: 90%

  • cache.m1.large: 45%

  • cache.m1.xlarge: 22.5%

  • cache.m2.xlarge: 45%

  • cache.m2.4xlarge: 11.25%

  • cache.c1.xlarge: 11.25%

  • cache.t2.micro: 90%

  • cache.t2.small: 90%

  • cache.t2.medium: 45%

  • cache.m3.medium: 90%

  • cache.m3.large: 45%

  • cache.m3.xlarge: 22.5%

  • cache.m3.2xlarge: 11.25%

  • cache.r3.large: 45%

  • cache.r3.xlarge: 22.5%

  • cache.r3.2xlarge: 11.25%

  • cache.r3.4xlarge: 5.625%

  • cache.r3.8xlarge: 2.8125%

ElastiCache ノード - memcached

なし

SwapUsage

最大 > 50,000,000 バイト、5 分間、5 回連続。

CloudWatch アラーム。memcached にのみ適用されます。

OpenSearch クラスター

なし

ClusterStatus.red

maximum は >= 1 で 1 分間、連続 1 回です。

AMS は、このアラートがトリガーされたときに、運用への影響を軽減するために積極的なアクションを実行します。

CloudWatch アラーム。少なくとも 1 つのプライマリシャードとそのレプリカがノードに割り当てられていません。詳細については、「Red Cluster Status」を参照してください。

OpenSearch ドメイン

なし

KMSKeyError

>= 1 を 1 分間、連続 1 回。

CloudWatch アラーム。ドメインに保存されているデータを暗号化する KMS 暗号化キーが無効になっています。通常のオペレーションを復元するために、再度有効にしてください。詳細については、OpenSearch Service Service の保管中のデータの暗号化」を参照してください。

ClusterStatus.yellow

最大は >= 1 で 1 分間、連続 1 回

AMS は、このアラートがトリガーされたときに、運用への影響を軽減するために積極的なアクションを実行します。

少なくとも 1 つのレプリカシャードがノードに割り当てられていません。詳細については、「黄色のクラスターステータス」を参照してください。

FreeStorageSpace

最小は <= 20480 で 1 分間、連続 1 回

AMS は、このアラートがトリガーされたときに、運用への影響を軽減するために積極的なアクションを実行します。

クラスターのノードの空きストレージ容量が 20 GiB に下がっています。詳細については、「使用可能なストレージ容量がない」を参照してください。

ClusterIndexWritesBlocked

>= 1 を 5 分間、1 回連続

AMS は、このアラートがトリガーされたときに、運用への影響を軽減するために積極的なアクションを実行します。

クラスターは書き込みリクエストをブロックしています。詳細については、「ClusterBlockException」を参照してください。

ノード

最小は < x で 1 日間、連続 1 回

AMS は、このアラートがトリガーされたときに、運用への影響を軽減するために積極的なアクションを実行します。

x はクラスター内のノード数です。このアラームは、クラスター内の少なくとも 1 つのノードが 1 日間にわたってアクセスできない状態を意味します。詳細については、「失敗したクラスターノード」を参照してください。

CPUUtilization

平均は 15 分間で >= 80%、連続 3 回

AMS は、このアラートがトリガーされたときに、運用への影響を軽減するために積極的なアクションを実行します。

100% の CPU 使用率が一般的ですが、持続的な高い平均は問題です。より大規模なインスタンスタイプを使用するか、インスタンスを追加することを検討してください。

JVMMemoryPressure

最大は >= 80% で 5 分間、3 回連続

AMS は、このアラートがトリガーされたときに、運用への影響を軽減するために積極的なアクションを実行します。

使用量が増加した場合にクラスターでメモリ不足エラーが発生する可能性があります。垂直スケーリングを検討してください。Amazon ES は、Java ヒープにインスタンスの RAM の半分を使用し、ヒープサイズは 32 GiB までです。インスタンスは最大 64 GiB の RAM まで垂直スケーリングでき、それ以上はインスタンスを追加することで水平方向にスケーリングできます。

MasterCPUUtilization

平均は 15 分間で >= 50%、連続 3 回

AMS は、このアラートがトリガーされたときに、運用への影響を軽減するために積極的なアクションを実行します。

専用マスターノードには、より大きなインスタンスタイプを使用することを検討してください。クラスターの安定性とブルー/グリーンデプロイにおける役割により、専用マスターノードの平均 CPU 使用率はデータノードよりも低くなります。

MasterJVMMemoryPressure

最大は >= 80% で 15 分間、1 回連続

AMS は、このアラートがトリガーされたときに、運用への影響を軽減するために積極的なアクションを実行します。

専用マスターノードには、より大きなインスタンスタイプを使用することを検討してください。クラスターの安定性とブルー/グリーンデプロイにおける役割により、専用マスターノードの平均 CPU 使用率はデータノードよりも低くなります。

OpenSearch インスタンス

なし

AutomatedSnapshotFailure

maximum は >= 1 で 1 分間、連続 1 回です。

CloudWatch アラーム。自動スナップショットが失敗しました。多くの場合、この失敗によってクラスター状態が赤になります。 「赤クラスターのステータス」を参照してください。

Elastic Load Balancing インスタンス

なし

SurgeQueueLength

> 100 を 1 分間、15 回連続。

過剰な数のリクエストがルーティングを保留している場合、CloudWatch アラームが発生します。

HTTPCode_ELB_5XX_Count

合計 > 0 を 5 分間、連続 3 回。

ロードバランサーから送信される HTTP 5XX レスポンスコードの過剰数に関する CloudWatch アラーム。

SpilloverCount

> 1 を 1 分間、連続 15 回。

サージキューがいっぱいであるために拒否されたリクエストの数が過剰である場合、CloudWatch アラームが発生します。

GuardDuty サービス

あり

該当なし。すべての検出結果 (脅威の目的) がモニタリングされます。各検出結果はアラートに対応します。

GuardDuty の検出結果の変更。このような変更には新しく生成された結果や、既存の結果の後続のすべての発生を含みます。

サポートされている GuardDuty 検出結果タイプのリストは、GuardDuty アクティブ検出結果タイプにあります。

ヘルス

可変

AWS Health Dashboard

AMS でサポートされているベースラインサービスに関連して AWS Health Dashboard (AWS Health) イベントのステータスが変更されると、通知が送信されます。詳細については、「サポートされているサービス」を参照してください。

AWS Managed Microsoft AD

なし

Active Directory のステータス

AWS Managed Microsoft AD インスタンスはアクティブなステータスイベントを送信します。

サービスイベント。イベント後にディレクトリが正常に動作している場合に出力されます。

ディレクトリステータスの障害

AWS Managed Microsoft AD インスタンスは、障害が発生したディレクトリステータスイベントを送信します。

サービスイベント。ディレクトリがパフォーマンス低下状態で実行されている場合に出力されます。1 つまたは複数の問題が検出され、すべてのディレクトリのオペレーションが最適に動作しているとは限りません。

操作できないディレクトリのステータス

AWS Managed Microsoft AD インスタンスは、動作不能なステータスイベントを送信します。

サービスイベント。ディレクトリが機能していない場合に発行されます。すべてのディレクトリエンドポイントが問題を報告しています。

ディレクトリステータスの削除

AWS Managed Microsoft AD インスタンスは、ディレクトリステータスの削除イベントを送信します。

サービスイベント。ディレクトリが現在削除されているときに発行されます。

失敗したディレクトリのステータス

AWS Managed Microsoft AD インスタンスは失敗したステータスイベントを送信します。

サービスイベント。ディレクトリを作成できなかったときに出力されます。

RestoreFailed ディレクトリのステータス

AWS Managed Microsoft AD インスタンスは、復元に失敗したディレクトリステータスイベントを送信します。

サービスイベント。スナップショットからディレクトリを復元できませんでした。

Amazon RDS インスタンス

なし

DB インスタンスに割り当てられたストレージが使い果たされると、低ストレージアラートがトリガーされます。

RDS-EVENT-0007 の詳細については、「Amazon RDS イベント通知の使用」を参照してください。

DB インスタンスが失敗する

DB インスタンスは、互換性のない設定または基本的なストレージの問題により失敗しました。DB インスタンスのポイントインタイムの復元をスタートします。

サービスイベント。RDS-EVENT-0031、Amazon RDS イベントカテゴリとイベントメッセージ

フェイルオーバーが試行されない

Amazon RDS はリクエストされたフェイルオーバーを実行できません。これは、DB インスタンスでフェイルオーバーが最近発生したためです。

サービスイベント。RDS-EVENT-0034、Amazon RDS イベントカテゴリとイベントメッセージ

DB インスタンスの無効なパラメータ

例えば、このインスタンスクラスに対してメモリ関連のパラメータが高すぎるため、MySQL を起動できなかったため、お客様のアクションはメモリパラメータを変更して DB インスタンスを再起動することです。

サービスイベント。RDS-EVENT-0035、Amazon RDS イベントカテゴリとイベントメッセージ

無効なサブネット IDsインスタンス

DB インスタンスが互換性のないネットワーク上にあります。指定したサブネット ID の一部は無効であるか、存在しません。

サービスイベント。RDS-EVENT-0036、Amazon RDS イベントカテゴリとイベントメッセージ

DB インスタンスのリードレプリカエラー

リードレプリケーションプロセスでエラーが発生しました。詳細については、イベントメッセージを参照してください。リードレプリカエラーのトラブルシューティングについては、MySQL リードレプリカの問題のトラブルシューティング」を参照してください。

サービスイベント。RDS-EVENT-0045、Amazon RDS イベントカテゴリとイベントメッセージ

DB インスタンスの読み取りレプリケーションが終了しました

リードレプリカのレプリケーションが終了しました。

サービスイベント。RDS-EVENT-0057、Amazon RDS イベントカテゴリとイベントメッセージ

statspack ユーザーアカウントの作成中にエラーが発生しました

Statspack ユーザーアカウント PERFSTAT の作成中にエラーが発生しました。Statspack オプションを追加する前に、アカウントを削除します。

サービスイベント。RDS-EVENT-0058、Amazon RDS イベントカテゴリとイベントメッセージ

DB インスタンス復旧の開始

SQL Server DB インスタンスは、ミラーを再構築しています。ミラーが再構築されるまで、パフォーマンスが低下します。FULL ではない復旧モデルのデータベースが見つかりました。復旧モデルが FULL に戻され、ミラーリング復旧が開始されました (<dbname>: <recovery model found>[,...])。

サービスイベント。RDS-EVENT-0066、Amazon RDS イベントカテゴリとイベントメッセージ

DB クラスターのフェイルオーバーが失敗しました。

RDS-EVENT-0069 の詳細については、「Amazon RDS イベントカテゴリとイベントメッセージ」を参照してください。

無効なアクセス許可復旧 S3 バケット

Amazon S3 バケットにアクセスして SQL Server のネイティブバックアップと復元を行うための IAM ロールが正しく設定されていません。詳細については、「ネイティブバックアップと復元のセットアップ」を参照してください。

サービスイベント。RDS-EVENT-0081、Amazon RDS イベントカテゴリとイベントメッセージ

Aurora は、Amazon S3 バケットからバックアップデータをコピーできませんでした。

RDS-EVENT-0082 の詳細については、「Amazon RDS イベントカテゴリとイベントメッセージ」を参照してください。

DB インスタンスが割り当てられたストレージの 90% 以上を消費した場合の低ストレージアラート

RDS-EVENT-0089 の詳細については、「Amazon RDS イベントカテゴリとイベントメッセージ」を参照してください。

Aurora Serverless DB クラスターのスケーリングが失敗したときの通知サービス。

RDS-EVENT-0143 の詳細については、「Amazon RDS イベントカテゴリとイベントメッセージ」を参照してください。

DB インスタンスは無効な状態です。操作は必要ありません。オートスケーリングは後で再試行されます。

RDS-EVENT-0219 の詳細については、「Amazon RDS イベントカテゴリとイベントメッセージ」を参照してください。

DB インスタンスがストレージフルのしきい値に達し、データベースがシャットダウンされました。

RDS-EVENT-0221 の詳細については、「Amazon RDS イベントカテゴリとイベントメッセージ」を参照してください。

このイベントは、RDS インスタンスストレージの自動スケーリングがスケーリングできないことを示します。自動スケーリングが失敗した理由は複数ある可能性があります。

RDS-EVENT-0223 の詳細については、「Amazon RDS イベントカテゴリとイベントメッセージ」を参照してください。

ストレージのオートスケーリングにより、保留中のスケールストレージタスクの最大ストレージしきい値到達がトリガーされました。

RDS-EVENT-0224 の詳細については、「Amazon RDS イベントカテゴリとイベントメッセージ」を参照してください。

DB インスタンスのストレージタイプが、アベイラビリティーゾーンで現在使用できないタイプです。オートスケーリングは後で再試行されます。

RDS-EVENT-0237 の詳細については、「Amazon RDS イベントカテゴリとイベントメッセージ」を参照してください。

サブネットに十分な IP アドレスがないため、RDS はプロキシの容量をプロビジョニングできませんでした。

RDS-EVENT-0243 の詳細については、「Amazon RDS イベントカテゴリとイベントメッセージ」を参照してください。

AWS アカウントのストレージが、許可されたストレージクォータを超えています。

RDS-EVENT-0254 の詳細については、「Amazon RDS イベントカテゴリとイベントメッセージ」を参照してください。

CPUUtilization

平均 CPU 使用率 > 90%、15 分間、2 回連続。

CloudWatch アラーム。

DiskQueueDepth

合計は 1 分間 > 75 で、連続して 15 回です。

FreeStorageSpace

平均 < 1,073,741,824 バイト、5 分間、2 回連続。

SwapUsage

平均 >= 5 分間 104,857,600 バイト、連続 2 回。

Amazon Redshift クラスター

なし

RedshiftClusterStatus

メンテナンスモードでない場合のクラスターの状態 < 1 を 5 分間。

1 は正常なクラスターを表します。

Amazon Macie

あり

新しく生成されたアラートと既存のアラートの更新。

Macie は検出結果の変更を検出します。このような変更には新しく生成された結果や、既存の結果の後続のすべての発生を含みます。

Amazon Macie アラート。サポートされている Macie アラートタイプのリストについては、Amazon Macie の検出結果の分析」を参照してください。Macie はすべてのアカウントで有効になっていないことに注意してください。

AMS は、このアラートがトリガーされたときにプロアクティブアクションを実行 (クラスターをスケーリング) します。

修復作業の詳細については、「」を参照してくださいアラートの AMS 自動修復