Direct Connect リソースのモニタリング - AWS Direct Connect

Direct Connect リソースのモニタリング

モニタリングは、Direct Connect リソースの信頼性、可用性、パフォーマンスを維持する上で重要な部分です。マルチポイント障害が発生した場合は、その障害をより簡単にデバッグできるように、AWS ソリューションのすべての部分からモニタリングデータを収集する必要があります。ただし、Direct Connect のモニタリングを開始する前に、以下の質問に対する回答を反映したモニタリング計画を作成する必要があります。

  • どのような目的でモニタリングしますか?

  • どのようなリソースをモニタリングする必要がありますか?

  • これらのリソースをモニタリングする頻度は?

  • 使用できるモニタリングツールは?

  • 誰がモニタリングタスクを実行しますか?

  • 問題が発生したときに誰が通知を受け取りますか?

次のステップでは、さまざまなタイミングと負荷条件でパフォーマンスを測定することにより、お客様の環境で通常の Direct Connect パフォーマンスのベースラインを確定します。Direct Connect をモニタリングする際、過去のモニタリングデータを保存することができます。保存すれば、パフォーマンスデータをこの過去のデータと比較して、通常のパフォーマンスパターンとパフォーマンス異常を識別することで、問題の対処方法を考案しやすくなります。

ベースラインを確定するには、物理的な Direct Connect 接続の使用状況、状態、正常性をモニタリングする必要があります。

モニタリングツール

AWS は、Direct Connect 接続のモニタリングに使用できるさまざまなツールを提供します。これらのツールの中には、自動モニタリングを設定できるものもあれば、手操作を必要とするものもあります。モニタリングタスクをできるだけ自動化することをお勧めします。

自動モニタリングツール

以下の自動化されたモニタリングツールを使用して、Direct Connect を監視し、問題が発生したときにレポートできます。

  • Amazon CloudWatch アラーム – 指定した期間にわたって 1 つのメトリクスを確認できます。このアラームは、複数の期間にわたる一定のしきい値とメトリクスの値の関係性に基づき、1 つ以上のアクションを実行します。アクションは、Amazon SNS トピックに送信される通知です。CloudWatch のアラームは、メトリクスが特定の状態になっただけではアクションを呼び出しません。アクションを呼び出すには、状態が変化して、指定した期間継続している必要があります。利用可能なメトリクスとディメンションの詳細については、Amazon CloudWatch で を監視する を参照してください。

  • AWS CloudTrail ログモニタリング – CloudWatch Logs に送信することで、アカウント間でログファイルを共有し、CloudTrail ログファイルをリアルタイムで監視します。ログ処理アプリケーションを Java で記述し、CloudTrail で配信後にログファイルが変更されていないことを検証することもできます。詳細については、「API コールをログする」と、AWS CloudTrail ユーザーガイドの「CloudTrail ログファイルの操作」を参照してください。

手動モニタリングツール

Direct Connect 接続のモニタリングでもう 1 つ重要な点は、CloudWatch のアラームの対象外の項目を手動でモニタリングすることです。Direct Connect および CloudWatch のコンソールダッシュボードには、AWS 環境の状態が一目でわかるビューが表示されます。

  • Direct Connect コンソールには以下が表示されます。

    • 接続のステータス ([State] 列を参照)

    • 仮想インターフェイスのステータス ([State] 列を参照)

  • CloudWatch のホームページには、以下の情報が表示されます。

    • 現在のアラームとステータス

    • アラームとリソースのグラフ

    • サービスのヘルスステータス

    また、CloudWatch を使用して以下のことを行えます。

    • 重要なサービスをモニタリングするためにカスタマイズされたダッシュボードを作成する。

    • メトリクスデータをグラフ化して、問題のトラブルシューティングを行い、傾向を確認する。

    • AWS リソースのすべてのメトリクスを検索およびブラウズする。

    • 問題があることを通知するアラームを作成/編集する。