翻訳は機械翻訳により提供されています。提供された翻訳内容と英語版の間で齟齬、不一致または矛盾がある場合、英語版が優先します。
概要
モニタリングとアラートは、AWS Well-Architected フレームワーク
-
運用上の優秀性の柱では、ワークロードではテレメトリとモニタリングを重視する必要があると規定されています。Amazon Relational Database Service (Amazon RDS)
などの AWS サービスでは、ワークロード内部の状態 (メトリクス、ログ、イベント、トレースなど) を把握するのに必要な情報が提供されています。Amazon RDS データベースの運用では、データベースインスタンスの状態を把握するとともに、運用イベントを検出して、計画済みイベントにも計画外イベントにも対応できなければなりません。AWS に用意されているモニタリングツールを利用すると、組織およびビジネス上の成果実現が危うくなった時点や、そうなり得るタイミングを判断しやすくなります。これによって、適切なアクションを適時に実行できます。 -
パフォーマンス効率の柱では、Amazon RDS DB インスタンスなどのリソースパフォーマンスのモニタリングが必要と規定されており、これを行うには、パフォーマンス関連のメトリクスをリアルタイムで収集、集約、処理しなければなりません。そうしたモニタリングにより、最適化されていない SQL クエリや不適切な設定パラメータといったパフォーマンス低下を特定して、要因を修正でき、測定値が想定範囲外になった場合に、アラームを自動生成することも可能です。通知のためだけでなく、検出したイベントに応じて自動アクションを開始するためにも、アラームを使用すると良いでしょう。モニタリングを行うと、収集したメトリクスを事前定義したしきい値と比較して評価したり、機械学習アルゴリズムを使用して異常な動作を特定したりすることも可能です。例えば、CPU 使用率の上昇傾向を検出するために、
cpuUtilization.totalメトリクスを一定期間、収集し分析できます。また、CPU 使用率がハードリミットに達する前に、その異常をプロアクティブに警告できるようにすれば、影響が顧客に及ぶ前に問題を修正できます。 -
信頼性の柱では、モニタリングとアラートは可用性の要件を満たすために重要な要素と定義されています。モニタリングソリューションでは、障害を効果的に検出できる必要があり、問題や障害を検出する主な目的は、それらについてアラートを得られるようにすることです。クラウドで回復力のあるアーキテクチャを実現するには、オブザーバビリティおよびモニタリングの継続的なプラクティスを実装することが不可欠です。また、ワークロードを改善するには、それらを測定し、状態やヘルスを把握しなければなりません。障害からの自動復旧、水平方向のスケーラビリティ、キャパシティプロビジョニングの設計原則は、正確なモニタリングおよびアラートサービスの上に成り立つものです。
-
セキュリティの柱では、予期しないあるいは不要な設定変更や、予期しない動作の検出と防止が論じられています。これを実現するには、MariaDB 監査プラグインを使用して Amazon RDS for MySQL および MariaDB の DB インスタンスを設定することで、ユーザーログインや、データベースへの特定のオペレーション実行といったデータベースアクティビティを記録すると良いでしょう。データベースアクティビティの記録は、プラグインによってログファイルに保存でき、それらのログファイルをモニタリングツールとアラートツールに統合またはインポートすることも可能です。ログファイルは、データベース内の予期しない動作や疑わしい動作を対象に、リアルタイムで分析されます。こうした予期しない動作や疑わしい動作は、Amazon RDS DB インスタンスが侵害された可能性、つまり、起こり得るビジネスリスクの兆候を示しています。モニタリングツールでそうしたイベントを検出したら、セキュリティインシデントへの対応を開始するアラームをアクティブ化します。これにより、不審なアクティビティや悪意のあるアクティビティに対処しやすくなります。
目標とするビジネス成果
モニタリングとアラートのメカニズムにベストプラクティスを実装すると、パフォーマンス、回復力、効率、安全性に優れ、コストを最適化した、アプリケーションおよびワークロード向けインフラストラクチャを実現しやすくなります。オブザーバビリティツールを使用して、メトリクス、イベント、トレース、ログをリアルタイムで収集、保存、可視化することで、データベースのヘルスとパフォーマンスを俯瞰的に監視し分析できるため、関連 IT サービスの低下や中断を防止できます。計画外の機能低下やサービス中断が続く場合、モニタリングとアラートのツールを使用すると、タイムリーな問題検出、エスカレーション、対応、迅速な調査および解決が容易になります。クラウドデータベースワークロードの包括的なモニタリングおよびアラートソリューションは、次のようなビジネス成果実現に有用です。
-
カスタマーエクスペリエンスを向上させる: 信頼性の高いサービスにより、カスタマーエクスペリエンスが向上します。多くの場合、データベースは、ウェブおよびモバイルアプリケーション、メディアストリーミング、決済サービス、business-to-business (B2B) API、統合サービスといったデジタルサービスの主要なコンポーネントとして機能しています。そのため、データベースをモニタリングしアラートを設定することで、問題を迅速に検出して効率的に調査し、可能な限り迅速な修正によってダウンタイムなどの中断を最小限に抑えられれば、顧客向けデジタルサービスの可用性、セキュリティ、パフォーマンスが向上します。
-
顧客の信頼を高める: パフォーマンスが向上し、ユーザーエクスペリエンスが円滑化されれば、顧客の信頼を得られるため、自社プラットフォームでのビジネスが拡大する可能性があります。例えば、信頼性の高いオンライン決済サービスを提供しているプロバイダーを例に取ると、顧客の信頼とロイヤルティが高まることを期待できます。これが、顧客数の増加、保持率の向上、請求可能な取引の増加、革新的なサービス提供につながり、収益も拡大するでしょう。
-
財務上の損失を回避する: データベースインフラストラクチャで予期しないダウンタイムが発生すると、その影響は、貴社のアプリケーションで顧客が実行しているビジネストランザクションに及ぶ可能性があります。場合によっては、これにより多額の経済的損失が発生します。サービスレベルアグリーメント (SLA) に違反すれば、顧客の信頼を損ね、ひいては、収益を失う可能性さえあります。そうした違反は、高額な訴訟の法的根拠にもなりかねません。顧客が貴社の責任と保証契約に基づいて賠償を求める可能性があるからです。ソフトウェア会社、Atlassian Corporation の調査
によると、サービスが停止した場合の平均コストは、ビジネスの種類や規模にもよりますが、1 時間あたり 140,000 USD から 540,000 USD にも上ります。長時間のサービス停止やビジネスの損失を防ぐには、安定したデータベース環境が重要なのです。 -
ビジネス価値を高める: モニタリングとアラートの仕組みは、可用性、回復力、信頼性、パフォーマンス、コスト効率、安全性に優れたデジタルサービスを設計、開発、運用するのに有用ですが、これらの導入は出発点にすぎません。その後、スケーリングと拡張を徐々に行い、既存のクラウドワークロードを強化し、新しいサービスを導入する必要があります。新しいサービスは、顧客価値の向上や、自社の収益拡大につながり、ビジネス成長にフライホイール効果ももたらします。
-
開発者の生産性を向上させる: 開発者が、生産的かつ効率的でいられ、開発タスクで問題やボトルネックに遭遇しなければ、高品質の製品を迅速に提供できます。しかし、ソフトウェアエンジニアリングと IT 運用では複雑な課題が生じやすく、ワークロードやそのアーキテクチャの規模によっては、そうした複雑さが増大します。分散アプリケーション全体のパフォーマンスと一貫性を分析するには、相関メトリクスとトレースを得られる開発ツールが必要です。こうした情報があれば、欠陥のあるコードアーティファクトやインフラストラクチャコンポーネントを可能な限り迅速に特定でき、エンドユーザーへの影響も判断しやすくなります。適切なモニタリングおよびアラートのツールスイートを導入すると、コード作成とテストを迅速かつ適切に行えるでしょう。
-
運用の有効性と効率を高める: クラウドワークロードの大規模運用では、パフォーマンスがわずかに向上しただけでも、数百万ドルのコスト削減につながる可能性があります。データベースをモニタリングし、メトリクス、イベント、ログ、トレースを分析すると、将来のキャパシティニーズを把握して予測するとともに、AWS クラウド で節約したコストを活用できます。Amazon RDS ワークロードと運用上のヘルスを把握していれば、イベントへの対応、問題の修正、改善の計画が容易になります。