Amazon EMR の Apache Spark トラブルシューティングエージェントとは - Amazon EMR

翻訳は機械翻訳により提供されています。提供された翻訳内容と英語版の間で齟齬、不一致または矛盾がある場合、英語版が優先します。

Amazon EMR の Apache Spark トラブルシューティングエージェントとは

序章

Amazon EMR 用 Apache Spark トラブルシューティングエージェントは、Amazon EMR、 AWS Glue、Amazon SageMaker ノートブック上の Apache Spark アプリケーションのトラブルシューティングを簡素化する会話型 AI 機能です。従来の Spark トラブルシューティングでは、根本原因とコード修正を特定するために、ログ、パフォーマンスメトリクス、エラーパターンの広範な手動分析が必要です。エージェントは、自然言語プロンプト、自動化されたワークロード分析、インテリジェントなコードレコメンデーションにより、このプロセスを簡素化します。

エージェントを使用して、PySpark および Scala アプリケーションの障害をトラブルシューティングできます。エージェントは、失敗したジョブを分析し、パフォーマンスのボトルネックを特定し、実装の決定を完全に制御しながら、実用的な推奨事項とコード修正を提供します。

アーキテクチャの概要

トラブルシューティングエージェントには、主に 3 つのコンポーネントがあります。インタラクション用の開発環境の MCP 互換 AI アシスタント、クライアントと AWS サービス間の安全な通信と認証を処理する の MCP プロキシ AWS、Amazon EMR、 AWS Glue、Amazon Amazon SageMaker SageMaker ノートブック専用の Spark トラブルシューティングツールを提供する Amazon SageMaker Unified Studio リモート MCP サーバーです。 (preview)この図は、AI Assistant を介して Amazon SageMaker Unified Studio リモート MCP サーバーを操作する方法を示しています。

Spark のトラブルシューティングエージェントアーキテクチャ。

AI アシスタントは、次のステップに従って MCP サーバーが提供する特殊なツールを使用してトラブルシューティングを調整します。

  • 特徴量の抽出とコンテキストの構築: エージェントは、Spark History Server ログ、設定、エラートレースなど、Spark アプリケーションからテレメトリデータを自動的に収集して分析します。主要なパフォーマンスメトリクス、リソース使用率パターン、障害シグネチャを抽出して、インテリジェントなトラブルシューティングのための包括的なコンテキストプロファイルを構築します。

  • GenAI 根本原因アナライザーとレコメンデーションエンジン: エージェントは AI モデルと Spark ナレッジベースを活用して抽出された機能を関連付け、パフォーマンスの問題や障害の根本原因を特定します。Spark アプリケーションの実行で何が問題だったかの診断インサイトと分析を提供します。

  • GenAI Spark Code Recommendation: 前のステップの根本原因分析に基づいて、エージェントは既存のコードパターンを分析し、アプリケーションの障害に対するコード修正を必要とする非効率的なオペレーションを特定します。具体的な例を挙げて、特定のコード変更、設定調整、アーキテクチャの改善など、実用的な推奨事項を提供します。