Spark でのエージェントのワークフローのトラブルシューティングの詳細

トラブルシューティングプロセスを開始するには、サポートされているプラットフォーム (EMR-EC2、EMR Serverless、 AWS Glue、または Amazon SageMaker データノートブック) で実行されている失敗した Spark アプリケーション識別子にアクセスする必要があります。アプリケーションには、アクセス可能なログ、Spark History Server、および設定の詳細が必要です。プラットフォームリソースとアプリケーションメタデータにアクセスするために必要なアクセス許可があることを確認します。これらの要件が確立されたら、次のようなプロンプトを送信してトラブルシューティングワークフローを開始できます。


Analyze my EMR step execution failure, EMR id <step-id> with cluster id <cluster-id>

この時点で、エージェントは特殊なツールを使用してトラブルシューティングを調整します。ワークフローは次のステップに従います。

特徴量の抽出とコンテキストの構築: エージェントは、履歴サーバーのログ、設定、エラートレースなど、Spark アプリケーションからテレメトリデータを自動的に収集して分析します。パフォーマンスメトリクス、リソース使用率パターン、障害署名に関する情報を収集するツールが表示されます。
分析と根本原因の特定: エージェントは AI モデルと Spark ナレッジベースを活用して抽出された機能を関連付け、パフォーマンスの問題や障害の根本原因を特定します。以下が表示されます。
- Analysis Insights: エージェントが検出および分析した内容に関する技術的な詳細。
- 根本原因: 問題の原因と理由を明確に説明します。
- 初期評価: 問題がコード関連、設定関連、リソース関連のいずれであるかにかかわらず、緩和策に関する一般的なガイダンスと分析が提供されます。
コードレコメンデーション (該当する場合): エラー分類に基づいてコード関連の問題が分析で特定された場合、エージェントはコードレコメンデーションツールを活用して、推奨されるコード修正と推奨される置換の前後の正確なコードを実装するための特定のレコメンデーションを提供することを提案できます。

トラブルシューティングプロセスは反復的です。会話を続行して特定の問題を深く掘り下げることができます。また、ローカルの Spark コード開発でインタラクティブにツールを使用して、コードのバグに対処したり、コードを継続的に改善したりできます。

ブラウザで JavaScript が無効になっているか、使用できません。

AWS ドキュメントを使用するには、JavaScript を有効にする必要があります。手順については、使用するブラウザのヘルプページを参照してください。

ドキュメントの表記規則

トラブルシューティングと Q&A

プロンプトの例