Spark でのエージェントのワークフローのトラブルシューティングの詳細 - Amazon EMR

翻訳は機械翻訳により提供されています。提供された翻訳内容と英語版の間で齟齬、不一致または矛盾がある場合、英語版が優先します。

Spark でのエージェントのワークフローのトラブルシューティングの詳細

トラブルシューティングプロセスを開始するには、サポートされているプラットフォーム (EMR-EC2、EMR Serverless、 AWS Glue、または Amazon SageMaker データノートブック) で実行されている失敗した Spark アプリケーション識別子にアクセスする必要があります。アプリケーションには、アクセス可能なログ、Spark History Server、および設定の詳細が必要です。プラットフォームリソースとアプリケーションメタデータにアクセスするために必要なアクセス許可があることを確認します。これらの要件が確立されたら、次のようなプロンプトを送信してトラブルシューティングワークフローを開始できます。

Analyze my EMR step execution failure, EMR id <step-id> with cluster id <cluster-id>

この時点で、エージェントは特殊なツールを使用してトラブルシューティングを調整します。ワークフローは次のステップに従います。

  1. 特徴量の抽出とコンテキストの構築: エージェントは、履歴サーバーのログ、設定、エラートレースなど、Spark アプリケーションからテレメトリデータを自動的に収集して分析します。パフォーマンスメトリクス、リソース使用率パターン、障害署名に関する情報を収集するツールが表示されます。

  2. 分析と根本原因の特定: エージェントは AI モデルと Spark ナレッジベースを活用して、抽出された機能を関連付け、パフォーマンスの問題や障害の根本原因を特定します。以下が表示されます。

    • Analysis Insights: エージェントが検出して分析した内容に関する技術的な詳細。

    • 根本原因: 問題の原因と理由を明確に説明します。

    • 初期評価: 問題がコード関連、設定関連、リソース関連のいずれであるかにかかわらず、緩和策に関する一般的なガイダンスと分析が提供されます。

  3. コードレコメンデーション (該当する場合): 分析でエラー分類に基づいてコード関連の問題が特定された場合、エージェントはコードレコメンデーションツールを活用して、推奨されるコード修正と推奨される置換の前後のコードを実装するための特定のレコメンデーションを提供できます。

トラブルシューティングプロセスは反復的です。会話を続行して特定の問題を深く掘り下げることができます。また、ローカルの Spark コード開発でインタラクティブにツールを使用して、コードのバグに対処したり、コードを継続的に改善したりできます。