세부 정보의 Spark 에이전트 워크플로 문제 해결

문제 해결 프로세스를 시작하려면 지원되는 플랫폼(EMR-EC2, EMR Serverless, AWS Glue 또는 Amazon SageMaker Data Notebooks)에서 실행 중인 실패한 Spark 애플리케이션 식별자에 액세스해야 합니다. 애플리케이션에는 액세스 가능한 로그, Spark 기록 서버 및 구성 세부 정보가 있어야 합니다. 플랫폼 리소스 및 애플리케이션 메타데이터에 액세스하는 데 필요한 권한이 있는지 확인합니다. 이러한 요구 사항이 설정되면 다음과 같은 프롬프트를 제출하여 문제 해결 워크플로를 시작할 수 있습니다.


Analyze my EMR step execution failure, EMR id <step-id> with cluster id <cluster-id>

이 시점에서 에이전트는 특수 도구를 사용하여 문제 해결을 오케스트레이션합니다. 워크플로는 다음 단계를 따릅니다.

특성 추출 및 컨텍스트 구축: 에이전트는 기록 서버 로그, 구성 설정 및 오류 추적을 포함하여 Spark 애플리케이션에서 원격 측정 데이터를 자동으로 수집하고 분석합니다. 성능 지표, 리소스 사용률 패턴 및 장애 서명에 대한 정보를 수집하는 도구가 표시됩니다.
분석 및 근본 원인 식별: 에이전트는 AI 모델과 Spark 지식 기반을 활용하여 추출된 기능을 상호 연관시키고 성능 문제 또는 장애의 근본 원인을 식별합니다. 다음을 받게 됩니다.
- 분석 인사이트: 에이전트가 검색하고 분석한 내용에 대한 기술 세부 정보입니다.
- 근본 원인: 무엇이 왜 잘못되었는지에 대한 명확한 설명입니다.
- 초기 평가: 문제가 코드 관련이든 구성 관련이든 리소스 관련이든 완화를 위한 몇 가지 일반 지침 및 분석이 제공됩니다.
코드 권장 사항(해당하는 경우): 분석에서 오류 분류를 기반으로 코드 관련 문제를 식별하는 경우 에이전트는 코드 권장 도구를 활용하여 제안된 대체와 함께 정확한 전/후 코드로 권장 코드 수정을 구현하기 위한 특정 권장 사항을 제공하도록 제안할 수 있습니다.

문제 해결 프로세스는 반복적입니다. 대화를 계속 진행하여 특정 문제를 자세히 살펴볼 수 있습니다. 로컬 Spark 코드 개발에서 대화형으로 도구를 사용하여 코드 버그를 해결하거나 코드를 지속적으로 개선할 수도 있습니다.

javascript가 브라우저에서 비활성화되거나 사용이 불가합니다.

AWS 설명서를 사용하려면 Javascript가 활성화되어야 합니다. 지침을 보려면 브라우저의 도움말 페이지를 참조하십시오.

문서 규칙

문제 해결 및 Q&A

프롬프트 예제