기계 번역으로 제공되는 번역입니다. 제공된 번역과 원본 영어의 내용이 상충하는 경우에는 영어 버전이 우선합니다.
세부 정보의 Spark 에이전트 워크플로 문제 해결
문제 해결 프로세스를 시작하려면 지원되는 플랫폼(EMR-EC2, EMR Serverless, AWS Glue 또는 Amazon SageMaker Data Notebooks)에서 실행 중인 실패한 Spark 애플리케이션 식별자에 액세스해야 합니다. 애플리케이션에는 액세스 가능한 로그, Spark 기록 서버 및 구성 세부 정보가 있어야 합니다. 플랫폼 리소스 및 애플리케이션 메타데이터에 액세스하는 데 필요한 권한이 있는지 확인합니다. 이러한 요구 사항이 설정되면 다음과 같은 프롬프트를 제출하여 문제 해결 워크플로를 시작할 수 있습니다.
Analyze my EMR step execution failure, EMR id <step-id> with cluster id <cluster-id>
이 시점에서 에이전트는 특수 도구를 사용하여 문제 해결을 오케스트레이션합니다. 워크플로는 다음 단계를 따릅니다.
-
특성 추출 및 컨텍스트 구축: 에이전트는 기록 서버 로그, 구성 설정 및 오류 추적을 포함하여 Spark 애플리케이션에서 원격 측정 데이터를 자동으로 수집하고 분석합니다. 성능 지표, 리소스 사용률 패턴 및 장애 서명에 대한 정보를 수집하는 도구가 표시됩니다.
-
분석 및 근본 원인 식별: 에이전트는 AI 모델과 Spark 지식 기반을 활용하여 추출된 기능을 상호 연관시키고 성능 문제 또는 장애의 근본 원인을 식별합니다. 다음을 받게 됩니다.
-
분석 인사이트: 에이전트가 검색하고 분석한 내용에 대한 기술 세부 정보입니다.
-
근본 원인: 무엇이 왜 잘못되었는지에 대한 명확한 설명입니다.
-
초기 평가: 문제가 코드 관련이든 구성 관련이든 리소스 관련이든 완화를 위한 몇 가지 일반 지침 및 분석이 제공됩니다.
-
-
코드 권장 사항(해당하는 경우): 분석에서 오류 분류를 기반으로 코드 관련 문제를 식별하는 경우 에이전트는 코드 권장 도구를 활용하여 권장 코드 수정을 제안된 대체와 함께 정확한 전/후 코드로 구현하기 위한 특정 권장 사항을 제공하도록 제안할 수 있습니다.
문제 해결 프로세스는 반복적입니다. 대화를 계속 진행하여 특정 문제를 자세히 살펴볼 수 있습니다. 로컬 Spark 코드 개발에서 대화형으로 도구를 사용하여 코드 버그를 해결하거나 코드를 지속적으로 개선할 수도 있습니다.