Der Arbeitsablauf für Spark-Agenten zur Fehlerbehebung im Detail

Um den Fehlerbehebungsprozess einzuleiten, benötigen Sie Zugriff auf Ihre ausgefallenen Spark-Anwendungskennungen, die auf unterstützten Plattformen (EMR-EC2, EMR Serverless, AWS Glue oder Amazon Data Notebooks) ausgeführt werden. SageMaker Die Anwendung sollte über zugängliche Protokolle, Spark History Server und Konfigurationsdetails verfügen. Stellen Sie sicher, dass Sie über die erforderlichen Berechtigungen für den Zugriff auf die Plattformressourcen und Anwendungsmetadaten verfügen. Sobald diese Anforderungen festgelegt sind, können Sie eine Aufforderung wie die folgende einreichen, um den Workflow zur Fehlerbehebung einzuleiten:


Analyze my EMR step execution failure, EMR id <step-id> with cluster id <cluster-id>

Zu diesem Zeitpunkt orchestriert der Agent die Fehlerbehebung mithilfe spezieller Tools. Der Workflow folgt diesen Schritten:

Funktionsextraktion und Kontexterstellung: Der Agent sammelt und analysiert automatisch Telemetriedaten aus Ihrer Spark-Anwendung, einschließlich History Server-Protokollen, Konfigurationseinstellungen und Fehlerablaufzeichnungen. Sie werden sehen, wie das Tool Informationen über Leistungskennzahlen, Ressourcennutzungsmuster und Fehlersignaturen sammelt.
Analyse und Ursachenidentifikation: Der Agent nutzt KI-Modelle und die Spark-Wissensdatenbank, um extrahierte Funktionen zu korrelieren und die Hauptursachen von Leistungsproblemen oder Ausfällen zu identifizieren. Sie erhalten:
- Einblicke in die Analyse: Technische Details darüber, was der Agent entdeckt und analysiert hat.
- Ursache: Klare Erklärung, was schief gelaufen ist und warum.
- Erste Bewertung: Unabhängig davon, ob das Problem code-, konfigurations- oder ressourcenbezogen ist, werden einige allgemeine Hinweise und Analysen zur Abhilfemaßnahme bereitgestellt.
Codeempfehlungen (falls zutreffend): Wenn bei der Analyse anhand der Fehlerklassifizierung Probleme im Zusammenhang mit dem Code identifiziert werden, kann der Kundendienstmitarbeiter vorschlagen, das Codeempfehlungstool zu nutzen, um spezifische Empfehlungen zur Implementierung der empfohlenen Codekorrektur mit exaktem Code und Ersatzvorschlägen abzugeben. before/after

Der Fehlerbehebungsprozess ist iterativ — Sie können das Gespräch fortsetzen, um sich eingehender mit bestimmten Problemen zu befassen. Sie können die Tools auch interaktiv in unserer lokalen Spark-Codeentwicklung verwenden, um Codefehler zu beheben oder Ihren Code kontinuierlich zu verbessern.

Warnung JavaScript ist in Ihrem Browser nicht verfügbar oder deaktiviert.

Zur Nutzung der AWS-Dokumentation muss JavaScript aktiviert sein. Weitere Informationen finden auf den Hilfe-Seiten Ihres Browsers.

Dokumentkonventionen

Problembehebung und Fragen und Antworten

Prompte Beispiele