Generative KI-Fehlerbehebung für Apache Spark in AWS Glue - AWS Glue

Die vorliegende Übersetzung wurde maschinell erstellt. Im Falle eines Konflikts oder eines Widerspruchs zwischen dieser übersetzten Fassung und der englischen Fassung (einschließlich infolge von Verzögerungen bei der Übersetzung) ist die englische Fassung maßgeblich.

Generative KI-Fehlerbehebung für Apache Spark in AWS Glue

Die generative KI-Fehlerbehebung für die Apache Spark-Vorschau ist für Jobs verfügbar, die auf AWS Glue 4.0 und AWS Glue 5.0 ausgeführt werden, und in den folgenden AWS Regionen:

USA Ost (Nord-Virginia), USA Ost (Ohio), USA West (Oregon), USA West (Nordkalifornien), Südamerika (São Paulo), Kanada (Zentral), Europa (Irland), Europa (London), Europa (Paris), Europa (Stockholm), Europa (Mailand), Europa (Frankfurt), Naher Osten (Bahrain), Naher Osten (VAE), Afrika (Kapstadt), Asien-Pazifik (Tokio), Asien-Pazifik (Hongkong), Asien-Pazifik (Mumbai), Asien-Pazifik (Singapur), Asien-Pazifik (Jakarta), Asien-Pazifik (Seoul), Asien-Pazifik (Osaka) und Asien-Pazifik (Sydney).

Die Vorschaufeatures können sich ändern.

Generative KI-Fehlerbehebung für Apache Spark-Jobs in AWS Glue ist eine neue Funktion, mit der Dateningenieure und Wissenschaftler Probleme in ihren Spark-Anwendungen mühelos diagnostizieren und beheben können. Mithilfe von Machine Learning und Technologien für generative KI analysiert dieses Feature Probleme in Spark-Aufträgen und bietet eine detaillierte Ursachenanalyse sowie umsetzbare Empfehlungen zur Lösung dieser Probleme.

Wie funktioniert die Fehlerbehebung mit generativer KI für Apache Spark?

Für Ihre fehlgeschlagenen Spark-Jobs analysiert Generative AI Troubleshooting die Job-Metadaten und die genauen Metriken und Protokolle, die mit der Fehlersignatur Ihres Jobs verknüpft sind, um eine Ursachenanalyse zu erstellen, und empfiehlt spezifische Lösungen und bewährte Verfahren zur Behebung von Jobfehlern.

Einrichten der Fehlerbehebung mit generativer KI für Apache Spark für Ihre Aufträge

Konfigurieren von IAM-Berechtigungen

Um Benutzern, die von Spark Troubleshooting für Ihre Jobs in AWS Glue APIs verwendet werden, Berechtigungen zu gewähren, sind entsprechende IAM-Berechtigungen erforderlich. Sie können Berechtigungen erhalten, indem Sie Ihrer IAM-Identität (z. B. einem Benutzer, einer Rolle oder einer Gruppe) die folgende benutzerdefinierte AWS Richtlinie zuordnen.

JSON
{ "Version":"2012-10-17", "Statement": [ { "Effect": "Allow", "Action": [ "glue:StartCompletion", "glue:GetCompletion" ], "Resource": [ "arn:aws:glue:*:*:completion/*", "arn:aws:glue:*:*:job/*" ] } ] }
Anmerkung

In der Vorschauversion ist Spark Troubleshooting nicht über das AWS SDK APIs verfügbar, das Sie programmgesteuert verwenden können. Die folgenden beiden APIs werden in der IAM-Richtlinie verwendet, um diese Erfahrung über die AWS Glue Studio-Konsole zu aktivieren: StartCompletion undGetCompletion.

Zuweisen von Berechtigungen

Um Zugriff zu gewähren, fügen Sie Ihren Benutzern, Gruppen oder Rollen Berechtigungen hinzu:

Durchführen einer Fehlerbehebungsanalyse von einer fehlgeschlagenen Auftragsausführung

Sie können über mehrere Pfade in der AWS Glue-Konsole auf die Fehlerbehebungsfunktion zugreifen. So machen Sie die ersten Schritte:

Option 1: Von der Seite mit der Auftragsliste

  1. Öffnen Sie die AWS Glue-Konsole unter https://console.aws.amazon.com/glue/.

  2. Wählen Sie im Navigationsbereich die Option ETL-Aufträge aus.

  3. Suchen Sie Ihren fehlgeschlagenen Auftrag in der Auftragsliste.

  4. Wählen Sie die Registerkarte Ausführungen im Abschnitt mit den Auftragsdetails.

  5. Klicken Sie auf die fehlgeschlagene Auftragsausführung, die Sie analysieren möchten.

  6. Wählen Sie Fehlerbehebung mit KI aus, um die Analyse zu starten.

  7. Wenn die Analyse zur Fehlerbehebung abgeschlossen ist, können Sie die Ursachenanalyse und die Empfehlungen auf der Registerkarte Fehlerbehebungsanalyse am unteren Bildschirmrand anzeigen.

Das GIF stellt die durchgängige Implementierung einer fehlgeschlagenen Ausführung mit ausgeführtem KI-Feature dar.

Option 2: Verwenden der Seite „Überwachung der Auftragsausführung“

  1. Navigieren Sie zur Seite zur Überwachung der Auftragsausführung.

  2. Suchen Sie nach der fehlgeschlagenen Auftragsausführung.

  3. Wählen Sie die Dropdown-Liste Aktionen aus.

  4. Wählen Sie Problembehandlung mit KI aus.

Das GIF stellt die durchgängige Implementierung einer fehlgeschlagenen Ausführung mit ausgeführtem KI-Feature dar.

Option 3: Von der Seite mit den Details der Auftragsausführung

  1. Navigieren Sie zur Detailseite der fehlgeschlagenen Auftragsausführung, indem Sie entweder auf der Registerkarte Ausführungen auf Details anzeigen zu einer fehlgeschlagenen Ausführung klicken oder die Auftragsausführung auf der Seite Überwachung der Auftragsausführung auswählen.

  2. Suchen Sie auf der Seite mit den Details der Auftragsausführung die Registerkarte Fehlerbehebungsanalyse.

Unterstützte Kategorien für die Fehlerbehebung (Vorschau)

Dieser Service konzentriert sich auf drei Hauptkategorien von Problemen, auf die Dateningenieure und Entwickler in ihren Spark-Anwendungen häufig stoßen:

  • Fehler bei der Einrichtung und beim Zugriff auf Ressourcen: Beim Ausführen von Spark-Anwendungen in AWS Glue gehören Fehler bei der Einrichtung und beim Zugriff auf Ressourcen zu den häufigsten, aber schwierig zu diagnostizierenden Problemen. Diese Fehler treten häufig auf, wenn Ihre Spark-Anwendung versucht, mit AWS Ressourcen zu interagieren, aber auf Berechtigungsprobleme, fehlende Ressourcen oder Konfigurationsprobleme stößt.

  • Speicherprobleme mit Spark-Treibern und -Executors: Speicherbezogene Fehler in Apache-Spark-Aufträgen können komplex zu diagnostizieren und zu beheben sein. Diese Fehler treten häufig auf, wenn Ihre Datenverarbeitungsanforderungen die verfügbaren Speicherressourcen überschreiten, entweder im Treiberknoten oder in den Executor-Knoten.

  • Probleme mit der Spark-Festplattenkapazität: Speicherbedingte Fehler in AWS Glue Spark-Jobs treten häufig bei Shuffle-Vorgängen, beim Verschütten von Daten oder bei umfangreichen Datentransformationen auf. Diese Fehler können besonders problematisch sein, weil sie möglicherweise erst auftreten, wenn Ihr Auftrag eine Weile ausgeführt wurde, wodurch möglicherweise wertvolle Rechenzeit und Ressourcen verschwendet werden.

Anmerkung

Bevor Sie vorgeschlagene Änderungen in Ihrer Produktionsumgebung implementieren, sollten Sie die vorgeschlagenen Änderungen sorgfältig prüfen. Der Service bietet Empfehlungen, die auf Mustern und bewährten Methoden basieren. Ihr spezieller Anwendungsfall erfordert jedoch möglicherweise zusätzliche Überlegungen.