Verwenden Sie für Tree-Ensemble-Modelle Tree SHAP Verwenden Sie für neuronale Netze und differenzierbare Modelle integrierte Gradienten und Leitwerte Verwenden Sie für alle anderen Fälle Kernel SHAP Empfohlene Visualisierungen

Lokale Interpretierbarkeit

Die beliebtesten Methoden zur lokalen Interpretierbarkeit komplexer Modelle basieren entweder auf Shapley Additive Explanations (SHAP) [8] oder integrierten Gradienten [11]. Jede Methode hat eine Reihe von Varianten, die für einen Modelltyp spezifisch sind.

Verwenden Sie für Tree-Ensemble-Modelle Tree SHAP

Bei baumbasierten Modellen ermöglicht die dynamische Programmierung eine schnelle und genaue Berechnung der Shapley-Werte für jedes Merkmal. Dies ist der empfohlene Ansatz für lokale Interpretationen in Baumensemblemodellen. (Siehe 7], die Implementierung ist in vollem Gange.) https://github.com/slundberg/

Verwenden Sie für neuronale Netze und differenzierbare Modelle integrierte Gradienten und Leitwerte

Integrierte Gradienten bieten eine einfache Möglichkeit, Merkmalszuweisungen in neuronalen Netzen zu berechnen. Die Leitfähigkeit basiert auf integrierten Gradienten und hilft Ihnen dabei, Attributionen von Teilen neuronaler Netze wie Schichten und einzelnen Neuronen zu interpretieren. (Siehe [3,11], die Implementierung befindet sich unter https://captum.ai/.) Sie können diese Methoden nicht für Modelle verwenden, ohne einen Gradienten zu verwenden. In solchen Fällen können Sie stattdessen Kernel-SHAP (im nächsten Abschnitt besprochen) verwenden. Wenn der Farbverlauf verfügbar ist, können integrierte Verlaufsattributionen schneller berechnet werden als Attributen aus Kernel-SHAP. Eine Herausforderung bei der Verwendung integrierter Farbverläufe besteht darin, den besten Basispunkt für die Ableitung einer Interpretation auszuwählen. Wenn der Basispunkt für ein Bildmodell beispielsweise das Bild mit einer Intensität von Null in allen Pixeln ist, weisen wichtige Bereiche eines Bildes, die dunkler sind, möglicherweise keine Eigenschaften auf, die der menschlichen Intuition entsprechen. Ein Ansatz zur Lösung dieses Problems besteht darin, mehrere Basispunkt-Attributionen zu verwenden und diese zu addieren. Dies ist Teil des Ansatzes der XRAI-Merkmalszuordnungsmethode für Bilder [5], bei der die integrierten Gradientenzuweisungen, die ein schwarzes Referenzbild und ein weißes Referenzbild verwenden, addiert werden, um konsistentere Zuordnungen zu erhalten.

Verwenden Sie für alle anderen Fälle Kernel SHAP

Sie können Kernel-SHAP verwenden, um Feature-Attributionen für jedes Modell zu berechnen, aber es ist eine Annäherung an die Berechnung der vollständigen Shapley-Werte und bleibt rechenintensiv (siehe [8]). Die für Kernel-SHAP benötigten Rechenressourcen wachsen schnell mit der Anzahl der Funktionen. Dies erfordert Näherungsmethoden, die die Genauigkeit, Wiederholbarkeit und Robustheit der Erklärungen verringern können. Amazon SageMaker AI Clarify bietet praktische Methoden, mit denen vorgefertigte Container für die Berechnung von Kernal-SHAP-Werten in separaten Instanzen bereitgestellt werden. (Ein Beispiel finden Sie im GitHub Repository Fairness and Explainability with AI Clarify.) SageMaker

Bei Einzelbaummodellen bieten die geteilten Variablen und Blattwerte ein sofort erklärbares Modell, und die zuvor erörterten Methoden bieten keine zusätzlichen Erkenntnisse. In ähnlicher Weise bieten die Koeffizienten bei linearen Modellen eine klare Erklärung des Modellverhaltens. (SHAP und integrierte Gradientenmethoden geben beide Beiträge zurück, die durch die Koeffizienten bestimmt werden.)

Sowohl SHAP als auch integrierte Gradientenmethoden weisen Schwächen auf. SHAP erfordert, dass Attributionen aus einem gewichteten Durchschnitt aller Merkmalskombinationen abgeleitet werden. Auf diese Weise gewonnene Zuschreibungen können bei der Schätzung der Merkmalsbedeutung irreführend sein, wenn eine starke Wechselwirkung zwischen Merkmalen besteht. Methoden, die auf integrierten Gradienten basieren, können aufgrund der großen Anzahl von Dimensionen, die in großen neuronalen Netzen vorhanden sind, schwierig zu interpretieren sein, und diese Methoden reagieren empfindlich auf die Wahl eines Basispunkts. Allgemeiner gesagt können Modelle Merkmale auf unerwartete Weise verwenden, um ein bestimmtes Leistungsniveau zu erreichen, und diese können je nach Modell variieren — die Bedeutung von Merkmalen ist immer modellabhängig.

Empfohlene Visualisierungen

Die folgende Tabelle enthält mehrere empfohlene Methoden zur Visualisierung der lokalen Interpretationen, die in den vorherigen Abschnitten erörtert wurden. Für tabellarische Daten empfehlen wir ein einfaches Balkendiagramm, das die Attributionen zeigt, sodass sie leicht verglichen und daraus abgeleitet werden können, wie das Modell Vorhersagen trifft.

Visualisierung lokaler Interpretationen mithilfe eines Balkendiagramms

Bei Textdaten führt das Einbetten von Tokens zu einer großen Anzahl skalarer Eingaben. Die in den vorherigen Abschnitten empfohlenen Methoden führen zu einer Zuordnung für jede Dimension der Einbettung und für jede Ausgabe. Um diese Informationen in einer Visualisierung zusammenzufassen, können die Attributionen für ein bestimmtes Token summiert werden. Das folgende Beispiel zeigt die Summe der Attributionen für das BERT-basierte Modell zur Beantwortung von Fragen, das mit dem SQUAD-Datensatz trainiert wurde. In diesem Fall ist das Etikett „vorhergesagt und wahr“ das Synonym für das Wort „Frankreich“.

Summe der Zuschreibungen für ein BERT-basiertes Modell zur Beantwortung von Fragen, das mit dem SQUAD-Datensatz trainiert wurde, Beispiel 1

Andernfalls kann die Vektornorm der Token-Attributionen als Gesamtattributionswert zugewiesen werden, wie im folgenden Beispiel gezeigt.

Summe der Attributionen für ein BERT-basiertes Modell zur Beantwortung von Fragen, das mit dem SQUAD-Datensatz trainiert wurde, Beispiel 2

Für Zwischenschichten in Deep-Learning-Modellen können ähnliche Aggregationen zur Visualisierung auf Leitfähigkeiten angewendet werden, wie im folgenden Beispiel gezeigt. Diese Vektornorm der Token-Leitfähigkeit für Transformatorschichten zeigt die letztendliche Aktivierung für die End-Token-Vorhersage („Frankreich“).

Wie bei Zwischenschichten in Deep-Learning-Modellen Aggregationen auf Leitfähigkeiten angewendet werden können, um sie zu visualisieren

Konzeptaktivierungsvektoren bieten eine Methode, um tiefe neuronale Netze genauer zu untersuchen [6]. Diese Methode extrahiert Merkmale aus einer Schicht in einem bereits trainierten Netzwerk und trainiert einen linearen Klassifikator anhand dieser Merkmale, um Rückschlüsse auf die Informationen in der Schicht zu ziehen. Möglicherweise möchten Sie beispielsweise ermitteln, welche Ebene eines BERT-basierten Sprachmodells die meisten Informationen über die einzelnen Spracharten enthält. In diesem Fall könnten Sie für jede Layer-Ausgabe ein lineares part-of-speech Modell trainieren und grob abschätzen, dass der Layer, der die meisten Informationen enthält, der Klassifikator mit der besten Leistung zugeordnet ist. part-of-speech Wir empfehlen diese Methode zwar nicht als primäre Methode zur Interpretation neuronaler Netze, sie kann jedoch eine Option für detailliertere Studien und als Unterstützung beim Entwurf der Netzwerkarchitektur sein.

Warnung JavaScript ist in Ihrem Browser nicht verfügbar oder deaktiviert.

Zur Nutzung der AWS-Dokumentation muss JavaScript aktiviert sein. Weitere Informationen finden auf den Hilfe-Seiten Ihres Browsers.

Dokumentkonventionen

Bewährte Methoden

Globale Interpretierbarkeit