Die vorliegende Übersetzung wurde maschinell erstellt. Im Falle eines Konflikts oder eines Widerspruchs zwischen dieser übersetzten Fassung und der englischen Fassung (einschließlich infolge von Verzögerungen bei der Übersetzung) ist die englische Fassung maßgeblich. # Modelle zur Trainingsklassifizierung Um ein Modell für die benutzerdefinierte Klassifizierung zu trainieren, definieren Sie die Kategorien und stellen Beispieldokumente bereit, um das benutzerdefinierte Modell zu trainieren. Sie trainieren das Modell entweder im Modus mit mehreren Klassen oder im Modus mit mehreren Bezeichnungen. Im Mehrklassenmodus wird jedem Dokument eine einzelne Klasse zugeordnet. Der Modus mit mehreren Bezeichnungen ordnet jedem Dokument eine oder mehrere Klassen zu. Die benutzerdefinierte Klassifizierung unterstützt zwei Arten von Klassifizierungsmodellen: Klartextmodelle und native Dokumentenmodelle. Ein Nur-Text-Modell klassifiziert Dokumente anhand ihres Textinhalts. Ein systemeigenes Dokumentenmodell klassifiziert Dokumente auch auf der Grundlage von Textinhalten. Ein systemeigenes Dokumentenmodell kann auch zusätzliche Signale verwenden, z. B. aus dem Layout des Dokuments. Sie trainieren ein systemeigenes Dokumentmodell mit systemeigenen Dokumenten, damit das Modell die Layoutinformationen lernt. Klartextmodelle weisen die folgenden Eigenschaften auf: + Sie trainieren das Modell mit UTF-8-codierten Textdokumenten. + Sie können das Modell anhand von Dokumenten in einer der folgenden Sprachen trainieren: Englisch, Spanisch, Deutsch, Italienisch, Französisch oder Portugiesisch. + Die Schulungsdokumente für einen bestimmten Klassifikator müssen alle dieselbe Sprache verwenden. + Die Schulungsdokumente sind Klartext, sodass für die Textextraktion keine zusätzlichen Gebühren anfallen. Systemeigene Dokumentenmodelle weisen die folgenden Eigenschaften auf: + Sie trainieren das Modell mithilfe halbstrukturierter Dokumente, zu denen die folgenden Dokumenttypen gehören: + Digitale und gescannte PDF-Dokumente. + Word-Dokumente (DOCX). + Bilder: JPG-Dateien, PNG-Dateien und einseitige TIFF-Dateien. + Textract-API-Ausgabe von JSON-Dateien. + Sie trainieren das Modell anhand englischer Dokumente. + Wenn Ihre Schulungsunterlagen gescannte Dokumentdateien enthalten, fallen zusätzliche Gebühren für die Textextraktion an. Weitere Informationen finden Sie auf der Seite [Amazon Comprehend Pricing](https://aws.amazon.com/comprehend/pricing). Sie können jeden der unterstützten Dokumenttypen anhand eines der beiden Modelltypen klassifizieren. Für genaueste Ergebnisse empfehlen wir jedoch, ein Klartextmodell zur Klassifizierung von Klartextdokumenten und ein systemeigenes Dokumentmodell zur Klassifizierung halbstrukturierter Dokumente zu verwenden. **Topics** + [Trainieren Sie benutzerdefinierte Klassifikatoren (Konsole)](create-custom-classifier-console.md) + [Trainieren Sie benutzerdefinierte Klassifikatoren (API)](train-custom-classifier-api.md) + [Testen Sie die Trainingsdaten](testing-the-model.md) + [Klassifizieren Sie die Trainingsleistung](train-classifier-output.md) + [Benutzerdefinierte Klassifikator-Metriken](cer-doc-class.md) # Trainieren Sie benutzerdefinierte Klassifikatoren (Konsole) Sie können mithilfe der Konsole einen benutzerdefinierten Klassifikator erstellen und trainieren und dann den benutzerdefinierten Klassifikator verwenden, um Ihre Dokumente zu analysieren. Um einen benutzerdefinierten Klassifikator zu trainieren, benötigen Sie eine Reihe von Schulungsdokumenten. Sie kennzeichnen diese Dokumente mit den Kategorien, die der Dokumentenklassifizierer erkennen soll. Informationen zur Vorbereitung Ihrer Schulungsdokumente finden Sie unter[Vorbereitung der Trainingsdaten für Klassifikatoren](prep-classifier-data.md). **So erstellen und trainieren Sie ein Klassifizierungsmodell für Dokumente** 1. Melden Sie sich bei der Amazon Comprehend Comprehend-Konsole an AWS-Managementkonsole und öffnen Sie sie unter [https://console.aws.amazon.com/comprehend/](https://console.aws.amazon.com/comprehend/) 1. Wählen Sie im linken Menü **Anpassung** und dann **Benutzerdefinierte** Klassifizierung aus. 1. Wählen Sie **Neues Modell erstellen** aus. 1. Geben Sie unter **Modelleinstellungen** einen Modellnamen für den Klassifikator ein. Der Name muss innerhalb Ihres Kontos und Ihrer aktuellen Region eindeutig sein. (Optional) Geben Sie einen Versionsnamen ein. Der Name muss innerhalb Ihres Kontos und Ihrer aktuellen Region eindeutig sein. 1. Wählen Sie die Sprache der Schulungsunterlagen aus. Informationen zu den Sprachen, die von Klassifikatoren unterstützt werden, finden Sie unter[Modelle zur Trainingsklassifizierung](training-classifier-model.md). 1. **(Optional) Wenn Sie die Daten auf dem Speichervolume verschlüsseln möchten, während Amazon Comprehend Ihren Trainingsjob verarbeitet, wählen Sie Classifier-Verschlüsselung.** Wählen Sie dann aus, ob Sie einen KMS-Schlüssel verwenden möchten, der mit Ihrem aktuellen Konto verknüpft ist, oder einen von einem anderen Konto. + Wenn Sie einen Schlüssel verwenden, der dem aktuellen Konto zugeordnet ist, wählen Sie die Schlüssel-ID für die **KMS-Schlüssel-ID**. + Wenn Sie einen Schlüssel verwenden, der einem anderen Konto zugeordnet ist, geben Sie den ARN für die Schlüssel-ID unter **KMS-Schlüssel-ARN** ein. **Anmerkung** Weitere Informationen zur Erstellung und Verwendung von KMS-Schlüsseln und der zugehörigen Verschlüsselung finden Sie unter [AWS Key Management Service (AWS KMS)](https://docs.aws.amazon.com/kms/latest/developerguide/overview.html). 1. Wählen Sie unter **Datenspezifikationen** den zu **verwendenden Trainingsmodelltyp** aus. + **Nur-Text-Dokumente:** Wählen Sie diese Option, um ein Nur-Text-Modell zu erstellen. Trainieren Sie das Modell mit Klartext-Dokumenten. + **Systemeigene Dokumente:** Wählen Sie diese Option, um ein systemeigenes Dokumentmodell zu erstellen. Trainieren Sie das Modell mit systemeigenen Dokumenten (PDF, Word, Bilder). 1. Wählen Sie das **Datenformat** Ihrer Trainingsdaten. Informationen zu den Datenformaten finden Sie unter[Formate der Classifier-Trainingsdateien](prep-class-data-format.md). + **CSV-Datei:** Wählen Sie diese Option, wenn Ihre Trainingsdaten das CSV-Dateiformat verwenden. + **Erweitertes Manifest:** Wählen Sie diese Option, wenn Sie Ground Truth verwendet haben, um erweiterte Manifestdateien für Ihre Trainingsdaten zu erstellen. Dieses Format ist verfügbar, wenn Sie **Nur-Text-Dokumente** als Trainingsmodelltyp ausgewählt haben. 1. Wählen Sie den zu **verwendenden Klassifizierermodus** aus. + **Einzellabelmodus:** Wählen Sie diesen Modus, wenn sich die Kategorien, die Sie Dokumenten zuweisen, gegenseitig ausschließen und Sie Ihren Klassifizierer darauf trainieren, jedem Dokument ein Etikett zuzuweisen. In der Amazon Comprehend API wird der Single-Label-Modus als Mehrklassenmodus bezeichnet. + **Multi-Label-Modus:** Wählen Sie diesen Modus, wenn mehrere Kategorien gleichzeitig auf ein Dokument angewendet werden können und Sie Ihren Klassifizierer darauf trainieren, jedem Dokument ein oder mehrere Labels zuzuweisen. 1. Wenn Sie den **Modus „Mehrere Beschriftungen“** wählen, können Sie das **Trennzeichen** für Beschriftungen auswählen. Verwenden Sie dieses Trennzeichen, um Bezeichnungen voneinander zu trennen, wenn es mehrere Klassen für ein Schulungsdokument gibt. Das Standardtrennzeichen ist der senkrechte Strich. 1. (Optional) Wenn Sie **Augmented Manifest** als Datenformat ausgewählt haben, können Sie bis zu fünf Augmented Manifest-Dateien eingeben. Jede erweiterte Manifest-Datei enthält entweder einen Trainingsdatensatz oder einen Testdatensatz. Sie müssen mindestens einen Trainingsdatensatz angeben. Testdatensätze sind optional. Gehen Sie wie folgt vor, um die erweiterten Manifestdateien zu konfigurieren: 1. Erweitern Sie unter **Trainings- und Testdatensatz** den Bereich **Eingabeposition**. 1. Wählen Sie unter **Datensatztyp** die Option **Trainingsdaten** oder **Testdaten** aus. 1. Geben Sie für den **S3-Speicherort der erweiterten Manifestdatei SageMaker AI Ground Truth** den Speicherort des Amazon S3 S3-Buckets ein, der die Manifestdatei enthält, oder navigieren Sie zu diesem, indem Sie **Browse S3** wählen. Die IAM-Rolle, die Sie für die Zugriffsberechtigungen für den Trainingsjob verwenden, muss über Leseberechtigungen für den S3-Bucket verfügen. 1. Geben Sie für die **Attributnamen** den Namen des Attributs ein, das Ihre Anmerkungen enthält. Wenn die Datei Anmerkungen aus mehreren verketteten Beschriftungsaufträgen enthält, fügen Sie für jeden Auftrag ein Attribut hinzu. 1. Um einen weiteren Eingabeort hinzuzufügen, wählen Sie **Eingabeposition hinzufügen und konfigurieren Sie dann den nächsten Speicherort**. 1. (Optional) Wenn Sie die **CSV-Datei** als Datenformat ausgewählt haben, gehen Sie wie folgt vor, um den Trainingsdatensatz und den optionalen Testdatensatz zu konfigurieren: 1. Geben Sie unter **Trainingsdatensatz** den Speicherort des Amazon S3 S3-Buckets ein, der Ihre CSV-Datei mit Trainingsdaten enthält, oder navigieren Sie zu diesem, indem Sie **Browse S3** wählen. Die IAM-Rolle, die Sie für die Zugriffsberechtigungen für den Trainingsjob verwenden, muss über Leseberechtigungen für den S3-Bucket verfügen. (Optional) Wenn Sie **Native Dokumente** als Trainingsmodelltyp wählen, geben Sie auch die URL des Amazon S3 S3-Ordners an, der die Trainingsbeispieldateien enthält. 1. Wählen Sie unter **Testdatensatz** aus, ob Sie zusätzliche Daten für Amazon Comprehend bereitstellen, um das trainierte Modell zu testen. + **Autosplit**: Autosplit wählt automatisch 10% Ihrer Trainingsdaten aus, um sie für die Verwendung als Testdaten zu reservieren. + (Optional) Vom **Kunden bereitgestellt**: Geben Sie die URL der Testdaten-CSV-Datei in Amazon S3 ein. Sie können auch zu seinem Speicherort in Amazon S3 navigieren und **Ordner auswählen** wählen. (Optional) Wenn Sie **Native Dokumente** als Trainingsmodelltyp wählen, geben Sie auch die URL des Amazon S3 S3-Ordners an, der die Testdateien enthält. 1. (Optional) **Im Lesemodus für Dokumente** können Sie die standardmäßigen Textextraktionsaktionen überschreiben. Diese Option ist für Klartext-Modelle nicht erforderlich, da sie für die Textextraktion für gescannte Dokumente gilt. Weitere Informationen finden Sie unter [Optionen für die Textextraktion festlegen](idp-set-textract-options.md). 1. (Optional für Klartextmodelle) Geben Sie unter **Ausgabedaten** den Speicherort eines Amazon S3 S3-Buckets ein, um Trainingsausgabedaten wie die Konfusionsmatrix zu speichern. Weitere Informationen finden Sie unter [Verwechslungsmatrix](train-classifier-output.md#conf-matrix). **(Optional) Wenn Sie das Ausgabeergebnis Ihres Trainingsjobs verschlüsseln möchten, wählen Sie Verschlüsselung.** Wählen Sie dann aus, ob Sie einen KMS-Schlüssel verwenden möchten, der mit dem aktuellen Konto verknüpft ist, oder einen von einem anderen Konto. + Wenn Sie einen Schlüssel verwenden, der dem aktuellen Konto zugeordnet ist, wählen Sie den Schlüsselalias für die **KMS-Schlüssel-ID**. + Wenn Sie einen Schlüssel verwenden, der einem anderen Konto zugeordnet ist, geben Sie den ARN für den Schlüsselalias oder die Schlüssel-ID unter **KMS-Schlüssel-ID** ein. 1. Wählen Sie für die **IAM-Rolle** die Option **Eine bestehende IAM-Rolle auswählen** und wählen Sie dann eine bestehende IAM-Rolle aus, die über Leseberechtigungen für den S3-Bucket verfügt, der Ihre Schulungsdokumente enthält. Die Rolle muss über eine Vertrauensrichtlinie verfügen, die mit 1 beginnt, um gültig `comprehend.amazonaws.com` zu sein. Wenn Sie noch keine IAM-Rolle mit diesen Berechtigungen haben, wählen Sie **Create an IAM-Rolle aus, um eine zu erstellen**. Wählen Sie die Zugriffsberechtigungen aus, die Sie dieser Rolle gewähren möchten, und wählen Sie dann ein Namenssuffix, um die Rolle von den IAM-Rollen in Ihrem Konto zu unterscheiden. **Anmerkung** Für verschlüsselte Eingabedokumente muss die verwendete IAM-Rolle ebenfalls über eine entsprechende Berechtigung verfügen. `kms:Decrypt` Weitere Informationen finden Sie unter [Für die Verwendung der KMS-Verschlüsselung sind Berechtigungen erforderlich](security_iam_id-based-policy-examples.md#auth-kms-permissions). 1. (Optional) Um Ihre Ressourcen von einer VPC aus in Amazon Comprehend zu starten, geben Sie die VPC-ID unter **VPC** ein oder wählen Sie die ID aus der Dropdownliste aus. 1. **Wählen Sie das Subnetz unter Subnetze (en) aus.** Nachdem Sie das erste Subnetz ausgewählt haben, können Sie weitere auswählen. 1. Wählen Sie unter **Sicherheitsgruppe (n)** die zu verwendende Sicherheitsgruppe aus, falls Sie eine angegeben haben. Nachdem Sie die erste Sicherheitsgruppe ausgewählt haben, können Sie weitere auswählen. **Anmerkung** Wenn Sie eine VPC mit Ihrem Klassifizierungsjob verwenden, müssen die für die Vorgänge Create und Start `DataAccessRole` verwendeten VPC über Berechtigungen für die VPC verfügen, die auf die Eingabedokumente und den Ausgabe-Bucket zugreift. 1. **(Optional) Um dem benutzerdefinierten Klassifikator ein Tag hinzuzufügen, geben Sie unter Tags ein Schlüssel-Wert-Paar ein.** Wählen Sie **Add tag**. **Um dieses Paar vor der Erstellung des Klassifikators zu entfernen, wählen Sie Tag entfernen aus.** Weitere Informationen finden Sie unter [Markieren von Ressourcen](tagging.md). 1. Wählen Sie **Erstellen** aus. In der Konsole wird die Seite „**Klassifikatoren**“ angezeigt. Der neue Klassifikator wird in der Tabelle `Submitted` als Status angezeigt. Wenn der Klassifikator mit der Verarbeitung der Schulungsdokumente beginnt, ändert sich der Status in. `Training` Wenn ein Klassifikator einsatzbereit ist, ändert sich der Status in oder. `Trained` `Trained with warnings` Wenn der Status lautet`TRAINED_WITH_WARNINGS`, überprüfen Sie den Ordner mit übersprungenen Dateien im. [Klassifizieren Sie die Trainingsleistung](train-classifier-output.md) Wenn Amazon Comprehend bei der Erstellung oder Schulung auf Fehler gestoßen ist, ändert sich der Status auf. `In error` Sie können einen Klassifikator-Job in der Tabelle auswählen, um weitere Informationen über den Klassifikator, einschließlich aller Fehlermeldungen, zu erhalten. ![\[Die benutzerdefinierte Klassifiziererliste.\]](http://docs.aws.amazon.com/de_de/comprehend/latest/dg/images/class-list.png) # Trainieren Sie benutzerdefinierte Klassifikatoren (API) Verwenden Sie die [CreateDocumentClassifier](https://docs.aws.amazon.com/comprehend/latest/APIReference/API_CreateDocumentClassifier.html)Operation, um einen benutzerdefinierten Klassifikator zu erstellen und zu trainieren. Sie können den Fortschritt der Anfrage mithilfe der [DescribeDocumentClassifier](https://docs.aws.amazon.com/comprehend/latest/APIReference/API_DescribeDocumentClassifier.html)Operation überwachen. Nachdem das `Status` Feld zu gewechselt ist`TRAINED`, können Sie den Klassifikator verwenden, um Dokumente zu klassifizieren. Wenn der Status lautet`TRAINED_WITH_WARNINGS`, überprüfen Sie den Ordner mit den übersprungenen Dateien im Ordner [Klassifizieren Sie die Trainingsleistung](train-classifier-output.md) aus dem Vorgang. `CreateDocumentClassifier` **Topics** + [Schulung der benutzerdefinierten Klassifizierung mit dem AWS Command Line Interface](#get-started-api-customclass-cli) + [Verwenden des AWS SDK für Java oder SDK für Python](#get-started-api-customclass-java) ## Schulung der benutzerdefinierten Klassifizierung mit dem AWS Command Line Interface Die folgenden Beispiele zeigen, wie die `CreateDocumentClassifier` Operation, die `DescribeDocumentClassificationJob` Operation und andere benutzerdefinierte Klassifikatoren APIs mit dem AWS CLI verwendet werden. Die Beispiele sind für Unix, Linux und macOS formatiert. Ersetzen Sie unter Windows den umgekehrten Schrägstrich (\$1), das Unix-Fortsetzungszeichen, am Ende jeder Zeile durch ein Caret-Zeichen oder Zirkumflex (^). Erstellen Sie mithilfe der Operation einen benutzerdefinierten Klartext-Klassifikator. `create-document-classifier` ``` aws comprehend create-document-classifier \ --region region \ --document-classifier-name testDelete \ --language-code en \ --input-data-config S3Uri=s3://S3Bucket/docclass/file name \ --data-access-role-arn arn:aws:iam::account number:role/testFlywheelDataAccess ``` Um einen systemeigenen benutzerdefinierten Klassifikator zu erstellen, geben Sie in der Anfrage die folgenden zusätzlichen Parameter an. `create-document-classifier` 1. DocumentType: Setzen Sie den Wert auf SEMI\$1STRUCTURED\$1DOCUMENT. 1. Dokumente: Der S3-Speicherort für die Schulungsdokumente (und optional die Testdokumente). 1. OutputDataConfig: Geben Sie den S3-Speicherort für die Ausgabedokumente (und einen optionalen KMS-Schlüssel) an. 1. DocumentReaderConfig: Optionales Feld für Einstellungen zur Textextraktion. ``` aws comprehend create-document-classifier \ --region region \ --document-classifier-name testDelete \ --language-code en \ --input-data-config S3Uri=s3://S3Bucket/docclass/file name \ DocumentType \ Documents \ --output-data-config S3Uri=s3://S3Bucket/docclass/file name \ --data-access-role-arn arn:aws:iam::account number:role/testFlywheelDataAccess ``` Rufen Sie mithilfe der Operation Informationen zu einem benutzerdefinierten Klassifikator mit dem Dokumentenklassifikator ARN ab. `DescribeDocumentClassifier` ``` aws comprehend describe-document-classifier \ --region region \ --document-classifier-arn arn:aws:comprehend:region:account number:document-classifier/file name ``` Löschen Sie mithilfe der Operation einen benutzerdefinierten Klassifikator. `DeleteDocumentClassifier` ``` aws comprehend delete-document-classifier \ --region region \ --document-classifier-arn arn:aws:comprehend:region:account number:document-classifier/testDelete ``` Listet alle benutzerdefinierten Klassifikatoren in dem Konto auf, das den `ListDocumentClassifiers` Vorgang verwendet. ``` aws comprehend list-document-classifiers --region region ``` ## Verwenden des AWS SDK für Java oder SDK für Python SDK-Beispiele zum Erstellen und Trainieren eines benutzerdefinierten Klassifikators finden Sie unter[Verwendung `CreateDocumentClassifier` mit einem AWS SDK oder CLI](example_comprehend_CreateDocumentClassifier_section.md). # Testen Sie die Trainingsdaten Nach dem Training des Modells testet Amazon Comprehend das benutzerdefinierte Klassifikatormodell. Wenn Sie keinen Testdatensatz bereitstellen, trainiert Amazon Comprehend das Modell mit 90 Prozent der Trainingsdaten. Es reserviert 10 Prozent der Trainingsdaten für Tests. Wenn Sie einen Testdatensatz bereitstellen, müssen die Testdaten mindestens ein Beispiel für jedes eindeutige Label im Trainingsdatensatz enthalten. Durch das Testen des Modells erhalten Sie Metriken, anhand derer Sie die Genauigkeit des Modells abschätzen können. Die Konsole zeigt die Metriken im Abschnitt **Classifier-Performance** der **Classifier-Detailseite** in der Konsole an. Sie werden auch in den `Metrics` Feldern zurückgegeben, die durch den [DescribeDocumentClassifier](https://docs.aws.amazon.com/comprehend/latest/APIReference/API_DescribeDocumentClassifier.html)Vorgang zurückgegeben wurden. Im folgenden Beispiel für Trainingsdaten gibt es fünf Bezeichnungen: DOCUMENTARY, DOCUMENTARY, SCIENCE\$1FICTION, DOCUMENTARY, ROMANTIC\$1COMEDY. Es gibt drei einzigartige Klassen: DOCUMENTARY, SCIENCE\$1FICTION, ROMANTIC\$1COMEDY. | Spalte 1 | Spalte 2 | | --- | --- | | DOKUMENTARFILM | Text des Dokuments 1 | | DOKUMENTARFILM | Text des Dokuments 2 | | SCIENCE\$1FICTION | Text des Dokuments 3 | | DOKUMENTARFILM | Text des Dokuments 4 | | ROMANTISCHE\$1KOMÖDIE | Text des Dokuments 5 | Bei der auto Aufteilung (bei der Amazon Comprehend 10 Prozent der Trainingsdaten für Tests reserviert) kann der Testdatensatz keine Beispiele für dieses Label enthalten, wenn die Trainingsdaten nur begrenzte Beispiele für ein bestimmtes Label enthalten. Wenn der Trainingsdatensatz beispielsweise 1000 Instanzen der DOCUMENTAR-Klasse, 900 Instanzen von SCIENCE\$1FICTION und eine einzelne Instanz der Klasse ROMANTIC\$1COMEDY enthält, kann der Testdatensatz 100 DOCUMENTARY- und 90 SCIENCE\$1FICTION-Instanzen enthalten, aber keine ROMANTIC\$1COMEDY-Instanzen, da nur ein einziges Beispiel verfügbar ist. Nachdem Sie das Training Ihres Modells abgeschlossen haben, liefern die Trainingsmetriken Informationen, anhand derer Sie entscheiden können, ob das Modell für Ihre Anforderungen ausreichend genau ist. # Klassifizieren Sie die Trainingsleistung Nachdem Amazon Comprehend das Training des benutzerdefinierten Klassifikatormodells abgeschlossen hat, erstellt es Ausgabedateien im Amazon S3-Ausgabespeicherort, den Sie in der [CreateDocumentClassifier](https://docs.aws.amazon.com/comprehend/latest/APIReference/API_CreateDocumentClassifier.html)API-Anforderung oder der entsprechenden Konsolenanforderung angegeben haben. Amazon Comprehend erstellt eine Konfusionsmatrix, wenn Sie ein Klartext-Modell oder ein systemeigenes Dokumentenmodell trainieren. Es kann zusätzliche Ausgabedateien erstellen, wenn Sie ein systemeigenes Dokumentenmodell trainieren. **Topics** + [Verwechslungsmatrix](#conf-matrix) + [Zusätzliche Ausgaben für native Dokumentenmodelle](#train-class-output-native) ## Verwechslungsmatrix Wenn Sie ein benutzerdefiniertes Klassifikatormodell trainieren, erstellt Amazon Comprehend eine Konfusionsmatrix, die Kennzahlen darüber enthält, wie gut das Modell beim Training abgeschnitten hat. Diese Matrix zeigt eine Matrix von Beschriftungen, die das Modell vorhergesagt hat, im Vergleich zu den tatsächlichen Dokumentenbeschriftungen. Amazon Comprehend verwendet einen Teil der Trainingsdaten, um die Konfusionsmatrix zu erstellen. Eine Konfusionsmatrix gibt Aufschluss darüber, welche Klassen mehr Daten verwenden könnten, um die Modellleistung zu verbessern. Eine Klasse mit einem hohen Anteil an korrekten Vorhersagen hat die höchste Anzahl von Ergebnissen entlang der Diagonalen der Matrix. Wenn die Zahl auf der Diagonalen eine niedrigere Zahl ist, hat die Klasse einen geringeren Anteil richtiger Vorhersagen. Sie können weitere Trainingsbeispiele für diese Klasse hinzufügen und das Modell erneut trainieren. Wenn beispielsweise 40 Prozent der Stichproben mit Label A als Label D klassifiziert werden, verbessert das Hinzufügen weiterer Proben für Label A und Label D die Leistung des Klassifikators. Nachdem Amazon Comprehend das Klassifikatormodell erstellt hat, ist die Konfusionsmatrix in der `confusion_matrix.json` Datei im S3-Ausgabespeicherort verfügbar. Das Format der Konfusionsmatrix variiert, je nachdem, ob Sie Ihren Klassifikator im Mehrklassenmodus oder im Multi-Label-Modus trainiert haben. **Topics** + [Konfusionsmatrix für den Mehrklassenmodus](#m-c-matrix) + [Konfusionsmatrix für den Modus mit mehreren Labels](#m-l-matrix) ### Konfusionsmatrix für den Mehrklassenmodus Im Mehrklassenmodus schließen sich die einzelnen Klassen gegenseitig aus, sodass bei der Klassifizierung jedem Dokument eine Bezeichnung zugewiesen wird. Ein Tier kann beispielsweise ein Hund oder eine Katze sein, aber nicht beides gleichzeitig. Betrachten Sie das folgende Beispiel für eine Konfusionsmatrix für einen trainierten Klassifikator mit mehreren Klassen: ``` A B X Y <-(predicted label) A 1 2 0 4 B 0 3 0 1 X 0 0 1 0 Y 1 1 1 1 ^ | (actual label) ``` In diesem Fall prognostizierte das Modell Folgendes: + Ein „A“ -Label wurde genau vorhergesagt, zwei „A“ -Labels wurden fälschlicherweise als „B“ -Labels vorhergesagt und vier „A“ -Labels wurden fälschlicherweise als „Y“ -Label vorhergesagt. + Drei „B“ -Labels wurden genau vorhergesagt, und ein „B“ -Label wurde fälschlicherweise als „Y“ -Label vorhergesagt. + Ein „X“ wurde genau vorhergesagt. + Ein „Y“ -Label wurde genau vorhergesagt, eines wurde fälschlicherweise als „A“ -Label vorhergesagt, eines wurde fälschlicherweise als „B“ -Label vorhergesagt und eines wurde fälschlicherweise als „X“ -Label vorhergesagt. Die diagonale Linie in der Matrix (A:A, B:B, X:X und Y:Y) zeigt die genauen Vorhersagen. Die Vorhersagefehler sind die Werte außerhalb der Diagonale. In diesem Fall zeigt die Matrix die folgenden Prognosefehlerraten: + A-Etiketten: 86% + B-Etiketten: 25% + X-Etiketten: 0% + Y-Etiketten: 75% Der Klassifikator gibt die Konfusionsmatrix als Datei im JSON-Format zurück. Die folgende JSON-Datei stellt die Matrix für das vorherige Beispiel dar. ``` { "type": "multi_class", "confusion_matrix": [ [1, 2, 0,4], [0, 3, 0, 1], [0, 0, 1, 0], [1, 1, 1, 1]], "labels": ["A", "B", "X", "Y"], "all_labels": ["A", "B", "X", "Y"] } ``` ### Konfusionsmatrix für den Modus mit mehreren Labels Im Modus mit mehreren Bezeichnungen kann die Klassifizierung einem Dokument eine oder mehrere Klassen zuweisen. Betrachten Sie das folgende Beispiel einer Konfusionsmatrix für einen aus mehreren Klassen bestehenden, trainierten Klassifikator. In diesem Beispiel gibt es drei mögliche Bezeichnungen: `Comedy``Action`, und. `Drama` Die Konfusionsmatrix mit mehreren Bezeichnungen erstellt für jedes Etikett eine 2x2-Matrix. ``` Comedy Action Drama No Yes No Yes No Yes <-(predicted label) No 2 1 No 1 1 No 3 0 Yes 0 2 Yes 2 1 Yes 1 1 ^ ^ ^ | | | |-----------(was this label actually used)--------| ``` In diesem Fall gab das Modell für das Etikett Folgendes zurück: `Comedy` + Zwei Fälle, in denen das Vorhandensein eines `Comedy` Labels genau vorhergesagt wurde. Wirklich positiv (TP). + Zwei Fälle, in denen genau vorhergesagt wurde, dass ein `Comedy` Etikett nicht vorhanden ist. Richtig negativ (TN). + Keine Fälle, in denen fälschlicherweise vorhergesagt wurde, dass ein `Comedy` Etikett vorhanden ist. Falsch positiv (FP). + Ein Fall, in dem fälschlicherweise vorhergesagt wurde, dass ein `Comedy` Etikett nicht vorhanden ist. Falsch negativ (FN). Wie bei einer Konfusionsmatrix mit mehreren Klassen zeigt die diagonale Linie in jeder Matrix die genauen Vorhersagen. In diesem Fall hat das Modell `Comedy` Labels in 80% der Fälle (TP plus TN) genau und in 20% der Fälle falsch vorhergesagt (FP plus FN). Der Klassifikator gibt die Konfusionsmatrix als Datei im JSON-Format zurück. Die folgende JSON-Datei stellt die Matrix für das vorherige Beispiel dar. ``` { "type": "multi_label", "confusion_matrix": [ [[2, 1], [0, 2]], [[1, 1], [2, 1]], [[3, 0], [1, 1]] ], "labels": ["Comedy", "Action", "Drama"] "all_labels": ["Comedy", "Action", "Drama"] } ``` ## Zusätzliche Ausgaben für native Dokumentenmodelle Amazon Comprehend kann zusätzliche Ausgabedateien erstellen, wenn Sie ein systemeigenes Dokumentenmodell trainieren. ### Amazon Textract Textract-Ausgabe Wenn Amazon Comprehend Amazon Textract aufgerufen hat, um Text für eines der Schulungsdokumente APIs zu extrahieren, speichert es die Amazon Textract Textract-Ausgabedateien im S3-Ausgabespeicherort. Es verwendet die folgende Verzeichnisstruktur: + **Schulungsunterlagen:** `amazon-textract-output/train///textract_output.json` + **Testdokumente:** `amazon-textract-output/test///textract_output.json` Amazon Comprehend füllt den Testordner aus, wenn Sie Testdokumente in der API-Anfrage angegeben haben. ### Fehler bei der Anmerkung zu Dokumenten Amazon Comprehend erstellt die folgenden Dateien im Amazon S3 S3-Ausgabespeicherort (im Ordner **skipped\$1documents/**), falls Anmerkungen fehlschlagen: + failed\$1annotations\$1train.jsonl Die Datei ist vorhanden, falls Anmerkungen in den Trainingsdaten fehlgeschlagen sind. + failed\$1annotations\$1test.jsonl Die Datei ist vorhanden, wenn die Anfrage Testdaten enthielt und alle Anmerkungen in den Testdaten fehlgeschlagen sind. Die fehlgeschlagenen Annotationsdateien sind JSONL-Dateien mit dem folgenden Format: ``` { "File": "String", "Page": Number, "ErrorCode": "...", "ErrorMessage": "..."} {"File": "String", "Page": Number, "ErrorCode": "...", "ErrorMessage": "..." } ``` # Benutzerdefinierte Klassifikator-Metriken Amazon Comprehend bietet Kennzahlen, mit denen Sie abschätzen können, wie gut ein benutzerdefinierter Klassifikator abschneidet. Amazon Comprehend berechnet die Metriken anhand der Testdaten aus dem Classifier-Trainingsjob. Die Metriken stellen die Leistung des Modells während des Trainings genau dar, sodass sie ungefähr der Modellleistung für die Klassifizierung ähnlicher Daten entsprechen. Verwenden Sie API-Operationen, [DescribeDocumentClassifier](https://docs.aws.amazon.com/comprehend/latest/APIReference/API_DescribeDocumentClassifier.html)um z. B. die Metriken für einen benutzerdefinierten Klassifikator abzurufen. **Anmerkung** Weitere Informationen zu den zugrunde liegenden [Kennzahlen Precision, Recall und FScore F1-Score finden Sie unter Metriken:](https://scikit-learn.org/stable/modules/generated/sklearn.metrics.precision_recall_fscore_support.html) Präzision, Erinnerung und F1-Score. Diese Kennzahlen werden auf Klassenebene definiert. Amazon Comprehend verwendet **Makro-Mittelwertbildung**, um diese Metriken zu den Testsätzen P, R und F1 zu kombinieren, wie im Folgenden beschrieben. **Topics** + [Kennzahlen](#cer-doc-class-metrics) + [Verbesserung der Leistung Ihres benutzerdefinierten Klassifikators](#improving-metrics-doc) ## Kennzahlen Amazon Comprehend unterstützt die folgenden Metriken: **Topics** + [Accuracy](#class-accuracy-metric) + [Präzision (Makro-Präzision)](#class-macroprecision-metric) + [Rückruf (Makrorückruf)](#class-macrorecall-metric) + [F1-Score (Makro-F1-Score)](#class-macrof1score-metric) + [Hamming-Verlust](#class-hammingloss-metric) + [Mikro-Präzision](#class-microprecision-metric) + [Mikro-Recall](#class-microrecall-metric) + [Mikro-F1-Score](#class-microf1score-metric) Um die Metriken für einen Classifier anzuzeigen, öffnen Sie die Seite **Classifier Details** in der Konsole. ![\[Benutzerdefinierte Classifier-Metriken\]](http://docs.aws.amazon.com/de_de/comprehend/latest/dg/images/classifierperformance.png) ### Accuracy Die Genauigkeit gibt den Prozentsatz der Labels aus den Testdaten an, die das Modell genau vorhergesagt hat. Um die Genauigkeit zu berechnen, dividieren Sie die Anzahl der genau vorhergesagten Etiketten in den Testdokumenten durch die Gesamtzahl der Etiketten in den Testdokumenten. Beispiel | Tatsächliches Etikett | Vorhergesagtes Label | Genau/Falsch | | --- | --- | --- | | 1 | 1 | Genau | | 0 | 1 | Falsch | | 2 | 3 | Falsch | | 3 | 3 | Genau | | 2 | 2 | Genau | | 1 | 1 | Genau | | 3 | 3 | Genau | Die Genauigkeit besteht aus der Anzahl der genauen Vorhersagen geteilt durch die Anzahl der gesamten Teststichproben = 5/7 = 0,714 oder 71,4% ### Präzision (Makro-Präzision) Präzision ist ein Maß für die Nützlichkeit der Klassifikatorergebnisse in den Testdaten. Sie ist definiert als die Anzahl der korrekt klassifizierten Dokumente geteilt durch die Gesamtzahl der Klassifizierungen für die Klasse. Hohe Genauigkeit bedeutet, dass der Klassifikator deutlich relevantere Ergebnisse als irrelevante Ergebnisse lieferte. Die `Precision` Metrik wird auch als *Makrogenauigkeit* bezeichnet. Das folgende Beispiel zeigt Präzisionsergebnisse für einen Testsatz. | Label (Bezeichnung) | Größe der Stichprobe | Präzision des Etiketts | | --- | --- | --- | | Label\$11 | 400 | 0.75 | | Bezeichnung\$12 | 300 | 0,80 | | Bezeichnung\$13 | 30000 | 0.90 | | Bezeichnung\$14 | 20 | 0.50 | | Bezeichnung\$15 | 10 | 0,40 | Die Messgröße Precision (Macro Precision) für das Modell lautet daher: ``` Macro Precision = (0.75 + 0.80 + 0.90 + 0.50 + 0.40)/5 = 0.67 ``` ### Rückruf (Makrorückruf) Dies gibt den Prozentsatz der richtigen Kategorien in Ihrem Text an, den das Modell vorhersagen kann. Diese Kennzahl ergibt sich aus der Mittelung der Erinnerungswerte aller verfügbaren Labels. Der Rückruf ist ein Maß dafür, wie vollständig die Klassifizierungsergebnisse für die Testdaten sind. Ein hoher Erinnerungswert bedeutet, dass der Klassifikator die meisten relevanten Ergebnisse zurückgegeben hat. Die `Recall` Metrik wird auch als *Macro Recall* bezeichnet. Das folgende Beispiel zeigt die Rückrufergebnisse für einen Testsatz. | Label (Bezeichnung) | Größe der Stichprobe | Rückruf des Etiketts | | --- | --- | --- | | Label\$11 | 400 | 0,70 | | Etikett \$12 | 300 | 0,70 | | Bezeichnung\$13 | 30000 | 0,98 | | Bezeichnung\$14 | 20 | 0,80 | | Bezeichnung\$15 | 10 | 0.10 | Die Recall-Metrik (Macro Recall) für das Modell lautet daher: ``` Macro Recall = (0.70 + 0.70 + 0.98 + 0.80 + 0.10)/5 = 0.656 ``` ### F1-Score (Makro-F1-Score) Der F1-Score wird aus den `Recall` Werten `Precision` und abgeleitet. Es misst die Gesamtgenauigkeit des Klassifikators. Die höchste Punktzahl ist 1 und die niedrigste Punktzahl ist 0. Amazon Comprehend berechnet den *Macro* F1 Score. Es ist der ungewichtete Durchschnitt der Label-F1-Scores. Verwenden Sie den folgenden Testsatz als Beispiel: | Label (Bezeichnung) | Größe der Stichprobe | Etikett: F1-Punktzahl | | --- | --- | --- | | Bezeichnung\$11 | 400 | 0,724 | | Etikett \$12 | 300 | 0,824 | | Aufkleber\$13 | 30000 | 0,94 | | Bezeichnung\$14 | 20 | 0,62 | | Bezeichnung\$15 | 10 | 0,16 | Der F1-Score (Macro F1 Score) für das Modell wird wie folgt berechnet: ``` Macro F1 Score = (0.724 + 0.824 + 0.94 + 0.62 + 0.16)/5 = 0.6536 ``` ### Hamming-Verlust Der Anteil der Labels, die falsch vorhergesagt wurden. Wird auch als Anteil falscher Labels im Vergleich zur Gesamtzahl der Labels angesehen. Werte, die näher an Null liegen, sind besser. ### Mikro-Präzision Original: Ähnlich der Präzisionsmetrik, mit der Ausnahme, dass die Mikrogenauigkeit auf der Gesamtpunktzahl aller Präzisionswerte zusammengenommen basiert. ### Mikro-Recall Ähnlich wie bei der Recall-Metrik, mit der Ausnahme, dass der Mikro-Recall auf der Gesamtpunktzahl aller zusammengefassten Erinnerungswerte basiert. ### Mikro-F1-Score Der Micro F1-Score ist eine Kombination aus den Kennzahlen Micro Precision und Micro Recall. ## Verbesserung der Leistung Ihres benutzerdefinierten Klassifikators Die Metriken geben Aufschluss darüber, wie Ihr benutzerdefinierter Klassifikator während eines Klassifizierungsjobs abschneidet. Wenn die Metriken niedrig sind, ist das Klassifizierungsmodell für Ihren Anwendungsfall möglicherweise nicht effektiv. Sie haben mehrere Möglichkeiten, die Leistung Ihres Klassifikators zu verbessern: 1. Geben Sie in Ihren Trainingsdaten konkrete Beispiele an, die eine klare Trennung der Kategorien definieren. Stellen Sie beispielsweise Dokumente bereit, in denen die words/sentences Kategorie eindeutig dargestellt wird. 1. Füge weitere Daten für unterrepräsentierte Labels in deinen Trainingsdaten hinzu. 1. Versuche, die Verzerrung in den Kategorien zu reduzieren. Wenn das größte Etikett in Ihren Daten mehr als das Zehnfache der Dokumente im kleinsten Etikett enthält, versuchen Sie, die Anzahl der Dokumente für das kleinste Etikett zu erhöhen. Achten Sie darauf, das Schrägverhältnis zwischen den am stärksten repräsentierten und den am wenigsten repräsentierten Klassen auf höchstens 10:1 zu reduzieren. Sie können auch versuchen, Eingabedokumente aus den am stärksten vertretenen Klassen zu entfernen.