

Die vorliegende Übersetzung wurde maschinell erstellt. Im Falle eines Konflikts oder eines Widerspruchs zwischen dieser übersetzten Fassung und der englischen Fassung (einschließlich infolge von Verzögerungen bei der Übersetzung) ist die englische Fassung maßgeblich.

# Benutzerdefinierte Klassifizierung
<a name="how-document-classification"></a>

Verwenden Sie die *benutzerdefinierte Klassifizierung*, um Ihre Dokumente in von Ihnen definierte Kategorien (Klassen) zu organisieren. Die benutzerdefinierte Klassifizierung ist ein zweistufiger Prozess. Zunächst trainieren Sie ein benutzerdefiniertes Klassifizierungsmodell (auch Klassifikator genannt), um die Klassen zu erkennen, die für Sie von Interesse sind. Anschließend verwenden Sie Ihr Modell, um eine beliebige Anzahl von Dokumentensätzen zu klassifizieren.

Sie können beispielsweise den Inhalt von Supportanfragen kategorisieren, sodass Sie die Anfrage an das richtige Support-Team weiterleiten können. Oder Sie können E-Mails, die Sie von Kunden erhalten haben, kategorisieren, um je nach Art der Kundenanfrage Hinweise zu geben. Sie können Amazon Comprehend mit Amazon Transcribe kombinieren, um Sprache in Text umzuwandeln und dann die Anfragen zu klassifizieren, die von Support-Telefonanrufen kommen.

Sie können die benutzerdefinierte Klassifizierung für ein einzelnes Dokument synchron (in Echtzeit) ausführen oder einen asynchronen Job starten, um eine Reihe von Dokumenten zu klassifizieren. Sie können mehrere benutzerdefinierte Klassifikatoren in Ihrem Konto haben, die jeweils mit unterschiedlichen Daten trainiert wurden. Die benutzerdefinierte Klassifizierung unterstützt eine Vielzahl von Eingabedokumenttypen wie Klartext, PDF, Word und Bilder.

Wenn Sie einen Klassifizierungsauftrag einreichen, wählen Sie das zu verwendende Klassifizierungsmodell auf der Grundlage der Art der zu analysierenden Dokumente aus. Um beispielsweise Klartextdokumente zu analysieren, erzielen Sie die genauesten Ergebnisse, wenn Sie ein Modell verwenden, das Sie mit Klartextdokumenten trainiert haben. Um halbstrukturierte Dokumente (wie PDF, Word, Bilder, Amazon Textract Textract-Ausgabe oder gescannte Dateien) zu analysieren, erzielen Sie die genauesten Ergebnisse, wenn Sie ein Modell verwenden, das Sie mit systemeigenen Dokumenten trainiert haben.

**Topics**
+ [Vorbereitung der Trainingsdaten für Klassifikatoren](prep-classifier-data.md)
+ [Modelle zur Trainingsklassifizierung](training-classifier-model.md)
+ [Analyse in Echtzeit ausführen](running-class-sync.md)
+ [Asynchrone Jobs ausführen](running-classifiers.md)

# Vorbereitung der Trainingsdaten für Klassifikatoren
<a name="prep-classifier-data"></a>

Für die benutzerdefinierte Klassifizierung trainieren Sie das Modell entweder im Mehrklassenmodus oder im Modus mit mehreren Bezeichnungen. Der Mehrklassenmodus ordnet jedem Dokument eine einzelne Klasse zu. Der Modus mit mehreren Bezeichnungen ordnet jedem Dokument eine oder mehrere Klassen zu. Die Eingabedateiformate sind für jeden Modus unterschiedlich. Wählen Sie daher den zu verwendenden Modus aus, bevor Sie die Trainingsdaten erstellen. 

**Anmerkung**  
Die Amazon Comprehend Comprehend-Konsole bezeichnet den Mehrklassenmodus als Single-Label-Modus.

Die benutzerdefinierte Klassifizierung unterstützt Modelle, die Sie mit Klartextdokumenten trainieren, und Modelle, die Sie mit systemeigenen Dokumenten (wie PDF, Word oder Bildern) trainieren. Weitere Informationen zu Klassifikatormodellen und den unterstützten Dokumenttypen finden Sie unter. [Modelle zur Trainingsklassifizierung](training-classifier-model.md)

So bereiten Sie Daten für das Training eines benutzerdefinierten Klassifikatormodells vor: 

1. Identifizieren Sie die Klassen, die dieser Klassifikator analysieren soll. Entscheiden Sie, welcher Modus verwendet werden soll (mehrere Klassen oder mehrere Beschriftungen).

1. Entscheiden Sie sich für den Modelltyp des Klassifikators, je nachdem, ob das Modell für die Analyse von Klartextdokumenten oder halbstrukturierten Dokumenten bestimmt ist. 

1. Sammeln Sie Beispiele für Dokumente für jede der Klassen. Informationen zu den Mindestanforderungen an die Schulung finden Sie unter[Allgemeine Kontingente für die Klassifizierung von Dokumenten](guidelines-and-limits.md#limits-class-general).

1. Wählen Sie für ein Nur-Text-Modell das zu verwendende Trainingsdateiformat (CSV-Datei oder erweiterte Manifestdatei). Um ein systemeigenes Dokumentmodell zu trainieren, verwenden Sie immer eine CSV-Datei. 

**Topics**
+ [Formate der Classifier-Trainingsdateien](prep-class-data-format.md)
+ [Mehrklassenmodus](prep-classifier-data-multi-class.md)
+ [Modus mit mehreren Bezeichnungen](prep-classifier-data-multi-label.md)

# Formate der Classifier-Trainingsdateien
<a name="prep-class-data-format"></a>

Für ein Klartextmodell können Sie Classifier-Trainingsdaten als CSV-Datei oder als erweiterte Manifestdatei bereitstellen, die Sie mit SageMaker AI Ground Truth erstellen. Die CSV-Datei oder erweiterte Manifestdatei enthält den Text für jedes Schulungsdokument und die zugehörigen Bezeichnungen.

Für ein systemeigenes Dokumentenmodell stellen Sie Classifier-Trainingsdaten als CSV-Datei bereit. Die CSV-Datei enthält den Dateinamen für jedes Schulungsdokument und die zugehörigen Labels. Sie fügen die Schulungsdokumente in den Amazon S3 S3-Eingabeordner für den Schulungsjob ein.

## CSV-Dateien
<a name="prep-data-csv"></a>

Sie stellen beschriftete Trainingsdaten als UTF-8-codierten Text in einer CSV-Datei bereit. Fügen Sie keine Kopfzeile hinzu. Das Hinzufügen einer Kopfzeile zu Ihrer Datei kann zu Laufzeitfehlern führen.

Für jede Zeile in der CSV-Datei enthält die erste Spalte eine oder mehrere Klassenbezeichnungen. Eine Klassenbezeichnung kann eine beliebige gültige UTF-8-Zeichenfolge sein. Wir empfehlen, klare Klassennamen zu verwenden, deren Bedeutung sich nicht überschneidet. Der Name kann Leerzeichen enthalten und aus mehreren Wörtern bestehen, die durch Unterstriche oder Bindestriche miteinander verbunden sind.

Lassen Sie vor oder nach den Kommas, die die Werte in einer Zeile trennen, keine Leerzeichen stehen. 

Der genaue Inhalt der CSV-Datei hängt vom Klassifikatormodus und der Art der Trainingsdaten ab. Einzelheiten finden Sie in den Abschnitten zu [Mehrklassenmodus](prep-classifier-data-multi-class.md) und[Modus mit mehreren Bezeichnungen](prep-classifier-data-multi-label.md).

## Erweiterte Manifestdatei
<a name="prep-data-annotations"></a>

Eine erweiterte Manifestdatei ist ein beschrifteter Datensatz, den Sie mit SageMaker AI Ground Truth erstellen. Ground Truth ist ein Datenkennzeichnungsdienst, der Ihnen — oder einer von Ihnen beschäftigten Belegschaft — dabei hilft, Trainingsdatensätze für Modelle des maschinellen Lernens zu erstellen. 

Weitere Informationen zu Ground Truth und den damit erzeugten Ergebnissen finden Sie unter [Use SageMaker AI Ground Truth to Label Data](https://docs.aws.amazon.com/sagemaker/latest/dg/sms.html) im *Amazon SageMaker AI Developer Guide*.

Erweiterte Manifestdateien sind im JSON-Zeilenformat. In diesen Dateien ist jede Zeile ein vollständiges JSON-Objekt, das ein Schulungsdokument und die zugehörigen Beschriftungen enthält. Der genaue Inhalt jeder Zeile hängt vom Klassifikatormodus ab. Einzelheiten finden Sie in den Abschnitten zu [Mehrklassenmodus](prep-classifier-data-multi-class.md) und[Modus mit mehreren Bezeichnungen](prep-classifier-data-multi-label.md).

Wenn Sie Amazon Comprehend Ihre Trainingsdaten zur Verfügung stellen, geben Sie einen oder mehrere Namen für Labelattribute an. Wie viele Attributnamen Sie angeben, hängt davon ab, ob Ihre erweiterte Manifestdatei das Ergebnis eines einzelnen Label-Jobs oder eines verketteten Labeling-Jobs ist.

Wenn Ihre Datei das Ergebnis eines einzelnen Label-Jobs ist, geben Sie den Namen des einzelnen Label-Attributs aus dem Ground Truth Job an. 

Wenn Ihre Datei das Ergebnis eines verketteten Beschriftungsauftrags ist, geben Sie den Namen des Labelattributs für einen oder mehrere Jobs in der Kette an. Jeder Name eines Labelattributs enthält die Anmerkungen zu einem einzelnen Auftrag. Sie können bis zu 5 dieser Attribute für erweiterte Manifestdateien aus verketteten Labeling-Jobs angeben. 

Weitere Informationen zu verketteten Labeling-Jobs und Beispiele für das Ergebnis, das sie produzieren, finden Sie unter [Chaining Labeling-Jobs](https://docs.aws.amazon.com/sagemaker/latest/dg/sms-reusing-data.html) im Amazon SageMaker AI Developer Guide.

# Mehrklassenmodus
<a name="prep-classifier-data-multi-class"></a>

Im Mehrklassenmodus weist die Klassifizierung jedem Dokument eine Klasse zu. Die einzelnen Klassen schließen sich gegenseitig aus. Sie können beispielsweise einen Film als Komödie oder Science-Fiction klassifizieren, aber nicht als beides. 

**Anmerkung**  
Die Amazon Comprehend Comprehend-Konsole bezeichnet den Mehrklassenmodus als Single-Label-Modus.

**Topics**
+ [Modelle im Klartext-Format](#prep-multi-class-plaintext)
+ [Systemeigene Dokumentenmodelle](#prep-multi-class-structured)

## Modelle im Klartext-Format
<a name="prep-multi-class-plaintext"></a>

Um ein Klartextmodell zu trainieren, können Sie beschriftete Trainingsdaten als CSV-Datei oder als erweiterte Manifestdatei von SageMaker AI Ground Truth bereitstellen.

### CSV-Datei
<a name="prep-multi-class-plaintext-csv"></a>

Allgemeine Informationen zur Verwendung von CSV-Dateien zum Trainieren von Klassifikatoren finden Sie unter. [CSV-Dateien](prep-class-data-format.md#prep-data-csv)

Stellen Sie die Trainingsdaten als zweispaltige CSV-Datei bereit. Für jede Zeile enthält die erste Spalte den Klassenbeschriftungswert. Die zweite Spalte enthält ein Beispiel-Textdokument für diese Klasse. Jede Zeile muss mit den Zeichen\$1noder\$1 r\$1nenden.

Das folgende Beispiel zeigt eine CSV-Datei mit drei Dokumenten.

```
CLASS,Text of document 1
CLASS,Text of document 2
CLASS,Text of document 3
```

Das folgende Beispiel zeigt eine Zeile einer CSV-Datei, die einen benutzerdefinierten Klassifikator dahingehend trainiert, zu erkennen, ob es sich bei einer E-Mail-Nachricht um Spam handelt:

```
SPAM,"Paulo, your $1000 award is waiting for you! Claim it while you still can at http://example.com."
```

### Erweiterte Manifestdatei
<a name="prep-multi-class-plaintext-manifest"></a>

Allgemeine Hinweise zur Verwendung erweiterter Manifestdateien für das Training von Klassifikatoren finden Sie unter[Erweiterte Manifestdatei](prep-class-data-format.md#prep-data-annotations).

Bei Klartextdokumenten ist jede Zeile der erweiterten Manifestdatei ein vollständiges JSON-Objekt, das ein Trainingsdokument, einen einzelnen Klassennamen und andere Metadaten von Ground Truth enthält. Das folgende Beispiel zeigt eine erweiterte Manifestdatei zum Trainieren eines benutzerdefinierten Klassifikators zur Erkennung von Spam-E-Mail-Nachrichten:

```
{"source":"Document 1 text", "MultiClassJob":0, "MultiClassJob-metadata":{"confidence":0.62, "job-name":"labeling-job/multiclassjob", "class-name":"not_spam", "human-annotated":"yes", "creation-date":"2020-05-21T17:36:45.814354", "type":"groundtruth/text-classification"}}
{"source":"Document 2 text", "MultiClassJob":1, "MultiClassJob-metadata":{"confidence":0.81, "job-name":"labeling-job/multiclassjob", "class-name":"spam", "human-annotated":"yes", "creation-date":"2020-05-21T17:37:51.970530", "type":"groundtruth/text-classification"}}
{"source":"Document 3 text", "MultiClassJob":1, "MultiClassJob-metadata":{"confidence":0.81, "job-name":"labeling-job/multiclassjob", "class-name":"spam", "human-annotated":"yes", "creation-date":"2020-05-21T17:37:51.970566", "type":"groundtruth/text-classification"}}
```

 Das folgende Beispiel zeigt ein JSON-Objekt aus der erweiterten Manifestdatei, das aus Gründen der Lesbarkeit formatiert ist: 

```
{
   "source": "Paulo, your $1000 award is waiting for you! Claim it while you still can at http://example.com.",
   "MultiClassJob": 0,
   "MultiClassJob-metadata": {
       "confidence": 0.98,
       "job-name": "labeling-job/multiclassjob",
       "class-name": "spam",
       "human-annotated": "yes",
       "creation-date": "2020-05-21T17:36:45.814354",
       "type": "groundtruth/text-classification"
   }
}
```

In diesem Beispiel stellt das `source` Attribut den Text des Schulungsdokuments bereit, und das `MultiClassJob` Attribut weist den Index einer Klasse aus einer Klassifikationsliste zu. Das `job-name` Attribut ist der Name, den Sie für den Labeling-Job in Ground Truth definiert haben. 

 Wenn Sie den Classifier-Trainingsjob in Amazon Comprehend starten, geben Sie denselben Namen für den Labeling-Job an. 

## Systemeigene Dokumentenmodelle
<a name="prep-multi-class-structured"></a>

Ein systemeigenes Dokumentmodell ist ein Modell, das Sie mit systemeigenen Dokumenten (wie PDF, DOCX und Bildern) trainieren. Sie stellen die Trainingsdaten als CSV-Datei bereit.

### CSV-Datei
<a name="prep-multi-class-structured-csv"></a>

Allgemeine Informationen zur Verwendung von CSV-Dateien für Trainingsklassifikatoren finden Sie unter[CSV-Dateien](prep-class-data-format.md#prep-data-csv).

Stellen Sie die Trainingsdaten als dreispaltige CSV-Datei bereit. Für jede Zeile enthält die erste Spalte den Klassenbeschriftungswert. Die zweite Spalte enthält den Dateinamen eines Beispieldokuments für diese Klasse. Die dritte Spalte enthält die Seitenzahl. Die Seitenzahl ist optional, wenn es sich bei dem Beispieldokument um ein Bild handelt.

Das folgende Beispiel zeigt eine CSV-Datei, die auf drei Eingabedokumente verweist. 

```
CLASS,input-doc-1.pdf,3
CLASS,input-doc-2.docx,1
CLASS,input-doc-3.png
```

Das folgende Beispiel zeigt eine Zeile einer CSV-Datei, die einen benutzerdefinierten Klassifikator trainiert, um zu erkennen, ob es sich bei einer E-Mail-Nachricht um Spam handelt. Seite 2 der PDF-Datei enthält das Spam-Beispiel. 

```
SPAM,email-content-3.pdf,2
```

# Modus mit mehreren Bezeichnungen
<a name="prep-classifier-data-multi-label"></a>

Im Modus mit mehreren Bezeichnungen stehen einzelne Klassen für unterschiedliche Kategorien, die sich nicht gegenseitig ausschließen. Bei der Klassifizierung mit mehreren Bezeichnungen werden jedem Dokument eine oder mehrere Klassen zugewiesen. Sie können beispielsweise einen Film als Dokumentarfilm und einen anderen als Science-Fiction, Action und Comedy klassifizieren. 

Zu Schulungszwecken unterstützt der Multi-Label-Modus bis zu 1 Million Beispiele mit bis zu 100 eindeutigen Klassen.

**Topics**
+ [Modelle im Klartext-Format](#prep-multi-label-plaintext)
+ [Systemeigene Dokumentenmodelle](#prep-multi-label-structured)

## Modelle im Klartext-Format
<a name="prep-multi-label-plaintext"></a>

Um ein Klartextmodell zu trainieren, können Sie beschriftete Trainingsdaten als CSV-Datei oder als erweiterte Manifestdatei von SageMaker AI Ground Truth bereitstellen.

### CSV-Datei
<a name="prep-multi-label-plaintext-csv"></a>

Allgemeine Informationen zur Verwendung von CSV-Dateien zum Trainieren von Klassifikatoren finden Sie unter. [CSV-Dateien](prep-class-data-format.md#prep-data-csv)

Stellen Sie die Trainingsdaten als zweispaltige CSV-Datei bereit. Für jede Zeile enthält die erste Spalte die Klassenbeschriftungswerte und die zweite Spalte ein Beispieltextdokument für diese Klassen. Um mehr als eine Klasse in die erste Spalte einzugeben, verwenden Sie ein Trennzeichen (z. B. ein \$1) zwischen den einzelnen Klassen.

```
CLASS,Text of document 1
CLASS,Text of document 2
CLASS|CLASS|CLASS,Text of document 3
```

Das folgende Beispiel zeigt eine Zeile einer CSV-Datei, die einen benutzerdefinierten Klassifikator trainiert, um Genres in Filmzusammenfassungen zu erkennen:

```
COMEDY|MYSTERY|SCIENCE_FICTION|TEEN,"A band of misfit teens become unlikely detectives when they discover troubling clues about their high school English teacher. Could the strange Mrs. Doe be an alien from outer space?"
```

Das Standardtrennzeichen zwischen Klassennamen ist ein senkrechter Strich (\$1). Sie können jedoch ein anderes Zeichen als Trennzeichen verwenden. Das Trennzeichen muss sich von allen Zeichen in Ihren Klassennamen unterscheiden. Wenn Ihre Klassen beispielsweise CLASS\$11, CLASS\$12 und CLASS\$13 sind, ist der Unterstrich (**\$1**) Teil des Klassennamens. Verwenden Sie also keinen Unterstrich als Trennzeichen für die Trennung von Klassennamen.

### Erweiterte Manifestdatei
<a name="prep-multi-label-plaintext-manifest"></a>

Allgemeine Hinweise zur Verwendung erweiterter Manifestdateien für das Training von Klassifikatoren finden Sie unter[Erweiterte Manifestdatei](prep-class-data-format.md#prep-data-annotations).

Bei Klartextdokumenten ist jede Zeile der erweiterten Manifestdatei ein vollständiges JSON-Objekt. Es enthält ein Schulungsdokument, Klassennamen und andere Metadaten von Ground Truth. Das folgende Beispiel ist eine erweiterte Manifestdatei, mit der ein benutzerdefinierter Klassifikator trainiert wird, um Genres in Filmzusammenfassungen zu erkennen:

```
{"source":"Document 1 text", "MultiLabelJob":[0,4], "MultiLabelJob-metadata":{"job-name":"labeling-job/multilabeljob", "class-map":{"0":"action", "4":"drama"}, "human-annotated":"yes", "creation-date":"2020-05-21T19:02:21.521882", "confidence-map":{"0":0.66}, "type":"groundtruth/text-classification-multilabel"}}
{"source":"Document 2 text", "MultiLabelJob":[3,6], "MultiLabelJob-metadata":{"job-name":"labeling-job/multilabeljob", "class-map":{"3":"comedy", "6":"horror"}, "human-annotated":"yes", "creation-date":"2020-05-21T19:00:01.291202", "confidence-map":{"1":0.61,"0":0.61}, "type":"groundtruth/text-classification-multilabel"}}
{"source":"Document 3 text", "MultiLabelJob":[1], "MultiLabelJob-metadata":{"job-name":"labeling-job/multilabeljob", "class-map":{"1":"action"}, "human-annotated":"yes", "creation-date":"2020-05-21T18:58:51.662050", "confidence-map":{"1":0.68}, "type":"groundtruth/text-classification-multilabel"}}
```

 Das folgende Beispiel zeigt ein JSON-Objekt aus der erweiterten Manifestdatei, das aus Gründen der Lesbarkeit formatiert ist: 

```
{
      "source": "A band of misfit teens become unlikely detectives when 
                   they discover troubling clues about their high school English teacher. 
                     Could the strange Mrs. Doe be an alien from outer space?",
      "MultiLabelJob": [
          3,
          8,
          10,
          11
      ],
      "MultiLabelJob-metadata": {
          "job-name": "labeling-job/multilabeljob",
          "class-map": {
              "3": "comedy",
              "8": "mystery",
              "10": "science_fiction",
              "11": "teen"
          },
          "human-annotated": "yes",
          "creation-date": "2020-05-21T19:00:01.291202",
          "confidence-map": {
              "3": 0.95,
              "8": 0.77,
              "10": 0.83,
              "11": 0.92
          },
          "type": "groundtruth/text-classification-multilabel"
      }
  }
```

In diesem Beispiel stellt das `source` Attribut den Text des Schulungsdokuments bereit, und das `MultiLabelJob` Attribut weist die Indizes mehrerer Klassen aus einer Klassifikationsliste zu. Der Jobname in den `MultiLabelJob` Metadaten ist der Name, den Sie für den Labeling-Job in Ground Truth definiert haben. 

## Systemeigene Dokumentenmodelle
<a name="prep-multi-label-structured"></a>

Ein systemeigenes Dokumentmodell ist ein Modell, das Sie mit systemeigenen Dokumenten (wie PDF-, DOCX- und Bilddateien) trainieren. Sie stellen beschriftete Trainingsdaten als CSV-Datei bereit.

### CSV-Datei
<a name="prep-multi-label-structured-csv"></a>

Allgemeine Informationen zur Verwendung von CSV-Dateien für Trainingsklassifikatoren finden Sie unter[CSV-Dateien](prep-class-data-format.md#prep-data-csv).

Stellen Sie die Trainingsdaten als dreispaltige CSV-Datei bereit. Für jede Zeile enthält die erste Spalte die Klassenbeschriftungswerte. Die zweite Spalte enthält den Dateinamen eines Beispieldokuments für diese Klassen. Die dritte Spalte enthält die Seitenzahl. Die Seitenzahl ist optional, wenn es sich bei dem Beispieldokument um ein Bild handelt.

Um mehr als eine Klasse in die erste Spalte einzugeben, verwenden Sie ein Trennzeichen (z. B. ein \$1) zwischen den einzelnen Klassen.

```
CLASS,input-doc-1.pdf,3
CLASS,input-doc-2.docx,1
CLASS|CLASS|CLASS,input-doc-3.png,2
```

Das folgende Beispiel zeigt eine Zeile einer CSV-Datei, die einen benutzerdefinierten Klassifikator trainiert, um Genres in Filmzusammenfassungen zu erkennen. Seite 2 der PDF-Datei enthält das Beispiel eines comedy/teen Films.

```
COMEDY|TEEN,movie-summary-1.pdf,2
```

Das Standardtrennzeichen zwischen Klassennamen ist ein senkrechter Strich (\$1). Sie können jedoch ein anderes Zeichen als Trennzeichen verwenden. Das Trennzeichen muss sich von allen Zeichen in Ihren Klassennamen unterscheiden. Wenn Ihre Klassen beispielsweise CLASS\$11, CLASS\$12 und CLASS\$13 sind, ist der Unterstrich (**\$1**) Teil des Klassennamens. Verwenden Sie also keinen Unterstrich als Trennzeichen für die Trennung von Klassennamen.

# Modelle zur Trainingsklassifizierung
<a name="training-classifier-model"></a>

Um ein Modell für die benutzerdefinierte Klassifizierung zu trainieren, definieren Sie die Kategorien und stellen Beispieldokumente bereit, um das benutzerdefinierte Modell zu trainieren. Sie trainieren das Modell entweder im Modus mit mehreren Klassen oder im Modus mit mehreren Bezeichnungen. Im Mehrklassenmodus wird jedem Dokument eine einzelne Klasse zugeordnet. Der Modus mit mehreren Bezeichnungen ordnet jedem Dokument eine oder mehrere Klassen zu.

Die benutzerdefinierte Klassifizierung unterstützt zwei Arten von Klassifizierungsmodellen: Klartextmodelle und native Dokumentenmodelle. Ein Nur-Text-Modell klassifiziert Dokumente anhand ihres Textinhalts. Ein systemeigenes Dokumentenmodell klassifiziert Dokumente auch auf der Grundlage von Textinhalten. Ein systemeigenes Dokumentenmodell kann auch zusätzliche Signale verwenden, z. B. aus dem Layout des Dokuments. Sie trainieren ein systemeigenes Dokumentmodell mit systemeigenen Dokumenten, damit das Modell die Layoutinformationen lernt. 

Klartextmodelle weisen die folgenden Eigenschaften auf: 
+ Sie trainieren das Modell mit UTF-8-codierten Textdokumenten. 
+ Sie können das Modell anhand von Dokumenten in einer der folgenden Sprachen trainieren: Englisch, Spanisch, Deutsch, Italienisch, Französisch oder Portugiesisch. 
+ Die Schulungsdokumente für einen bestimmten Klassifikator müssen alle dieselbe Sprache verwenden. 
+ Die Schulungsdokumente sind Klartext, sodass für die Textextraktion keine zusätzlichen Gebühren anfallen. 

Systemeigene Dokumentenmodelle weisen die folgenden Eigenschaften auf: 
+ Sie trainieren das Modell mithilfe halbstrukturierter Dokumente, zu denen die folgenden Dokumenttypen gehören:
  + Digitale und gescannte PDF-Dokumente.
  + Word-Dokumente (DOCX).
  + Bilder: JPG-Dateien, PNG-Dateien und einseitige TIFF-Dateien.
  + Textract-API-Ausgabe von JSON-Dateien.
+ Sie trainieren das Modell anhand englischer Dokumente. 
+ Wenn Ihre Schulungsunterlagen gescannte Dokumentdateien enthalten, fallen zusätzliche Gebühren für die Textextraktion an. Weitere Informationen finden Sie auf der Seite [Amazon Comprehend Pricing](https://aws.amazon.com/comprehend/pricing). 

Sie können jeden der unterstützten Dokumenttypen anhand eines der beiden Modelltypen klassifizieren. Für genaueste Ergebnisse empfehlen wir jedoch, ein Klartextmodell zur Klassifizierung von Klartextdokumenten und ein systemeigenes Dokumentmodell zur Klassifizierung halbstrukturierter Dokumente zu verwenden.

**Topics**
+ [Trainieren Sie benutzerdefinierte Klassifikatoren (Konsole)](create-custom-classifier-console.md)
+ [Trainieren Sie benutzerdefinierte Klassifikatoren (API)](train-custom-classifier-api.md)
+ [Testen Sie die Trainingsdaten](testing-the-model.md)
+ [Klassifizieren Sie die Trainingsleistung](train-classifier-output.md)
+ [Benutzerdefinierte Klassifikator-Metriken](cer-doc-class.md)

# Trainieren Sie benutzerdefinierte Klassifikatoren (Konsole)
<a name="create-custom-classifier-console"></a>

Sie können mithilfe der Konsole einen benutzerdefinierten Klassifikator erstellen und trainieren und dann den benutzerdefinierten Klassifikator verwenden, um Ihre Dokumente zu analysieren.

Um einen benutzerdefinierten Klassifikator zu trainieren, benötigen Sie eine Reihe von Schulungsdokumenten. Sie kennzeichnen diese Dokumente mit den Kategorien, die der Dokumentenklassifizierer erkennen soll. Informationen zur Vorbereitung Ihrer Schulungsdokumente finden Sie unter[Vorbereitung der Trainingsdaten für Klassifikatoren](prep-classifier-data.md).



**So erstellen und trainieren Sie ein Klassifizierungsmodell für Dokumente**

1. Melden Sie sich bei der Amazon Comprehend Comprehend-Konsole an AWS-Managementkonsole und öffnen Sie sie unter [https://console.aws.amazon.com/comprehend/](https://console.aws.amazon.com/comprehend/)

1. Wählen Sie im linken Menü **Anpassung** und dann **Benutzerdefinierte** Klassifizierung aus.

1. Wählen Sie **Neues Modell erstellen** aus.

1. Geben Sie unter **Modelleinstellungen** einen Modellnamen für den Klassifikator ein. Der Name muss innerhalb Ihres Kontos und Ihrer aktuellen Region eindeutig sein.

   (Optional) Geben Sie einen Versionsnamen ein. Der Name muss innerhalb Ihres Kontos und Ihrer aktuellen Region eindeutig sein.

1. Wählen Sie die Sprache der Schulungsunterlagen aus. Informationen zu den Sprachen, die von Klassifikatoren unterstützt werden, finden Sie unter[Modelle zur Trainingsklassifizierung](training-classifier-model.md). 

1. **(Optional) Wenn Sie die Daten auf dem Speichervolume verschlüsseln möchten, während Amazon Comprehend Ihren Trainingsjob verarbeitet, wählen Sie Classifier-Verschlüsselung.** Wählen Sie dann aus, ob Sie einen KMS-Schlüssel verwenden möchten, der mit Ihrem aktuellen Konto verknüpft ist, oder einen von einem anderen Konto.
   + Wenn Sie einen Schlüssel verwenden, der dem aktuellen Konto zugeordnet ist, wählen Sie die Schlüssel-ID für die **KMS-Schlüssel-ID**.
   + Wenn Sie einen Schlüssel verwenden, der einem anderen Konto zugeordnet ist, geben Sie den ARN für die Schlüssel-ID unter **KMS-Schlüssel-ARN** ein.
**Anmerkung**  
Weitere Informationen zur Erstellung und Verwendung von KMS-Schlüsseln und der zugehörigen Verschlüsselung finden Sie unter [AWS Key Management Service (AWS KMS)](https://docs.aws.amazon.com/kms/latest/developerguide/overview.html).

1. Wählen Sie unter **Datenspezifikationen** den zu **verwendenden Trainingsmodelltyp** aus.
   + **Nur-Text-Dokumente:** Wählen Sie diese Option, um ein Nur-Text-Modell zu erstellen. Trainieren Sie das Modell mit Klartext-Dokumenten.
   + **Systemeigene Dokumente:** Wählen Sie diese Option, um ein systemeigenes Dokumentmodell zu erstellen. Trainieren Sie das Modell mit systemeigenen Dokumenten (PDF, Word, Bilder). 

1. Wählen Sie das **Datenformat** Ihrer Trainingsdaten. Informationen zu den Datenformaten finden Sie unter[Formate der Classifier-Trainingsdateien](prep-class-data-format.md).
   + **CSV-Datei:** Wählen Sie diese Option, wenn Ihre Trainingsdaten das CSV-Dateiformat verwenden.
   + **Erweitertes Manifest:** Wählen Sie diese Option, wenn Sie Ground Truth verwendet haben, um erweiterte Manifestdateien für Ihre Trainingsdaten zu erstellen. Dieses Format ist verfügbar, wenn Sie **Nur-Text-Dokumente** als Trainingsmodelltyp ausgewählt haben.

1. Wählen Sie den zu **verwendenden Klassifizierermodus** aus.
   + **Einzellabelmodus:** Wählen Sie diesen Modus, wenn sich die Kategorien, die Sie Dokumenten zuweisen, gegenseitig ausschließen und Sie Ihren Klassifizierer darauf trainieren, jedem Dokument ein Etikett zuzuweisen. In der Amazon Comprehend API wird der Single-Label-Modus als Mehrklassenmodus bezeichnet.
   + **Multi-Label-Modus:** Wählen Sie diesen Modus, wenn mehrere Kategorien gleichzeitig auf ein Dokument angewendet werden können und Sie Ihren Klassifizierer darauf trainieren, jedem Dokument ein oder mehrere Labels zuzuweisen. 

1. Wenn Sie den **Modus „Mehrere Beschriftungen“** wählen, können Sie das **Trennzeichen** für Beschriftungen auswählen. Verwenden Sie dieses Trennzeichen, um Bezeichnungen voneinander zu trennen, wenn es mehrere Klassen für ein Schulungsdokument gibt. Das Standardtrennzeichen ist der senkrechte Strich.

1. (Optional) Wenn Sie **Augmented Manifest** als Datenformat ausgewählt haben, können Sie bis zu fünf Augmented Manifest-Dateien eingeben. Jede erweiterte Manifest-Datei enthält entweder einen Trainingsdatensatz oder einen Testdatensatz. Sie müssen mindestens einen Trainingsdatensatz angeben. Testdatensätze sind optional. Gehen Sie wie folgt vor, um die erweiterten Manifestdateien zu konfigurieren:

   1. Erweitern Sie unter **Trainings- und Testdatensatz** den Bereich **Eingabeposition**.

   1. Wählen Sie unter **Datensatztyp** die Option **Trainingsdaten** oder **Testdaten** aus.

   1. Geben Sie für den **S3-Speicherort der erweiterten Manifestdatei SageMaker AI Ground Truth** den Speicherort des Amazon S3 S3-Buckets ein, der die Manifestdatei enthält, oder navigieren Sie zu diesem, indem Sie **Browse S3** wählen. Die IAM-Rolle, die Sie für die Zugriffsberechtigungen für den Trainingsjob verwenden, muss über Leseberechtigungen für den S3-Bucket verfügen. 

   1. Geben Sie für die **Attributnamen** den Namen des Attributs ein, das Ihre Anmerkungen enthält. Wenn die Datei Anmerkungen aus mehreren verketteten Beschriftungsaufträgen enthält, fügen Sie für jeden Auftrag ein Attribut hinzu.

   1. Um einen weiteren Eingabeort hinzuzufügen, wählen Sie **Eingabeposition hinzufügen und konfigurieren Sie dann den nächsten Speicherort**.

1. (Optional) Wenn Sie die **CSV-Datei** als Datenformat ausgewählt haben, gehen Sie wie folgt vor, um den Trainingsdatensatz und den optionalen Testdatensatz zu konfigurieren:

   1. Geben Sie unter **Trainingsdatensatz** den Speicherort des Amazon S3 S3-Buckets ein, der Ihre CSV-Datei mit Trainingsdaten enthält, oder navigieren Sie zu diesem, indem Sie **Browse S3** wählen. Die IAM-Rolle, die Sie für die Zugriffsberechtigungen für den Trainingsjob verwenden, muss über Leseberechtigungen für den S3-Bucket verfügen. 

      (Optional) Wenn Sie **Native Dokumente** als Trainingsmodelltyp wählen, geben Sie auch die URL des Amazon S3 S3-Ordners an, der die Trainingsbeispieldateien enthält.

   1. Wählen Sie unter **Testdatensatz** aus, ob Sie zusätzliche Daten für Amazon Comprehend bereitstellen, um das trainierte Modell zu testen.
      + **Autosplit**: Autosplit wählt automatisch 10% Ihrer Trainingsdaten aus, um sie für die Verwendung als Testdaten zu reservieren.
      + (Optional) Vom **Kunden bereitgestellt**: Geben Sie die URL der Testdaten-CSV-Datei in Amazon S3 ein. Sie können auch zu seinem Speicherort in Amazon S3 navigieren und **Ordner auswählen** wählen.

        (Optional) Wenn Sie **Native Dokumente** als Trainingsmodelltyp wählen, geben Sie auch die URL des Amazon S3 S3-Ordners an, der die Testdateien enthält.

1. (Optional) **Im Lesemodus für Dokumente** können Sie die standardmäßigen Textextraktionsaktionen überschreiben. Diese Option ist für Klartext-Modelle nicht erforderlich, da sie für die Textextraktion für gescannte Dokumente gilt. Weitere Informationen finden Sie unter [Optionen für die Textextraktion festlegen](idp-set-textract-options.md). 

1. (Optional für Klartextmodelle) Geben Sie unter **Ausgabedaten** den Speicherort eines Amazon S3 S3-Buckets ein, um Trainingsausgabedaten wie die Konfusionsmatrix zu speichern. Weitere Informationen finden Sie unter [Verwechslungsmatrix](train-classifier-output.md#conf-matrix).

   **(Optional) Wenn Sie das Ausgabeergebnis Ihres Trainingsjobs verschlüsseln möchten, wählen Sie Verschlüsselung.** Wählen Sie dann aus, ob Sie einen KMS-Schlüssel verwenden möchten, der mit dem aktuellen Konto verknüpft ist, oder einen von einem anderen Konto.
   + Wenn Sie einen Schlüssel verwenden, der dem aktuellen Konto zugeordnet ist, wählen Sie den Schlüsselalias für die **KMS-Schlüssel-ID**.
   + Wenn Sie einen Schlüssel verwenden, der einem anderen Konto zugeordnet ist, geben Sie den ARN für den Schlüsselalias oder die Schlüssel-ID unter **KMS-Schlüssel-ID** ein.

1. Wählen Sie für die **IAM-Rolle** die Option **Eine bestehende IAM-Rolle auswählen** und wählen Sie dann eine bestehende IAM-Rolle aus, die über Leseberechtigungen für den S3-Bucket verfügt, der Ihre Schulungsdokumente enthält. Die Rolle muss über eine Vertrauensrichtlinie verfügen, die mit 1 beginnt, um gültig `comprehend.amazonaws.com` zu sein.

   Wenn Sie noch keine IAM-Rolle mit diesen Berechtigungen haben, wählen Sie **Create an IAM-Rolle aus, um eine zu erstellen**. Wählen Sie die Zugriffsberechtigungen aus, die Sie dieser Rolle gewähren möchten, und wählen Sie dann ein Namenssuffix, um die Rolle von den IAM-Rollen in Ihrem Konto zu unterscheiden.
**Anmerkung**  
Für verschlüsselte Eingabedokumente muss die verwendete IAM-Rolle ebenfalls über eine entsprechende Berechtigung verfügen. `kms:Decrypt` Weitere Informationen finden Sie unter [Für die Verwendung der KMS-Verschlüsselung sind Berechtigungen erforderlich](security_iam_id-based-policy-examples.md#auth-kms-permissions).

1. (Optional) Um Ihre Ressourcen von einer VPC aus in Amazon Comprehend zu starten, geben Sie die VPC-ID unter **VPC** ein oder wählen Sie die ID aus der Dropdownliste aus. 

   1. **Wählen Sie das Subnetz unter Subnetze (en) aus.** Nachdem Sie das erste Subnetz ausgewählt haben, können Sie weitere auswählen.

   1. Wählen Sie unter **Sicherheitsgruppe (n)** die zu verwendende Sicherheitsgruppe aus, falls Sie eine angegeben haben. Nachdem Sie die erste Sicherheitsgruppe ausgewählt haben, können Sie weitere auswählen.
**Anmerkung**  
Wenn Sie eine VPC mit Ihrem Klassifizierungsjob verwenden, müssen die für die Vorgänge Create und Start `DataAccessRole` verwendeten VPC über Berechtigungen für die VPC verfügen, die auf die Eingabedokumente und den Ausgabe-Bucket zugreift.

1. **(Optional) Um dem benutzerdefinierten Klassifikator ein Tag hinzuzufügen, geben Sie unter Tags ein Schlüssel-Wert-Paar ein.** Wählen Sie **Add tag**. **Um dieses Paar vor der Erstellung des Klassifikators zu entfernen, wählen Sie Tag entfernen aus.** Weitere Informationen finden Sie unter [Markieren von Ressourcen](tagging.md).

1. Wählen Sie **Erstellen** aus.

In der Konsole wird die Seite „**Klassifikatoren**“ angezeigt. Der neue Klassifikator wird in der Tabelle `Submitted` als Status angezeigt. Wenn der Klassifikator mit der Verarbeitung der Schulungsdokumente beginnt, ändert sich der Status in. `Training` Wenn ein Klassifikator einsatzbereit ist, ändert sich der Status in oder. `Trained` `Trained with warnings` Wenn der Status lautet`TRAINED_WITH_WARNINGS`, überprüfen Sie den Ordner mit übersprungenen Dateien im. [Klassifizieren Sie die Trainingsleistung](train-classifier-output.md)

Wenn Amazon Comprehend bei der Erstellung oder Schulung auf Fehler gestoßen ist, ändert sich der Status auf. `In error` Sie können einen Klassifikator-Job in der Tabelle auswählen, um weitere Informationen über den Klassifikator, einschließlich aller Fehlermeldungen, zu erhalten.

![\[Die benutzerdefinierte Klassifiziererliste.\]](http://docs.aws.amazon.com/de_de/comprehend/latest/dg/images/class-list.png)


# Trainieren Sie benutzerdefinierte Klassifikatoren (API)
<a name="train-custom-classifier-api"></a>

Verwenden Sie die [CreateDocumentClassifier](https://docs.aws.amazon.com/comprehend/latest/APIReference/API_CreateDocumentClassifier.html)Operation, um einen benutzerdefinierten Klassifikator zu erstellen und zu trainieren.

Sie können den Fortschritt der Anfrage mithilfe der [DescribeDocumentClassifier](https://docs.aws.amazon.com/comprehend/latest/APIReference/API_DescribeDocumentClassifier.html)Operation überwachen. Nachdem das `Status` Feld zu gewechselt ist`TRAINED`, können Sie den Klassifikator verwenden, um Dokumente zu klassifizieren. Wenn der Status lautet`TRAINED_WITH_WARNINGS`, überprüfen Sie den Ordner mit den übersprungenen Dateien im Ordner [Klassifizieren Sie die Trainingsleistung](train-classifier-output.md) aus dem Vorgang. `CreateDocumentClassifier`

**Topics**
+ [Schulung der benutzerdefinierten Klassifizierung mit dem AWS Command Line Interface](#get-started-api-customclass-cli)
+ [Verwenden des AWS SDK für Java oder SDK für Python](#get-started-api-customclass-java)

## Schulung der benutzerdefinierten Klassifizierung mit dem AWS Command Line Interface
<a name="get-started-api-customclass-cli"></a>

Die folgenden Beispiele zeigen, wie die `CreateDocumentClassifier` Operation, die `DescribeDocumentClassificationJob` Operation und andere benutzerdefinierte Klassifikatoren APIs mit dem AWS CLI verwendet werden. 

Die Beispiele sind für Unix, Linux und macOS formatiert. Ersetzen Sie unter Windows den umgekehrten Schrägstrich (\$1), das Unix-Fortsetzungszeichen, am Ende jeder Zeile durch ein Caret-Zeichen oder Zirkumflex (^).

Erstellen Sie mithilfe der Operation einen benutzerdefinierten Klartext-Klassifikator. `create-document-classifier`

```
aws comprehend create-document-classifier \
     --region region \
     --document-classifier-name testDelete \
     --language-code en \
     --input-data-config S3Uri=s3://S3Bucket/docclass/file name \
     --data-access-role-arn arn:aws:iam::account number:role/testFlywheelDataAccess
```

Um einen systemeigenen benutzerdefinierten Klassifikator zu erstellen, geben Sie in der Anfrage die folgenden zusätzlichen Parameter an. `create-document-classifier`

1. DocumentType: Setzen Sie den Wert auf SEMI\$1STRUCTURED\$1DOCUMENT.

1. Dokumente: Der S3-Speicherort für die Schulungsdokumente (und optional die Testdokumente).

1. OutputDataConfig: Geben Sie den S3-Speicherort für die Ausgabedokumente (und einen optionalen KMS-Schlüssel) an. 

1. DocumentReaderConfig: Optionales Feld für Einstellungen zur Textextraktion.

```
aws comprehend create-document-classifier \
     --region region \
     --document-classifier-name testDelete \
     --language-code en \
     --input-data-config 
          S3Uri=s3://S3Bucket/docclass/file name \
           DocumentType \
             Documents  \
     --output-data-config S3Uri=s3://S3Bucket/docclass/file name \
     --data-access-role-arn arn:aws:iam::account number:role/testFlywheelDataAccess
```

Rufen Sie mithilfe der Operation Informationen zu einem benutzerdefinierten Klassifikator mit dem Dokumentenklassifikator ARN ab. `DescribeDocumentClassifier`

```
aws comprehend describe-document-classifier \
     --region region \
     --document-classifier-arn arn:aws:comprehend:region:account number:document-classifier/file name
```

Löschen Sie mithilfe der Operation einen benutzerdefinierten Klassifikator. `DeleteDocumentClassifier`

```
aws comprehend delete-document-classifier \
     --region region \
     --document-classifier-arn arn:aws:comprehend:region:account number:document-classifier/testDelete
```

Listet alle benutzerdefinierten Klassifikatoren in dem Konto auf, das den `ListDocumentClassifiers` Vorgang verwendet.

```
aws comprehend list-document-classifiers
     --region region
```

## Verwenden des AWS SDK für Java oder SDK für Python
<a name="get-started-api-customclass-java"></a>

SDK-Beispiele zum Erstellen und Trainieren eines benutzerdefinierten Klassifikators finden Sie unter[Verwendung `CreateDocumentClassifier` mit einem AWS SDK oder CLI](example_comprehend_CreateDocumentClassifier_section.md).

# Testen Sie die Trainingsdaten
<a name="testing-the-model"></a>

Nach dem Training des Modells testet Amazon Comprehend das benutzerdefinierte Klassifikatormodell. Wenn Sie keinen Testdatensatz bereitstellen, trainiert Amazon Comprehend das Modell mit 90 Prozent der Trainingsdaten. Es reserviert 10 Prozent der Trainingsdaten für Tests. Wenn Sie einen Testdatensatz bereitstellen, müssen die Testdaten mindestens ein Beispiel für jedes eindeutige Label im Trainingsdatensatz enthalten. 

Durch das Testen des Modells erhalten Sie Metriken, anhand derer Sie die Genauigkeit des Modells abschätzen können. Die Konsole zeigt die Metriken im Abschnitt **Classifier-Performance** der **Classifier-Detailseite** in der Konsole an. Sie werden auch in den `Metrics` Feldern zurückgegeben, die durch den [DescribeDocumentClassifier](https://docs.aws.amazon.com/comprehend/latest/APIReference/API_DescribeDocumentClassifier.html)Vorgang zurückgegeben wurden.

Im folgenden Beispiel für Trainingsdaten gibt es fünf Bezeichnungen: DOCUMENTARY, DOCUMENTARY, SCIENCE\$1FICTION, DOCUMENTARY, ROMANTIC\$1COMEDY. Es gibt drei einzigartige Klassen: DOCUMENTARY, SCIENCE\$1FICTION, ROMANTIC\$1COMEDY. 


| Spalte 1 | Spalte 2 | 
| --- | --- | 
| DOKUMENTARFILM | Text des Dokuments 1 | 
| DOKUMENTARFILM | Text des Dokuments 2 | 
| SCIENCE\$1FICTION | Text des Dokuments 3 | 
| DOKUMENTARFILM | Text des Dokuments 4 | 
| ROMANTISCHE\$1KOMÖDIE | Text des Dokuments 5 | 

Bei der auto Aufteilung (bei der Amazon Comprehend 10 Prozent der Trainingsdaten für Tests reserviert) kann der Testdatensatz keine Beispiele für dieses Label enthalten, wenn die Trainingsdaten nur begrenzte Beispiele für ein bestimmtes Label enthalten. Wenn der Trainingsdatensatz beispielsweise 1000 Instanzen der DOCUMENTAR-Klasse, 900 Instanzen von SCIENCE\$1FICTION und eine einzelne Instanz der Klasse ROMANTIC\$1COMEDY enthält, kann der Testdatensatz 100 DOCUMENTARY- und 90 SCIENCE\$1FICTION-Instanzen enthalten, aber keine ROMANTIC\$1COMEDY-Instanzen, da nur ein einziges Beispiel verfügbar ist. 

Nachdem Sie das Training Ihres Modells abgeschlossen haben, liefern die Trainingsmetriken Informationen, anhand derer Sie entscheiden können, ob das Modell für Ihre Anforderungen ausreichend genau ist. 

# Klassifizieren Sie die Trainingsleistung
<a name="train-classifier-output"></a>

Nachdem Amazon Comprehend das Training des benutzerdefinierten Klassifikatormodells abgeschlossen hat, erstellt es Ausgabedateien im Amazon S3-Ausgabespeicherort, den Sie in der [CreateDocumentClassifier](https://docs.aws.amazon.com/comprehend/latest/APIReference/API_CreateDocumentClassifier.html)API-Anforderung oder der entsprechenden Konsolenanforderung angegeben haben.

Amazon Comprehend erstellt eine Konfusionsmatrix, wenn Sie ein Klartext-Modell oder ein systemeigenes Dokumentenmodell trainieren. Es kann zusätzliche Ausgabedateien erstellen, wenn Sie ein systemeigenes Dokumentenmodell trainieren.

**Topics**
+ [Verwechslungsmatrix](#conf-matrix)
+ [Zusätzliche Ausgaben für native Dokumentenmodelle](#train-class-output-native)

## Verwechslungsmatrix
<a name="conf-matrix"></a>

Wenn Sie ein benutzerdefiniertes Klassifikatormodell trainieren, erstellt Amazon Comprehend eine Konfusionsmatrix, die Kennzahlen darüber enthält, wie gut das Modell beim Training abgeschnitten hat. Diese Matrix zeigt eine Matrix von Beschriftungen, die das Modell vorhergesagt hat, im Vergleich zu den tatsächlichen Dokumentenbeschriftungen. Amazon Comprehend verwendet einen Teil der Trainingsdaten, um die Konfusionsmatrix zu erstellen.

Eine Konfusionsmatrix gibt Aufschluss darüber, welche Klassen mehr Daten verwenden könnten, um die Modellleistung zu verbessern. Eine Klasse mit einem hohen Anteil an korrekten Vorhersagen hat die höchste Anzahl von Ergebnissen entlang der Diagonalen der Matrix. Wenn die Zahl auf der Diagonalen eine niedrigere Zahl ist, hat die Klasse einen geringeren Anteil richtiger Vorhersagen. Sie können weitere Trainingsbeispiele für diese Klasse hinzufügen und das Modell erneut trainieren. Wenn beispielsweise 40 Prozent der Stichproben mit Label A als Label D klassifiziert werden, verbessert das Hinzufügen weiterer Proben für Label A und Label D die Leistung des Klassifikators.

Nachdem Amazon Comprehend das Klassifikatormodell erstellt hat, ist die Konfusionsmatrix in der `confusion_matrix.json` Datei im S3-Ausgabespeicherort verfügbar. 

Das Format der Konfusionsmatrix variiert, je nachdem, ob Sie Ihren Klassifikator im Mehrklassenmodus oder im Multi-Label-Modus trainiert haben.

**Topics**
+ [Konfusionsmatrix für den Mehrklassenmodus](#m-c-matrix)
+ [Konfusionsmatrix für den Modus mit mehreren Labels](#m-l-matrix)

### Konfusionsmatrix für den Mehrklassenmodus
<a name="m-c-matrix"></a>

Im Mehrklassenmodus schließen sich die einzelnen Klassen gegenseitig aus, sodass bei der Klassifizierung jedem Dokument eine Bezeichnung zugewiesen wird. Ein Tier kann beispielsweise ein Hund oder eine Katze sein, aber nicht beides gleichzeitig.

Betrachten Sie das folgende Beispiel für eine Konfusionsmatrix für einen trainierten Klassifikator mit mehreren Klassen:

```
  A B X Y <-(predicted label)
A 1 2 0 4
B 0 3 0 1
X 0 0 1 0
Y 1 1 1 1
^
|
(actual label)
```

In diesem Fall prognostizierte das Modell Folgendes:
+ Ein „A“ -Label wurde genau vorhergesagt, zwei „A“ -Labels wurden fälschlicherweise als „B“ -Labels vorhergesagt und vier „A“ -Labels wurden fälschlicherweise als „Y“ -Label vorhergesagt.
+ Drei „B“ -Labels wurden genau vorhergesagt, und ein „B“ -Label wurde fälschlicherweise als „Y“ -Label vorhergesagt.
+ Ein „X“ wurde genau vorhergesagt.
+ Ein „Y“ -Label wurde genau vorhergesagt, eines wurde fälschlicherweise als „A“ -Label vorhergesagt, eines wurde fälschlicherweise als „B“ -Label vorhergesagt und eines wurde fälschlicherweise als „X“ -Label vorhergesagt.

Die diagonale Linie in der Matrix (A:A, B:B, X:X und Y:Y) zeigt die genauen Vorhersagen. Die Vorhersagefehler sind die Werte außerhalb der Diagonale. In diesem Fall zeigt die Matrix die folgenden Prognosefehlerraten: 
+ A-Etiketten: 86%
+ B-Etiketten: 25%
+ X-Etiketten: 0%
+ Y-Etiketten: 75%

Der Klassifikator gibt die Konfusionsmatrix als Datei im JSON-Format zurück. Die folgende JSON-Datei stellt die Matrix für das vorherige Beispiel dar.

```
{
 "type": "multi_class",
 "confusion_matrix": [
 [1, 2, 0,4],
 [0, 3, 0, 1],
 [0, 0, 1, 0],
 [1, 1, 1, 1]],
 "labels": ["A", "B", "X", "Y"],
 "all_labels": ["A", "B", "X", "Y"]
}
```

### Konfusionsmatrix für den Modus mit mehreren Labels
<a name="m-l-matrix"></a>

Im Modus mit mehreren Bezeichnungen kann die Klassifizierung einem Dokument eine oder mehrere Klassen zuweisen. Betrachten Sie das folgende Beispiel einer Konfusionsmatrix für einen aus mehreren Klassen bestehenden, trainierten Klassifikator.

In diesem Beispiel gibt es drei mögliche Bezeichnungen: `Comedy``Action`, und. `Drama` Die Konfusionsmatrix mit mehreren Bezeichnungen erstellt für jedes Etikett eine 2x2-Matrix.

```
Comedy                   Action                   Drama 
     No Yes                   No Yes                   No Yes   <-(predicted label)                                      
 No  2   1                No  1   1                No  3   0                                                         
Yes  0   2               Yes  2   1               Yes  1   1   
 ^                        ^                        ^
 |                        |                        |
 |-----------(was this label actually used)--------|
```

In diesem Fall gab das Modell für das Etikett Folgendes zurück: `Comedy`
+ Zwei Fälle, in denen das Vorhandensein eines `Comedy` Labels genau vorhergesagt wurde. Wirklich positiv (TP). 
+ Zwei Fälle, in denen genau vorhergesagt wurde, dass ein `Comedy` Etikett nicht vorhanden ist. Richtig negativ (TN).
+ Keine Fälle, in denen fälschlicherweise vorhergesagt wurde, dass ein `Comedy` Etikett vorhanden ist. Falsch positiv (FP).
+ Ein Fall, in dem fälschlicherweise vorhergesagt wurde, dass ein `Comedy` Etikett nicht vorhanden ist. Falsch negativ (FN).

Wie bei einer Konfusionsmatrix mit mehreren Klassen zeigt die diagonale Linie in jeder Matrix die genauen Vorhersagen.

In diesem Fall hat das Modell `Comedy` Labels in 80% der Fälle (TP plus TN) genau und in 20% der Fälle falsch vorhergesagt (FP plus FN).



Der Klassifikator gibt die Konfusionsmatrix als Datei im JSON-Format zurück. Die folgende JSON-Datei stellt die Matrix für das vorherige Beispiel dar.

```
{
"type": "multi_label",
"confusion_matrix": [
 [[2, 1],        
 [0, 2]],
 [[1, 1],        
 [2, 1]],      
 [[3, 0],        
 [1, 1]]
], 
"labels": ["Comedy", "Action", "Drama"]
"all_labels": ["Comedy", "Action", "Drama"]
}
```

## Zusätzliche Ausgaben für native Dokumentenmodelle
<a name="train-class-output-native"></a>

Amazon Comprehend kann zusätzliche Ausgabedateien erstellen, wenn Sie ein systemeigenes Dokumentenmodell trainieren.

### Amazon Textract Textract-Ausgabe
<a name="textract-output"></a>

Wenn Amazon Comprehend Amazon Textract aufgerufen hat, um Text für eines der Schulungsdokumente APIs zu extrahieren, speichert es die Amazon Textract Textract-Ausgabedateien im S3-Ausgabespeicherort. Es verwendet die folgende Verzeichnisstruktur:
+ **Schulungsunterlagen:** 

  `amazon-textract-output/train/<file_name>/<page_num>/textract_output.json` 
+ **Testdokumente:** 

  `amazon-textract-output/test/<file_name>/<page_num>/textract_output.json`

Amazon Comprehend füllt den Testordner aus, wenn Sie Testdokumente in der API-Anfrage angegeben haben.

### Fehler bei der Anmerkung zu Dokumenten
<a name="failed-files-output"></a>

 Amazon Comprehend erstellt die folgenden Dateien im Amazon S3 S3-Ausgabespeicherort (im Ordner **skipped\$1documents/**), falls Anmerkungen fehlschlagen:
+ failed\$1annotations\$1train.jsonl

  Die Datei ist vorhanden, falls Anmerkungen in den Trainingsdaten fehlgeschlagen sind.
+ failed\$1annotations\$1test.jsonl

  Die Datei ist vorhanden, wenn die Anfrage Testdaten enthielt und alle Anmerkungen in den Testdaten fehlgeschlagen sind.

Die fehlgeschlagenen Annotationsdateien sind JSONL-Dateien mit dem folgenden Format:

```
{
     "File": "String", "Page": Number, "ErrorCode": "...", "ErrorMessage": "..."}
    {"File": "String", "Page": Number, "ErrorCode": "...", "ErrorMessage": "..."
  }
```

# Benutzerdefinierte Klassifikator-Metriken
<a name="cer-doc-class"></a>

Amazon Comprehend bietet Kennzahlen, mit denen Sie abschätzen können, wie gut ein benutzerdefinierter Klassifikator abschneidet. Amazon Comprehend berechnet die Metriken anhand der Testdaten aus dem Classifier-Trainingsjob. Die Metriken stellen die Leistung des Modells während des Trainings genau dar, sodass sie ungefähr der Modellleistung für die Klassifizierung ähnlicher Daten entsprechen. 

Verwenden Sie API-Operationen, [DescribeDocumentClassifier](https://docs.aws.amazon.com/comprehend/latest/APIReference/API_DescribeDocumentClassifier.html)um z. B. die Metriken für einen benutzerdefinierten Klassifikator abzurufen.

**Anmerkung**  
Weitere Informationen zu den zugrunde liegenden [Kennzahlen Precision, Recall und FScore F1-Score finden Sie unter Metriken:](https://scikit-learn.org/stable/modules/generated/sklearn.metrics.precision_recall_fscore_support.html) Präzision, Erinnerung und F1-Score. Diese Kennzahlen werden auf Klassenebene definiert. Amazon Comprehend verwendet **Makro-Mittelwertbildung**, um diese Metriken zu den Testsätzen P, R und F1 zu kombinieren, wie im Folgenden beschrieben.

**Topics**
+ [Kennzahlen](#cer-doc-class-metrics)
+ [Verbesserung der Leistung Ihres benutzerdefinierten Klassifikators](#improving-metrics-doc)

## Kennzahlen
<a name="cer-doc-class-metrics"></a>

Amazon Comprehend unterstützt die folgenden Metriken: 

**Topics**
+ [Accuracy](#class-accuracy-metric)
+ [Präzision (Makro-Präzision)](#class-macroprecision-metric)
+ [Rückruf (Makrorückruf)](#class-macrorecall-metric)
+ [F1-Score (Makro-F1-Score)](#class-macrof1score-metric)
+ [Hamming-Verlust](#class-hammingloss-metric)
+ [Mikro-Präzision](#class-microprecision-metric)
+ [Mikro-Recall](#class-microrecall-metric)
+ [Mikro-F1-Score](#class-microf1score-metric)

Um die Metriken für einen Classifier anzuzeigen, öffnen Sie die Seite **Classifier Details** in der Konsole.

![\[Benutzerdefinierte Classifier-Metriken\]](http://docs.aws.amazon.com/de_de/comprehend/latest/dg/images/classifierperformance.png)


### Accuracy
<a name="class-accuracy-metric"></a>

Die Genauigkeit gibt den Prozentsatz der Labels aus den Testdaten an, die das Modell genau vorhergesagt hat. Um die Genauigkeit zu berechnen, dividieren Sie die Anzahl der genau vorhergesagten Etiketten in den Testdokumenten durch die Gesamtzahl der Etiketten in den Testdokumenten.

Beispiel


| Tatsächliches Etikett | Vorhergesagtes Label | Genau/Falsch | 
| --- | --- | --- | 
|  1  |  1  |  Genau  | 
|  0  |  1  |  Falsch  | 
|  2  |  3  |  Falsch  | 
|  3  |  3  |  Genau  | 
|  2  |  2  |  Genau  | 
|  1  |  1  |  Genau  | 
|  3  |  3  | Genau | 

Die Genauigkeit besteht aus der Anzahl der genauen Vorhersagen geteilt durch die Anzahl der gesamten Teststichproben = 5/7 = 0,714 oder 71,4%

### Präzision (Makro-Präzision)
<a name="class-macroprecision-metric"></a>

Präzision ist ein Maß für die Nützlichkeit der Klassifikatorergebnisse in den Testdaten. Sie ist definiert als die Anzahl der korrekt klassifizierten Dokumente geteilt durch die Gesamtzahl der Klassifizierungen für die Klasse. Hohe Genauigkeit bedeutet, dass der Klassifikator deutlich relevantere Ergebnisse als irrelevante Ergebnisse lieferte. 

Die `Precision` Metrik wird auch als *Makrogenauigkeit* bezeichnet. 

Das folgende Beispiel zeigt Präzisionsergebnisse für einen Testsatz.


| Label (Bezeichnung) | Größe der Stichprobe | Präzision des Etiketts | 
| --- | --- | --- | 
|  Label\$11  |  400  |  0.75  | 
|  Bezeichnung\$12  |  300  |  0,80  | 
|  Bezeichnung\$13  |  30000  |  0.90  | 
|  Bezeichnung\$14  |  20  |  0.50  | 
|  Bezeichnung\$15  |  10  |  0,40  | 

Die Messgröße Precision (Macro Precision) für das Modell lautet daher:

```
Macro Precision = (0.75 + 0.80 + 0.90 + 0.50 + 0.40)/5 = 0.67
```

### Rückruf (Makrorückruf)
<a name="class-macrorecall-metric"></a>

Dies gibt den Prozentsatz der richtigen Kategorien in Ihrem Text an, den das Modell vorhersagen kann. Diese Kennzahl ergibt sich aus der Mittelung der Erinnerungswerte aller verfügbaren Labels. Der Rückruf ist ein Maß dafür, wie vollständig die Klassifizierungsergebnisse für die Testdaten sind. 

Ein hoher Erinnerungswert bedeutet, dass der Klassifikator die meisten relevanten Ergebnisse zurückgegeben hat. 

Die `Recall` Metrik wird auch als *Macro Recall* bezeichnet.

Das folgende Beispiel zeigt die Rückrufergebnisse für einen Testsatz.


| Label (Bezeichnung) | Größe der Stichprobe | Rückruf des Etiketts | 
| --- | --- | --- | 
|  Label\$11  |  400  |  0,70  | 
|  Etikett \$12  |  300  |  0,70  | 
|  Bezeichnung\$13  |  30000  |  0,98  | 
|  Bezeichnung\$14  |  20  |  0,80  | 
|  Bezeichnung\$15  |  10  |  0.10  | 

Die Recall-Metrik (Macro Recall) für das Modell lautet daher:

```
Macro Recall = (0.70 + 0.70 + 0.98 + 0.80 + 0.10)/5 = 0.656
```

### F1-Score (Makro-F1-Score)
<a name="class-macrof1score-metric"></a>

Der F1-Score wird aus den `Recall` Werten `Precision` und abgeleitet. Es misst die Gesamtgenauigkeit des Klassifikators. Die höchste Punktzahl ist 1 und die niedrigste Punktzahl ist 0. 

Amazon Comprehend berechnet den *Macro* F1 Score. Es ist der ungewichtete Durchschnitt der Label-F1-Scores. Verwenden Sie den folgenden Testsatz als Beispiel:


| Label (Bezeichnung) | Größe der Stichprobe | Etikett: F1-Punktzahl | 
| --- | --- | --- | 
|  Bezeichnung\$11  |  400  |  0,724  | 
|  Etikett \$12  |  300  |  0,824  | 
|  Aufkleber\$13  |  30000  |  0,94  | 
|  Bezeichnung\$14  |  20  |  0,62  | 
|  Bezeichnung\$15  |  10  |  0,16  | 

Der F1-Score (Macro F1 Score) für das Modell wird wie folgt berechnet:

```
Macro F1 Score = (0.724 + 0.824 + 0.94 + 0.62 + 0.16)/5 = 0.6536
```

### Hamming-Verlust
<a name="class-hammingloss-metric"></a>

Der Anteil der Labels, die falsch vorhergesagt wurden. Wird auch als Anteil falscher Labels im Vergleich zur Gesamtzahl der Labels angesehen. Werte, die näher an Null liegen, sind besser.

### Mikro-Präzision
<a name="class-microprecision-metric"></a>

Original: 

Ähnlich der Präzisionsmetrik, mit der Ausnahme, dass die Mikrogenauigkeit auf der Gesamtpunktzahl aller Präzisionswerte zusammengenommen basiert.

### Mikro-Recall
<a name="class-microrecall-metric"></a>

Ähnlich wie bei der Recall-Metrik, mit der Ausnahme, dass der Mikro-Recall auf der Gesamtpunktzahl aller zusammengefassten Erinnerungswerte basiert.

### Mikro-F1-Score
<a name="class-microf1score-metric"></a>

Der Micro F1-Score ist eine Kombination aus den Kennzahlen Micro Precision und Micro Recall.

## Verbesserung der Leistung Ihres benutzerdefinierten Klassifikators
<a name="improving-metrics-doc"></a>

Die Metriken geben Aufschluss darüber, wie Ihr benutzerdefinierter Klassifikator während eines Klassifizierungsjobs abschneidet. Wenn die Metriken niedrig sind, ist das Klassifizierungsmodell für Ihren Anwendungsfall möglicherweise nicht effektiv. Sie haben mehrere Möglichkeiten, die Leistung Ihres Klassifikators zu verbessern:

1. Geben Sie in Ihren Trainingsdaten konkrete Beispiele an, die eine klare Trennung der Kategorien definieren. Stellen Sie beispielsweise Dokumente bereit, in denen die words/sentences Kategorie eindeutig dargestellt wird. 

1. Füge weitere Daten für unterrepräsentierte Labels in deinen Trainingsdaten hinzu.

1. Versuche, die Verzerrung in den Kategorien zu reduzieren. Wenn das größte Etikett in Ihren Daten mehr als das Zehnfache der Dokumente im kleinsten Etikett enthält, versuchen Sie, die Anzahl der Dokumente für das kleinste Etikett zu erhöhen. Achten Sie darauf, das Schrägverhältnis zwischen den am stärksten repräsentierten und den am wenigsten repräsentierten Klassen auf höchstens 10:1 zu reduzieren. Sie können auch versuchen, Eingabedokumente aus den am stärksten vertretenen Klassen zu entfernen.

# Analyse in Echtzeit ausführen
<a name="running-class-sync"></a>

Nachdem Sie einen benutzerdefinierten Klassifikator trainiert haben, können Sie Dokumente mithilfe von Echtzeitanalysen klassifizieren. Bei der Echtzeitanalyse wird ein einzelnes Dokument als Eingabe verwendet und die Ergebnisse werden synchron zurückgegeben. Die benutzerdefinierte Klassifizierung akzeptiert eine Vielzahl von Dokumenttypen als Eingaben für die Echtzeitanalyse. Details hierzu finden Sie unter [Eingaben für benutzerdefinierte Analysen in Echtzeit](idp-inputs-sync.md).

Wenn Sie Bilddateien oder gescannte PDF-Dokumente analysieren möchten, muss Ihre IAM-Richtlinie die Erlaubnis zur Verwendung von zwei Amazon Textract Textract-API-Methoden (DetectDocumentText und AnalyzeDocument) gewähren. Amazon Comprehend ruft diese Methoden während der Textextraktion auf. Eine Beispielrichtlinie finden Sie unter [Für die Durchführung von Dokumentenanalyseaktionen erforderliche Berechtigungen](security_iam_id-based-policy-examples.md#security-iam-based-policy-perform-cmp-actions).

Sie müssen einen Endpunkt erstellen, um Echtzeitanalysen mithilfe eines benutzerdefinierten Klassifizierungsmodells durchzuführen. 

**Topics**
+ [Echtzeitanalyse für benutzerdefinierte Klassifizierung (Konsole)](custom-sync.md)
+ [Echtzeitanalyse für benutzerdefinierte Klassifizierung (API)](class-sync-api.md)
+ [Ergebnisse für Echtzeitanalysen](outputs-class-sync.md)

# Echtzeitanalyse für benutzerdefinierte Klassifizierung (Konsole)
<a name="custom-sync"></a>

Sie können die Amazon Comprehend verwenden, um Echtzeitanalysen mithilfe eines benutzerdefinierten Klassifizierungsmodells durchzuführen.

Sie erstellen einen Endpunkt, um die Echtzeitanalyse auszuführen. Ein Endpunkt umfasst verwaltete Ressourcen, die Ihr benutzerdefiniertes Modell für Inferenzen in Echtzeit verfügbar machen.

Informationen zur Bereitstellung des Endpunktdurchsatzes und zu den damit verbundenen Kosten finden Sie unter. [Verwenden von Amazon Comprehend Comprehend-Endpunkten](using-endpoints.md)

**Topics**
+ [Einen Endpunkt für die benutzerdefinierte Klassifizierung erstellen](#create-endpoint)
+ [Ausführung einer benutzerdefinierten Klassifizierung in Echtzeit](#cc-real-time-analysis)

## Einen Endpunkt für die benutzerdefinierte Klassifizierung erstellen
<a name="create-endpoint"></a>

**Um einen Endpunkt (Konsole) zu erstellen**

1. Melden Sie sich bei der Amazon Comprehend Comprehend-Konsole an AWS-Managementkonsole und öffnen Sie sie unter [https://console.aws.amazon.com/comprehend/](https://console.aws.amazon.com/comprehend/)

1. Wählen Sie im linken Menü **Endpoints** und klicken Sie auf die Schaltfläche **Create** Endpoint. Ein Bildschirm „**Endpunkt erstellen**“ wird geöffnet.

1. Geben Sie dem Endpunkt einen Namen. Der Name muss innerhalb der aktuellen Region und des aktuellen Kontos eindeutig sein.

1. Wählen Sie ein benutzerdefiniertes Modell aus, an das Sie den neuen Endpunkt anhängen möchten. In der Dropdownliste können Sie nach dem Modellnamen suchen.
**Anmerkung**  
Sie müssen ein Modell erstellen, bevor Sie ihm einen Endpunkt zuordnen können. Wenn Sie noch kein Modell haben, finden Sie weitere Informationen unter[Modelle zur Trainingsklassifizierung](training-classifier-model.md).

1. (Optional) Um dem Endpunkt ein Tag hinzuzufügen, geben Sie unter **Tags** ein Schlüssel-Wert-Paar ein und wählen Sie Tag **hinzufügen** aus. **Um dieses Paar vor der Erstellung des Endpunkts zu entfernen, wählen Sie Tag entfernen**

1. Geben Sie die Anzahl der Inferenzeinheiten (IUs) ein, die dem Endpunkt zugewiesen werden sollen. Jede Einheit entspricht einem Durchsatz von 100 Zeichen pro Sekunde für bis zu zwei Dokumente pro Sekunde. Informationen zum Endpunktdurchsatz finden Sie unter[Verwenden von Amazon Comprehend Comprehend-Endpunkten](using-endpoints.md). 

1. (Optional) Wenn Sie einen neuen Endpunkt erstellen, haben Sie die Möglichkeit, den IU-Schätzer zu verwenden. Abhängig vom Durchsatz oder der Anzahl der Zeichen, die Sie pro Sekunde analysieren möchten, kann es schwierig sein, zu wissen, wie viele Inferenzeinheiten Sie benötigen. Dieser optionale Schritt kann Ihnen dabei helfen, die Anzahl der anzufordernden Daten IUs zu bestimmen. 

1. Prüfen Sie in der **Kaufübersicht** Ihre geschätzten stündlichen, täglichen und monatlichen Endpunktkosten. 

1. Aktivieren Sie das Kontrollkästchen, wenn Sie wissen, dass Ihr Konto vom Start bis zum Löschen Gebühren für den Endpunkt anfallen.

1. Wählen Sie **Endpunkt erstellen**

## Ausführung einer benutzerdefinierten Klassifizierung in Echtzeit
<a name="cc-real-time-analysis"></a>

Sobald Sie einen Endpunkt erstellt haben, können Sie mithilfe Ihres benutzerdefinierten Modells eine Echtzeitanalyse durchführen. Es gibt zwei Möglichkeiten, Echtzeitanalysen von der Konsole aus auszuführen. Sie können Text eingeben oder eine Datei hochladen, wie im Folgenden gezeigt. 

**Um eine Echtzeitanalyse mit einem benutzerdefinierten Modell (Konsole) durchzuführen**

1. Melden Sie sich bei der Amazon Comprehend Comprehend-Konsole an AWS-Managementkonsole und öffnen Sie sie unter [https://console.aws.amazon.com/comprehend/](https://console.aws.amazon.com/comprehend/)

1. Wählen Sie im linken Menü die Option **Echtzeitanalyse** aus.

1. Wählen Sie unter **Eingabetyp** die Option **Benutzerdefiniert** als **Analysetyp** aus. 

1. Wählen Sie unter **Benutzerdefinierter Modelltyp** die Option **Benutzerdefinierte Klassifizierung** aus. 

1. Wählen Sie **unter Endpunkt** den Endpunkt aus, den Sie verwenden möchten. Dieser Endpunkt ist mit einem bestimmten benutzerdefinierten Modell verknüpft. 

1. Um die Eingabedaten für die Analyse anzugeben, können Sie Text eingeben oder eine Datei hochladen.
   + Um Text einzugeben:

     1. Wählen Sie „**Text eingeben**“.

     1. Geben Sie den Text ein, den Sie analysieren möchten. 
   + Um eine Datei hochzuladen:

     1. Wählen Sie **Datei hochladen** und geben Sie den Namen der hochzuladenden Datei ein.

     1. (Optional) Unter **Erweiterte Leseaktionen** können Sie die Standardaktionen für die Textextraktion überschreiben. Details hierzu finden Sie unter [Optionen für die Textextraktion festlegen](idp-set-textract-options.md)

   Die besten Ergebnisse erzielen Sie, wenn Sie den Typ der Eingabe an den Modelltyp des Klassifikators anpassen. In der Konsole wird eine Warnung angezeigt, wenn Sie ein systemeigenes Dokument an ein Nur-Text-Modell oder Nur-Text-Dokument an ein systemeigenes Dokumentmodell senden. Weitere Informationen finden Sie unter [Modelle zur Trainingsklassifizierung](training-classifier-model.md).

1. **Wählen Sie Analysieren.** Amazon Comprehend analysiert die Eingabedaten anhand Ihres benutzerdefinierten Modells. Amazon Comprehend zeigt die erkannten Klassen zusammen mit einer Vertrauensbewertung für jede Klasse an. 

# Echtzeitanalyse für benutzerdefinierte Klassifizierung (API)
<a name="class-sync-api"></a>

Sie können die Amazon Comprehend API verwenden, um eine Echtzeitklassifizierung mit einem benutzerdefinierten Modell durchzuführen. Zunächst erstellen Sie einen Endpunkt, um die Echtzeitanalyse auszuführen. Nachdem Sie den Endpunkt erstellt haben, führen Sie die Echtzeitklassifizierung durch.

Die Beispiele in diesem Abschnitt verwenden Befehlsformate für Unix, Linux und macOS. Ersetzen Sie unter Windows den umgekehrten Schrägstrich (\$1), das Unix-Fortsetzungszeichen, am Ende jeder Zeile durch ein Caret-Zeichen oder Zirkumflex (^).

Informationen zur Bereitstellung des Endpunktdurchsatzes und zu den damit verbundenen Kosten finden Sie unter[Verwenden von Amazon Comprehend Comprehend-Endpunkten](using-endpoints.md).

**Topics**
+ [Einen Endpunkt für die benutzerdefinierte Klassifizierung erstellen](#create-endpoint-api)
+ [Ausführen einer benutzerdefinierten Klassifizierung in Echtzeit](#cc-real-time-analysis-api)

## Einen Endpunkt für die benutzerdefinierte Klassifizierung erstellen
<a name="create-endpoint-api"></a>

Das folgende Beispiel zeigt den [CreateEndpoint](https://docs.aws.amazon.com/comprehend/latest/APIReference/API_CreateEndpoint.html)API-Vorgang unter Verwendung von AWS CLI. 

```
aws comprehend create-endpoint \
    --desired-inference-units number of inference units \
    --endpoint-name endpoint name \
    --model-arn arn:aws:comprehend:region:account-id:model/example \
    --tags Key=My1stTag,Value=Value1
```

Amazon Comprehend antwortet wie folgt:

```
{
   "EndpointArn": "Arn"
}
```

## Ausführen einer benutzerdefinierten Klassifizierung in Echtzeit
<a name="cc-real-time-analysis-api"></a>

Nachdem Sie einen Endpunkt für Ihr benutzerdefiniertes Klassifizierungsmodell erstellt haben, verwenden Sie den Endpunkt, um den [ClassifyDocument](https://docs.aws.amazon.com/comprehend/latest/APIReference/API_ClassifyDocument.html)API-Vorgang auszuführen. Sie können Texteingaben mit dem `bytes` Parameter `text` oder bereitstellen. Geben Sie die anderen Eingabetypen mithilfe des `bytes` Parameters ein.

Bei Bild- und PDF-Dateien können Sie den `DocumentReaderConfig` Parameter verwenden, um die standardmäßigen Textextraktionsaktionen zu überschreiben. Details hierzu finden Sie unter [Optionen für die Textextraktion festlegen](idp-set-textract-options.md)

Die besten Ergebnisse erzielen Sie, wenn Sie den Typ der Eingabe an den Modelltyp des Klassifikators anpassen. Die API-Antwort enthält eine Warnung, wenn Sie ein systemeigenes Dokument an ein Nur-Text-Modell oder eine Nur-Text-Datei an ein systemeigenes Dokumentenmodell senden. Weitere Informationen finden Sie unter [Modelle zur Trainingsklassifizierung](training-classifier-model.md).

### Mit dem AWS Command Line Interface
<a name="cc-real-time-analysis-api-cli"></a>

Die folgenden Beispiele zeigen, wie der CLI-Befehl *classify-document* verwendet wird. 

#### Klassifizieren Sie Text mit dem AWS CLI
<a name="cc-real-time-analysis-api-run-cli1"></a>

Im folgenden Beispiel wird eine Echtzeitklassifizierung für einen Textblock ausgeführt.

```
aws comprehend classify-document \
     --endpoint-arn arn:aws:comprehend:region:account-id:endpoint/endpoint name \
     --text 'From the Tuesday, April 16th, 1912 edition of The Guardian newspaper: The maiden voyage of the White Star liner Titanic, 
     the largest ship ever launched ended in disaster. The Titanic started her trip from Southampton for New York on Wednesday. Late 
     on Sunday night she struck an iceberg off the Grand Banks of Newfoundland. By wireless telegraphy she sent out signals of distress, 
     and several liners were near enough to catch and respond to the call.'
```

Amazon Comprehend antwortet wie folgt:

```
{
    "Classes": [ 
       { 
          "Name": "string",
          "Score": 0.9793661236763
       }
    ]
 }
```

#### Klassifizieren Sie ein halbstrukturiertes Dokument mit dem AWS CLI
<a name="cc-real-time-analysis-api-run-cli2"></a>

Um die benutzerdefinierte Klassifizierung für eine PDF-, Word- oder Bilddatei zu analysieren, führen Sie den `classify-document` Befehl mit der Eingabedatei im `bytes` Parameter aus.

Im folgenden Beispiel wird ein Bild als Eingabedatei verwendet. Es verwendet die `fileb` Option zur Base-64-Kodierung der Bilddatei-Bytes. Weitere Informationen finden Sie unter [Binary large objects](https://docs.aws.amazon.com/cli/latest/userguide/cli-usage-parameters-types.html#parameter-type-blob) im AWS Command Line Interface Benutzerhandbuch. 

In diesem Beispiel wird auch eine JSON-Datei mit dem Namen `config.json` zur Festlegung der Textextraktionsoptionen übergeben.

```
$ aws comprehend classify-document \
> --endpoint-arn arn \
> --language-code en \
> --bytes fileb://image1.jpg   \
> --document-reader-config file://config.json
```

Die Datei **config.json** enthält den folgenden Inhalt.

```
 {
    "DocumentReadMode": "FORCE_DOCUMENT_READ_ACTION",
    "DocumentReadAction": "TEXTRACT_DETECT_DOCUMENT_TEXT"    
 }
```

Amazon Comprehend antwortet mit den folgenden Antworten:

```
{
    "Classes": [ 
       { 
          "Name": "string",
          "Score": 0.9793661236763
       }
    ]
 }
```

Weitere Informationen finden Sie [ClassifyDocument](https://docs.aws.amazon.com/comprehend/latest/APIReference/API_ClassifyDocument.html)in der *Amazon Comprehend API-Referenz*.

# Ergebnisse für Echtzeitanalysen
<a name="outputs-class-sync"></a>

## Ausgaben für Texteingaben
<a name="outputs-class-sync-text"></a>

Bei Texteingaben enthält die Ausgabe die Liste der Klassen oder Bezeichnungen, die durch die Klassifikatoranalyse identifiziert wurden. Das folgende Beispiel zeigt eine Liste mit zwei Klassen.

```
"Classes": [
  {
     "Name": "abc",
     "Score": 0.2757999897003174,
     "Page": 1
  },
  {
    "Name": "xyz",
    "Score": 0.2721000015735626,
    "Page": 1
  }
]
```

## Ausgaben für halbstrukturierte Eingaben
<a name="outputs-class-sync-other"></a>

Bei einem halbstrukturierten Eingabedokument oder einer Textdatei kann die Ausgabe die folgenden zusätzlichen Felder enthalten:
+ DocumentMetadata — Extraktionsinformationen über das Dokument. Die Metadaten enthalten eine Liste von Seiten im Dokument, wobei die Anzahl der Zeichen aus jeder Seite extrahiert wurde. Dieses Feld ist in der Antwort vorhanden, wenn die Anfrage den `Byte` Parameter enthielt.
+ DocumentType — Der Dokumenttyp für jede Seite im Eingabedokument. Dieses Feld ist in der Antwort vorhanden, wenn die Anfrage den `Byte` Parameter enthielt.
+ Fehler — Fehler auf Seitenebene, die das System bei der Verarbeitung des Eingabedokuments erkannt hat. Das Feld ist leer, wenn das System keine Fehler festgestellt hat.
+ Warnungen — Bei der Verarbeitung des Eingabedokuments wurden Warnungen erkannt. Die Antwort enthält eine Warnung, falls eine Diskrepanz zwischen dem Eingabedokumenttyp und dem Modelltyp besteht, der dem von Ihnen angegebenen Endpunkt zugeordnet ist. Das Feld ist leer, wenn das System keine Warnungen generiert hat.

Weitere Informationen zu diesen Ausgabefeldern finden Sie [ClassifyDocument](https://docs.aws.amazon.com/comprehend/latest/APIReference/API_ClassifyDocument.html)in der *Amazon Comprehend API-Referenz*.

Das folgende Beispiel zeigt die Ausgabe für ein einseitiges natives PDF-Eingabedokument.

```
{
  "Classes": [
      {
          "Name": "123",
          "Score": 0.39570000767707825,
          "Page": 1
      },
      {
          "Name": "abc",
          "Score": 0.2757999897003174,
          "Page": 1
      },
      {
          "Name": "xyz",
          "Score": 0.2721000015735626,
          "Page": 1
      }
  ],
  "DocumentMetadata": {
      "Pages": 1,
      "ExtractedCharacters": [
          {
              "Page": 1,
              "Count": 2013
          }
      ]
  },
  "DocumentType": [
      {
          "Page": 1,
          "Type": "NATIVE_PDF"
      }
  ]
}
```

# Asynchrone Jobs ausführen
<a name="running-classifiers"></a>

Nachdem Sie einen benutzerdefinierten Klassifikator trainiert haben, können Sie asynchrone Jobs verwenden, um große Dokumente oder mehrere Dokumente in einem Stapel zu analysieren.

Die benutzerdefinierte Klassifizierung akzeptiert eine Vielzahl von Eingabedokumenttypen. Details hierzu finden Sie unter [Eingaben für asynchrone benutzerdefinierte Analysen](idp-inputs-async.md).

Wenn Sie Bilddateien oder gescannte PDF-Dokumente analysieren möchten, muss Ihre IAM-Richtlinie die Erlaubnis zur Verwendung von zwei Amazon Textract Textract-API-Methoden (DetectDocumentText und AnalyzeDocument) gewähren. Amazon Comprehend ruft diese Methoden während der Textextraktion auf. Eine Beispielrichtlinie finden Sie unter [Für die Durchführung von Dokumentenanalyseaktionen erforderliche Berechtigungen](security_iam_id-based-policy-examples.md#security-iam-based-policy-perform-cmp-actions).

Verwenden Sie für die Klassifizierung halbstrukturierter Dokumente (Bild-, PDF- oder Docx-Dateien) mithilfe eines Klartextmodells das Eingabeformat. `one document per file` Nehmen Sie den `DocumentReaderConfig` Parameter auch in Ihre Anfrage auf. [StartDocumentClassificationJob](https://docs.aws.amazon.com/comprehend/latest/APIReference/API_StartDocumentClassificationJob.html)

**Topics**
+ [Dateiformate für die asynchrone Analyse](class-inputs-async.md)
+ [Analyseaufträge für die benutzerdefinierte Klassifizierung (Konsole)](analysis-jobs-custom-classifier.md)
+ [Analyseaufträge für die benutzerdefinierte Klassifizierung (API)](analysis-jobs-custom-class-api.md)
+ [Ausgaben für asynchrone Analysejobs](outputs-class-async.md)

# Dateiformate für die asynchrone Analyse
<a name="class-inputs-async"></a>

Wenn Sie eine asynchrone Analyse mit Ihrem Modell ausführen, haben Sie die Wahl zwischen verschiedenen Formaten für Eingabedokumente: `One document per line` oder`one document per file`. Welches Format Sie verwenden, hängt von der Art der Dokumente ab, die Sie analysieren möchten, wie in der folgenden Tabelle beschrieben.


| Description | Format | 
| --- | --- | 
| Die Eingabe enthält mehrere Dateien. Jede Datei enthält ein Eingabedokument. Dieses Format eignet sich am besten für Sammlungen großer Dokumente, wie Zeitungsartikel oder wissenschaftliche Arbeiten. Verwenden Sie dieses Format auch für halbstrukturierte Dokumente (Bild-, PDF- oder Docx-Dateien) mithilfe eines systemeigenen Dokumentenklassifizierers. | Ein Dokument pro Datei | 
|  Die Eingabe besteht aus einer oder mehreren Dateien. Jede Zeile in der Datei ist ein separates Eingabedokument. Dieses Format eignet sich am besten für kurze Dokumente wie Textnachrichten oder Beiträge in sozialen Netzwerken.  | Ein Dokument pro Zeile | 

**Ein Dokument pro Datei**

Beim `one document per file` Format steht jede Datei für ein Eingabedokument. 

**Ein Dokument pro Zeile**

Bei diesem `One document per line` Format wird jedes Dokument in einer separaten Zeile platziert und es wird keine Kopfzeile verwendet. Das Etikett ist nicht in jeder Zeile enthalten (da Sie das Etikett für das Dokument noch nicht kennen). Jede Zeile der Datei (das Ende des einzelnen Dokuments) muss mit einem Zeilenvorschub (LF,\$1n), einem Zeilenwechsel (CR,\$1 r) oder beidem (CRLF,\$1 r\$1n) enden. Verwenden Sie nicht das UTF-8-Zeilentrennzeichen (u\$12028), um eine Zeile zu beenden.

Das folgende Beispiel zeigt das Format der Eingabedatei.

```
Text of document 1 \n
Text of document 2 \n
Text of document 3 \n
Text of document 4 \n
```

Verwenden Sie für beide Formate die UTF-8-Kodierung für Textdateien. Nachdem Sie die Dateien vorbereitet haben, platzieren Sie sie in dem S3-Bucket, den Sie für die Eingabedaten verwenden.

Wenn Sie einen Klassifizierungsjob starten, geben Sie diesen Amazon S3 S3-Speicherort für Ihre Eingabedaten an. Der URI muss sich in derselben Region befinden wie der API-Endpunkt, den Sie aufrufen. Der URI kann auf eine einzelne Datei verweisen (wie bei der Methode „Ein Dokument pro Zeile“), oder er kann das Präfix für eine Sammlung von Datendateien sein. 

Wenn Sie beispielsweise den URI `S3://bucketName/prefix` verwenden und das Präfix eine einzelne Datei ist, verwendet Amazon Comprehend diese Datei als Eingabe. Wenn mehr als eine Datei mit dem Präfix beginnt, verwendet Amazon Comprehend sie alle als Eingabe. 

Gewähren Sie Amazon Comprehend Zugriff auf den S3-Bucket, der Ihre Dokumentensammlungs- und Ausgabedateien enthält. Weitere Informationen finden Sie unter [Rollenbasierte Berechtigungen sind für asynchrone Operationen erforderlich](security_iam_id-based-policy-examples.md#auth-role-permissions).

# Analyseaufträge für die benutzerdefinierte Klassifizierung (Konsole)
<a name="analysis-jobs-custom-classifier"></a>

Nachdem Sie einen [benutzerdefinierten Dokumentenklassifizierer]() erstellt und trainiert haben, können Sie die Konsole verwenden, um benutzerdefinierte Klassifizierungsaufträge mit dem Modell auszuführen.

**So erstellen Sie einen benutzerdefinierten Klassifizierungsjob (Konsole)**

1. Melden Sie sich bei der Amazon Comprehend Comprehend-Konsole an AWS-Managementkonsole und öffnen Sie sie unter [https://console.aws.amazon.com/comprehend/](https://console.aws.amazon.com/comprehend/)

1. Wählen Sie im linken Menü **Analyse-Jobs** und dann **Create** Job aus.

1. Geben Sie dem Klassifizierungsjob einen Namen. Der Name muss für Ihr Konto und Ihre aktuelle Region eindeutig sein.

1. Wählen Sie unter **Analysetyp** die Option **Benutzerdefinierte Klassifizierung** aus.

1. **Wählen Sie unter Klassifikator** auswählen den benutzerdefinierten Klassifikator aus, den Sie verwenden möchten.

1. **(Optional) Wenn Sie sich dafür entscheiden, die Daten zu verschlüsseln, die Amazon Comprehend bei der Verarbeitung Ihres Auftrags verwendet, wählen Sie Auftragsverschlüsselung.** Wählen Sie dann, ob Sie einen KMS-Schlüssel verwenden möchten, der mit dem aktuellen Konto verknüpft ist, oder einen von einem anderen Konto.
   + Wenn Sie einen Schlüssel verwenden, der dem aktuellen Konto zugeordnet ist, wählen Sie die Schlüssel-ID für die **KMS-Schlüssel-ID**.
   + Wenn Sie einen Schlüssel verwenden, der einem anderen Konto zugeordnet ist, geben Sie den ARN für die Schlüssel-ID unter **KMS-Schlüssel-ARN** ein.
**Anmerkung**  
Weitere Informationen zur Erstellung und Verwendung von KMS-Schlüsseln und der zugehörigen Verschlüsselung finden Sie unter [Schlüsselverwaltungsdienst (KMS)](https://docs.aws.amazon.com/kms/latest/developerguide/overview.html).

1. Geben Sie unter **Eingabedaten** den Speicherort des Amazon S3 S3-Buckets ein, der Ihre Eingabedokumente enthält, oder navigieren Sie dorthin, indem Sie **Browse S3** wählen. Dieser Bucket muss sich in derselben Region befinden wie die API, die Sie aufrufen. Die IAM-Rolle, die Sie für Zugriffsberechtigungen für den Klassifizierungsjob verwenden, muss über Leseberechtigungen für den S3-Bucket verfügen.

   Um ein Höchstmaß an Genauigkeit beim Trainieren eines Modells zu erreichen, müssen Sie den Typ der Eingabe an den Modelltyp des Klassifikators anpassen. Der Classifier-Job gibt eine Warnung zurück, wenn Sie systemeigene Dokumente an ein Nur-Text-Modell oder Nur-Text-Dokumente an ein systemeigenes Dokumentenmodell weiterleiten. Weitere Informationen finden Sie unter [Modelle zur Trainingsklassifizierung](training-classifier-model.md).

1. (Optional) Unter **Eingabeformat** können Sie das Format der Eingabedokumente auswählen. Das Format kann ein Dokument pro Datei oder ein Dokument pro Zeile in einer einzigen Datei sein. Ein Dokument pro Zeile gilt nur für Textdokumente. 

1. (Optional) **Im Lesemodus Dokument** können Sie die Standardaktionen zur Textextraktion überschreiben. Weitere Informationen finden Sie unter [Optionen für die Textextraktion festlegen](idp-set-textract-options.md). 

1. Geben Sie unter **Ausgabedaten** den Speicherort des Amazon S3 S3-Buckets ein, in den Amazon Comprehend die Ausgabedaten des Jobs schreiben soll, oder navigieren Sie zu ihm, indem Sie **Browse** S3 wählen. Dieser Bucket muss sich in derselben Region befinden wie die API, die Sie aufrufen. Die IAM-Rolle, die Sie für Zugriffsberechtigungen für den Klassifizierungsjob verwenden, muss über Schreibberechtigungen für den S3-Bucket verfügen.

1. **(Optional) Wenn Sie das Ausgabeergebnis Ihres Jobs verschlüsseln möchten, wählen Sie Verschlüsselung.** Wählen Sie dann aus, ob Sie einen KMS-Schlüssel verwenden möchten, der mit dem aktuellen Konto verknüpft ist, oder einen von einem anderen Konto.
   + Wenn Sie einen Schlüssel verwenden, der dem aktuellen Konto zugeordnet ist, wählen Sie den Schlüsselalias oder die Schlüssel-ID für die **KMS-Schlüssel-ID**.
   + Wenn Sie einen Schlüssel verwenden, der einem anderen Konto zugeordnet ist, geben Sie den ARN für den Schlüsselalias oder die Schlüssel-ID unter **KMS-Schlüssel-ID** ein.

1. (Optional) Um Ihre Ressourcen von einer VPC aus in Amazon Comprehend zu starten, geben Sie die VPC-ID unter **VPC** ein oder wählen Sie die ID aus der Drop-down-Liste aus. 

   1. **Wählen Sie das Subnetz unter Subnetz (s) aus.** Nachdem Sie das erste Subnetz ausgewählt haben, können Sie weitere auswählen.

   1. Wählen Sie unter **Sicherheitsgruppe (n)** die zu verwendende Sicherheitsgruppe aus, falls Sie eine angegeben haben. Nachdem Sie die erste Sicherheitsgruppe ausgewählt haben, können Sie weitere auswählen.
**Anmerkung**  
Wenn Sie eine VPC mit Ihrem Klassifizierungsjob verwenden, müssen die für die Operationen Create und Start `DataAccessRole` verwendeten VPC Berechtigungen für die VPC gewähren, die auf den Ausgabe-Bucket zugreift.

1. Wählen Sie **Job erstellen, um den Job** zur Dokumentenklassifizierung zu erstellen.

# Analyseaufträge für die benutzerdefinierte Klassifizierung (API)
<a name="analysis-jobs-custom-class-api"></a>

Nachdem Sie einen benutzerdefinierten Dokumentenklassifizierer [erstellt und trainiert](train-custom-classifier-api.md) haben, können Sie den Klassifikator verwenden, um Analyseaufträge auszuführen.

Verwenden Sie den [StartDocumentClassificationJob](https://docs.aws.amazon.com/comprehend/latest/APIReference/API_StartDocumentClassificationJob.html)Vorgang, um mit der Klassifizierung von Dokumenten ohne Etikett zu beginnen. Sie geben den S3-Bucket an, der die Eingabedokumente enthält, den S3-Bucket für die Ausgabedokumente und den zu verwendenden Klassifikator.

Um ein Höchstmaß an Genauigkeit beim Trainieren eines Modells zu erreichen, müssen Sie den Typ der Eingabe an den Modelltyp des Klassifikators anpassen. Der Classifier-Job gibt eine Warnung zurück, wenn Sie systemeigene Dokumente an ein Nur-Text-Modell oder Nur-Text-Dokumente an ein systemeigenes Dokumentenmodell weiterleiten. Weitere Informationen finden Sie unter [Modelle zur Trainingsklassifizierung](training-classifier-model.md).

 [StartDocumentClassificationJob](https://docs.aws.amazon.com/comprehend/latest/APIReference/API_StartDocumentClassificationJob.html)ist asynchron. Sobald Sie den Job gestartet haben, können Sie den [DescribeDocumentClassificationJob](https://docs.aws.amazon.com/comprehend/latest/APIReference/API_DescribeDocumentClassificationJob.html)Vorgang verwenden, um seinen Fortschritt zu überwachen. Wenn das `Status` Feld in der Antwort angezeigt wird`COMPLETED`, können Sie an dem von Ihnen angegebenen Speicherort auf die Ausgabe zugreifen.

**Topics**
+ [Mit dem AWS Command Line Interface](#get-started-api-customclass-cli)
+ [Verwenden des AWS SDK für Java oder SDK für Python](#get-started-api-customclass-java)

## Mit dem AWS Command Line Interface
<a name="get-started-api-customclass-cli"></a>

Die folgenden Beispiele für die `StartDocumentClassificationJob` Operation und andere benutzerdefinierte Klassifikatoren APIs mit dem AWS CLI. 

Die folgenden Beispiele verwenden das Befehlsformat für Unix, Linux und macOS. Ersetzen Sie unter Windows den umgekehrten Schrägstrich (\$1), das Unix-Fortsetzungszeichen, am Ende jeder Zeile durch ein Caret-Zeichen oder Zirkumflex (^).

Führen Sie mithilfe des `StartDocumentClassificationJob` Vorgangs einen benutzerdefinierten Klassifizierungsauftrag aus.

```
aws comprehend start-document-classification-job \
     --region region \
     --document-classifier-arn arn:aws:comprehend:region:account number:document-classifier/testDelete \
     --input-data-config S3Uri=s3://S3Bucket/docclass/file name,InputFormat=ONE_DOC_PER_LINE \
     --output-data-config S3Uri=s3://S3Bucket/output \
     --data-access-role-arn arn:aws:iam::account number:role/resource name
```

Rufen Sie mithilfe der `DescribeDocumentClassificationJob` Operation Informationen zu einem benutzerdefinierten Klassifikator mit der Job-ID ab.

```
aws comprehend describe-document-classification-job \
     --region region \
     --job-id job id
```

Listet alle benutzerdefinierten Klassifizierungsaufträge in Ihrem Konto auf, die den `ListDocumentClassificationJobs` Vorgang verwenden.

```
aws comprehend list-document-classification-jobs
     --region region
```

## Verwenden des AWS SDK für Java oder SDK für Python
<a name="get-started-api-customclass-java"></a>

SDK-Beispiele zum Starten eines benutzerdefinierten Klassifizierer-Jobs finden Sie unter[Verwendung `StartDocumentClassificationJob` mit einem AWS SDK oder CLI](example_comprehend_StartDocumentClassificationJob_section.md).

# Ausgaben für asynchrone Analysejobs
<a name="outputs-class-async"></a>

Nach Abschluss eines Analyseauftrags werden die Ergebnisse in dem S3-Bucket gespeichert, den Sie in der Anfrage angegeben haben.

## Ausgaben für Texteingaben
<a name="outputs-class-async-text"></a>

Für jedes Format von Texteingabedokumenten (mehrere Klassen oder mehrere Etiketten) besteht die Jobausgabe aus einer einzigen Datei mit dem Namen. `output.tar.gz` Es handelt sich um eine komprimierte Archivdatei, die eine Textdatei mit der Ausgabe enthält. 

**Ausgabe mit mehreren Klassen**

Wenn Sie einen Klassifikator verwenden, der im Mehrklassenmodus trainiert wurde, werden Ihre Ergebnisse angezeigt. `classes` Jede dieser Klassen `classes` wird verwendet, um beim Training Ihres Klassifikators eine Reihe von Kategorien zu erstellen.

Weitere Informationen zu diesen Ausgabefeldern finden Sie [ClassifyDocument](https://docs.aws.amazon.com/comprehend/latest/APIReference/API_ClassifyDocument.html)in der *Amazon Comprehend API-Referenz*.

In den folgenden Beispielen werden die folgenden Klassen verwendet, die sich gegenseitig ausschließen.

```
DOCUMENTARY
SCIENCE_FICTION
ROMANTIC_COMEDY
SERIOUS_DRAMA
OTHER
```

Wenn Ihr Eingabedatenformat ein Dokument pro Zeile ist, enthält die Ausgabedatei eine Zeile für jede Zeile in der Eingabe. Jede Zeile enthält den Dateinamen, die auf Null basierende Zeilennummer der Eingabezeile und die Klasse oder Klassen, die im Dokument gefunden wurden. Es endet mit der Gewissheit, dass Amazon Comprehend davon überzeugt ist, dass die einzelne Instance korrekt klassifiziert wurde.

Beispiel:

```
{"File": "file1.txt", "Line": "0", "Classes": [{"Name": "Documentary", "Score": 0.8642}, {"Name": "Other", "Score": 0.0381}, {"Name": "Serious_Drama", "Score": 0.0372}]}
{"File": "file1.txt", "Line": "1", "Classes": [{"Name": "Science_Fiction", "Score": 0.5}, {"Name": "Science_Fiction", "Score": 0.0381}, {"Name": "Science_Fiction", "Score": 0.0372}]}
{"File": "file2.txt", "Line": "2", "Classes": [{"Name": "Documentary", "Score": 0.1}, {"Name": "Documentary", "Score": 0.0381}, {"Name": "Documentary", "Score": 0.0372}]}
{"File": "file2.txt", "Line": "3", "Classes": [{"Name": "Serious_Drama", "Score": 0.3141}, {"Name": "Other", "Score": 0.0381}, {"Name": "Other", "Score": 0.0372}]}
```

Wenn Ihr Eingabedatenformat ein Dokument pro Datei ist, enthält die Ausgabedatei eine Zeile für jedes Dokument. Jede Zeile enthält den Namen der Datei und die Klasse oder Klassen, die im Dokument gefunden wurden. Es endet mit der Gewissheit, dass Amazon Comprehend die einzelne Instanz korrekt klassifiziert hat.

Beispiel:

```
{"File": "file0.txt", "Classes": [{"Name": "Documentary", "Score": 0.8642}, {"Name": "Other", "Score": 0.0381}, {"Name": "Serious_Drama", "Score": 0.0372}]}
{"File": "file1.txt", "Classes": [{"Name": "Science_Fiction", "Score": 0.5}, {"Name": "Science_Fiction", "Score": 0.0381}, {"Name": "Science_Fiction", "Score": 0.0372}]}
{"File": "file2.txt", "Classes": [{"Name": "Documentary", "Score": 0.1}, {"Name": "Documentary", "Score": 0.0381}, {"Name": "Domentary", "Score": 0.0372}]}
{"File": "file3.txt", "Classes": [{"Name": "Serious_Drama", "Score": 0.3141}, {"Name": "Other", "Score": 0.0381}, {"Name": "Other", "Score": 0.0372}]}
```

**Ausgabe mit mehreren Labels**

Wenn Sie einen Klassifikator verwenden, der im Multi-Label-Modus trainiert wurde, werden Ihre Ergebnisse angezeigt. `labels` Jedes dieser Labels `labels` wird verwendet, um den Satz von Kategorien zu erstellen, wenn Sie Ihren Klassifikator trainieren.

In den folgenden Beispielen werden diese eindeutigen Bezeichnungen verwendet.

```
SCIENCE_FICTION
ACTION
DRAMA
COMEDY
ROMANCE
```

Wenn Ihr Eingabedatenformat ein Dokument pro Zeile ist, enthält die Ausgabedatei eine Zeile für jede Zeile in der Eingabe. Jede Zeile enthält den Dateinamen, die auf Null basierende Zeilennummer der Eingabezeile und die Klasse oder Klassen, die im Dokument gefunden wurden. Es endet mit der Gewissheit, dass Amazon Comprehend davon überzeugt ist, dass die einzelne Instance korrekt klassifiziert wurde.

Beispiel:

```
{"File": "file1.txt", "Line": "0", "Labels": [{"Name": "Action", "Score": 0.8642}, {"Name": "Drama", "Score": 0.650}, {"Name": "Science Fiction", "Score": 0.0372}]}
{"File": "file1.txt", "Line": "1", "Labels": [{"Name": "Comedy", "Score": 0.5}, {"Name": "Action", "Score": 0.0381}, {"Name": "Drama", "Score": 0.0372}]}
{"File": "file1.txt", "Line": "2", "Labels": [{"Name": "Action", "Score": 0.9934}, {"Name": "Drama", "Score": 0.0381}, {"Name": "Action", "Score": 0.0372}]}
{"File": "file1.txt", "Line": "3", "Labels": [{"Name": "Romance", "Score": 0.9845}, {"Name": "Comedy", "Score": 0.8756}, {"Name": "Drama", "Score": 0.7723}, {"Name": "Science_Fiction", "Score": 0.6157}]}
```

Wenn Ihr Eingabedatenformat ein Dokument pro Datei ist, enthält die Ausgabedatei eine Zeile für jedes Dokument. Jede Zeile enthält den Namen der Datei und die Klasse oder Klassen, die im Dokument gefunden wurden. Es endet mit der Gewissheit, dass Amazon Comprehend die einzelne Instanz korrekt klassifiziert hat.

Beispiel:

```
{"File": "file0.txt", "Labels": [{"Name": "Action", "Score": 0.8642}, {"Name": "Drama", "Score": 0.650}, {"Name": "Science Fiction", "Score": 0.0372}]}
{"File": "file1.txt", "Labels": [{"Name": "Comedy", "Score": 0.5}, {"Name": "Action", "Score": 0.0381}, {"Name": "Drama", "Score": 0.0372}]}
{"File": "file2.txt", "Labels": [{"Name": "Action", "Score": 0.9934}, {"Name": "Drama", "Score": 0.0381}, {"Name": "Action", "Score": 0.0372}]}
{"File": "file3.txt”, "Labels": [{"Name": "Romance", "Score": 0.9845}, {"Name": "Comedy", "Score": 0.8756}, {"Name": "Drama", "Score": 0.7723}, {"Name": "Science_Fiction", "Score": 0.6157}]}
```

## Ausgaben für halbstrukturierte Eingabedokumente
<a name="outputs-class-async-other"></a>

Bei halbstrukturierten Eingabedokumenten kann die Ausgabe die folgenden zusätzlichen Felder enthalten:
+ DocumentMetadata — Extraktionsinformationen über das Dokument. Die Metadaten enthalten eine Liste von Seiten im Dokument, wobei die Anzahl der Zeichen aus jeder Seite extrahiert wurde. Dieses Feld ist in der Antwort vorhanden, wenn die Anfrage den `Byte` Parameter enthielt.
+ DocumentType — Der Dokumenttyp für jede Seite im Eingabedokument. Dieses Feld ist in der Antwort vorhanden, wenn die Anfrage den `Byte` Parameter enthielt.
+ Fehler — Fehler auf Seitenebene, die das System bei der Verarbeitung des Eingabedokuments erkannt hat. Das Feld ist leer, wenn das System keine Fehler festgestellt hat.

Weitere Informationen zu diesen Ausgabefeldern finden Sie [ClassifyDocument](https://docs.aws.amazon.com/comprehend/latest/APIReference/API_ClassifyDocument.html)in der *Amazon Comprehend API-Referenz*.

Das folgende Beispiel zeigt die Ausgabe für eine zweiseitige gescannte PDF-Datei.

```
[{ #First page output
    "Classes": [
        {
            "Name": "__label__2 ",
            "Score": 0.9993996620178223
        },
        {
            "Name": "__label__3 ",
            "Score": 0.0004330444789957255
        }
    ],
    "DocumentMetadata": {
        "PageNumber": 1,
        "Pages": 2
    },
    "DocumentType": "ScannedPDF",
    "File": "file.pdf",
    "Version": "VERSION_NUMBER"
},
#Second page output
{
    "Classes": [
        {
            "Name": "__label__2 ",
            "Score": 0.9993996620178223
        },
        {
            "Name": "__label__3 ",
            "Score": 0.0004330444789957255
        }
    ],
    "DocumentMetadata": {
        "PageNumber": 2,
        "Pages": 2
    },
    "DocumentType": "ScannedPDF",
    "File": "file.pdf",
    "Version": "VERSION_NUMBER" 
}]
```