

Wir aktualisieren den Amazon Machine Learning Learning-Service nicht mehr und akzeptieren auch keine neuen Benutzer mehr dafür. Diese Dokumentation ist für bestehende Benutzer verfügbar, wir aktualisieren sie jedoch nicht mehr. Weitere Informationen finden Sie unter [Was ist Amazon Machine Learning](https://docs.aws.amazon.com/machine-learning/latest/dg/what-is-amazon-machine-learning.html).

Die vorliegende Übersetzung wurde maschinell erstellt. Im Falle eines Konflikts oder eines Widerspruchs zwischen dieser übersetzten Fassung und der englischen Fassung (einschließlich infolge von Verzögerungen bei der Übersetzung) ist die englische Fassung maßgeblich.

# Erstellen eines Datenschemas für Amazon ML
<a name="creating-a-data-schema-for-amazon-ml"></a>

 Ein *Schema* umfasst alle Attribute der Eingabedaten und die entsprechenden Datentypen. Es ermöglicht Amazon ML, die Daten in der Datenquelle zu verstehen. Amazon ML verwendet die Informationen im Schema, um die Eingabedaten zu lesen und zu interpretieren, Statistiken zu berechnen, die richtigen Attributtransformationen anzuwenden und seine Lernalgorithmen zu optimieren. Wenn Sie kein Schema angeben, leitet Amazon ML eines aus den Daten ab. 

## Beispielschema
<a name="schema-example"></a>

Damit Amazon ML die Eingabedaten korrekt lesen und genaue Prognosen erstellen kann, muss jedem Attribut der richtige Datentyp zugewiesen werden. Im Folgenden finden Sie ein Beispiel für die Zuweisung von Datentypen zu Attributen und die Berücksichtigung von Attributen und Datentypen in einem Schema. Wir nennen unser Beispiel "Kundenkampagne", da wir voraussagen möchten, welche Kunden auf unsere E-Mail-Kampagne reagieren werden. Unsere Eingabedatei ist eine CSV-Datei mit neun Spalten:

```
1,3,web developer,basic.4y,no,no,1,261,0

2,1,car repair,high.school,no,no,22,149,0

3,1,car mechanic,high.school,yes,no,65,226,1

4,2,software developer,basic.6y,no,no,1,151,0
```

Dies ist das Schema für diese Daten:

```
{
    "version": "1.0",
    "rowId": "customerId",
    "targetAttributeName": "willRespondToCampaign",
    "dataFormat": "CSV",
    "dataFileContainsHeader": false,
    "attributes": [
        {
            "attributeName": "customerId",
            "attributeType": "CATEGORICAL"
        },
        {
            "attributeName": "jobId",
            "attributeType": "CATEGORICAL"
        },
        {
            "attributeName": "jobDescription",
            "attributeType": "TEXT"
        },
        {
            "attributeName": "education",
            "attributeType": "CATEGORICAL"
        },
        {
            "attributeName": "housing",
            "attributeType": "CATEGORICAL"

        },
        {
            "attributeName": "loan",
            "attributeType": "CATEGORICAL"

        },
        {
            "attributeName": "campaign",
            "attributeType": "NUMERIC"
        },
        {
            "attributeName": "duration",
            "attributeType": "NUMERIC"
        },

        {
            "attributeName": "willRespondToCampaign",
            "attributeType": "BINARY"
        }
        
    ]
}
```

In der Schemadatei für dieses Beispiel hat `rowId` den Wert `customerId`:

```
"rowId": "customerId",
```

Das Attribut `willRespondToCampaign` ist als Zielattribut festgelegt: 

```
"targetAttributeName": "willRespondToCampaign ",
```

 Das Attribut `customerId`und der Datentyp `CATEGORICAL` sind der ersten Spalte zugewiesen, das Attribut `jobId` und der Datentyp `CATEGORICAL` sind der zweiten Spalte zugewiesen, das Attribut `jobDescription` und der Datentyp `TEXT` sind der dritten Spalte zugewiesen, das Attribut `education` und der Datentyp `CATEGORICAL` sind der vierten Spalte zugewiesen usw. Die neunte Spalte ist dem Attribut `willRespondToCampaign` und dem Datentyp `BINARY` zugewiesen, und dieses Attribut ist auch als Zielattribut festgelegt. 

## Das targetAttributeName Feld verwenden
<a name="using-the-targetattributename-field"></a>

Der Wert `targetAttributeName` ist der Name des Attributs, das Sie voraussagen möchten. Sie müssen `targetAttributeName` bei der Erstellung oder der Bewertung eines Modells zuweisen.

Wenn Sie ein ML-Modell trainieren oder auswerten, `targetAttributeName` identifiziert das den Namen des Attributs in den Eingabedaten, das die „richtigen“ Antworten für das Zielattribut enthält. Amazon ML verwendet das Ziel, das die richtigen Antworten enthält, um Muster zu erkennen und ein ML-Modell zu generieren.

Wenn Sie Ihr Modell auswerten, verwendet Amazon ML das Ziel, um die Richtigkeit Ihrer Prognosen zu überprüfen. Nachdem Sie das ML-Modell erstellt und bewertet haben, können Sie Daten ohne zugewiesenen `targetAttributeName` verwenden, um Voraussagen mit Ihrem ML-Modell zu erzeugen.

Sie definieren das Zielattribut in der Amazon ML-Konsole, wenn Sie eine Datenquelle erstellen, oder in einer Schemadatei. Wenn Sie eine eigene Schemadatei erstellen, verwenden Sie die folgende Syntax, um das Zielattribut festzulegen: 

```
"targetAttributeName": "exampleAttributeTarget",
```

 In diesem Beispiel ist `exampleAttributeTarget` der Name des Attributs in Ihrer Eingabedatei, welches das Zielattribut ist.

## Verwenden des Felds rowID
<a name="using-the-rowid-field"></a>

 Die `row ID` ist ein optionales Flag, das einem Attribut in den Eingabedaten zugewiesen ist. Wenn festgelegt, ist das als `row ID` markierte Attribut im Voraussageergebnis enthalten. Anhand dieses Attributs kann einfacher zugeordnet werden, welche Voraussage welcher Beobachtung entspricht. Ein Beispiel für eine gute `row ID` ist eine Kunden-ID oder ein ähnliches eindeutiges Attribut. 

**Anmerkung**  
Die Zeilen-ID dient nur zu Referenzzwecken. Amazon ML verwendet es nicht, wenn ein ML-Modell trainiert wird. Wenn ein Attribut als Zeilen-ID festgelegt wird, kann es nicht mehr zur Schulung eines ML-Modells verwendet werden.

Sie definieren das `row ID` in der Amazon ML-Konsole, wenn Sie eine Datenquelle erstellen, oder in einer Schemadatei. Wenn Sie eine eigene Schemadatei erstellen, verwenden Sie die folgende Syntax, um die `row ID` festzulegen: 

```
"rowId": "exampleRow",
```

 Im voranstehenden Beispiel ist `exampleRow` der Name des Attributs in Ihrer Eingabedatei, welches als Zeilen-ID festgelegt ist. 

Beim Generieren von Stapelvoraussagen erhalten Sie möglicherweise folgendes Ergebnis: 

```
tag,bestAnswer,score
55,0,0.46317
102,1,0.89625
```

 In diesem Beispiel stellt `RowID` das Attribut `customerId` dar. Beispiel: customerId `55` wird auf unsere E-Mail-Kampagne mit geringer Wahrscheinlichkeit (0,46317) reagieren, während `customerId` `102` auf unsere E-Mail-Kampagne mit hoher Wahrscheinlichkeit (0,89625) reagieren wird.

## Verwenden des Felds AttributeType
<a name="assigning-data-types"></a>

In Amazon ML gibt es vier Datentypen für Attribute:

**Binary**  
Wählen Sie `BINARY` für ein Attribut, das nur zwei möglichen Status haben kann, z. B. `yes` oder `no`.  
So kann beispielsweise das Attribut `isNew`, das nachverfolgt, ob eine Person ein neuer Kunde ist, den Wert `true` aufweisen, um anzuzeigen, dass der Kunde ein Neukunde ist, und den Wert `false`, um anzuzeigen, dass er oder sie kein neuer Kunde ist.  
Gültige negative Werte sind `0`, `n`, `no`, `f` und `false`.  
Gültige positive Werte sind `1`, `y`, `yes`, `t` und `true`.  
Amazon ML ignoriert Groß- und Kleinschreibung bei binären Eingaben und entfernt den umgebenden Leerraum. `" FaLSe "` ist beispielsweise ein gültiger Binärwert. Sie können die Binärwerte, die Sie in derselben Datenquelle verwenden, mischen, z. B. mit`true`, und`no`. `1` Amazon ML-Ausgaben nur `0` und `1` für binäre Attribute.

**Kategorisch**  
Wählen Sie `CATEGORICAL` für ein Attribut, das eine begrenzte Anzahl eindeutiger Zeichenfolgenwerte aufnimmt. Beispielsweise eine Benutzer-ID, der Monat und eine ZIP-Code sind kategorische Werte. kategorische Attribute werden als einzelne Zeichenfolge behandelt und nicht weiter als Token verwendet.  


**Numerischer Wert**  
Wählen Sie `NUMERIC` für ein Attribut, das eine Menge als Wert verwendet.   
Beispiel: Temperatur, Gewicht und Klickrate sind numerische Werte.  
Nicht alle Attribute mit Zahlen sind numerisch. Kategorische Attribute, wie z. B. die Tage des Monats und IDs, werden häufig als Zahlen dargestellt. Um als numerische Zahl zu gelten, muss eine Zahl mit einer anderen Zahl vergleichbar sein. Die Kunden-ID `664727` enthält beispielsweise keine Informationen zur Kunden-ID `124552`, aber eine Gewichtung von `10` informiert Sie darüber, dass das Attribut schwerer gewichtet ist als ein Attribut mit einer Gewichtung von `5`. Tage des Monats sind nicht numerischen, da der Erste eines Monats vor oder nach dem Zweiten eines anderen Monat auftreten kann.  
Wenn Sie Amazon ML verwenden, um Ihr Schema zu erstellen, weist es allen Attributen, die Zahlen verwenden, den `Numeric` Datentyp zu. Wenn Amazon ML Ihr Schema erstellt, suchen Sie nach falschen Zuweisungen und setzen Sie diese Attribute auf`CATEGORICAL`. 

**Text**  
Wählen Sie `TEXT` für ein Attribut, das eine Zeichenfolge von Wörtern ist. Beim Einlesen von Textattributen konvertiert Amazon ML diese in Token, die durch Leerzeichen getrennt sind.   
Beispielsweise wird `email subject` zu `email` und `subject` und `email-subject here` wird zu `email-subject` und `here`. 

Wenn der Datentyp für eine Variable im Trainingsschema nicht mit dem Datentyp für diese Variable im Bewertungsschema übereinstimmt, ändert Amazon ML den Bewertungsdatentyp, sodass er dem Trainingsdatentyp entspricht. Wenn das Trainingsdatenschema der Variablen beispielsweise den Datentyp von `TEXT` zuweist`age`, das Bewertungsschema jedoch den Datentyp `NUMERIC` bis zuweist`age`, behandelt Amazon ML die Altersangaben in den Bewertungsdaten als `TEXT` Variablen statt als Variablen. `NUMERIC`

Weitere Informationen zu Statistiken zu den einzelnen Datentypen finden Sie unter [Beschreibende Statistiken](data-insights.md#descriptive-statistics).

## Bereitstellung eines Schemas für Amazon ML
<a name="methods-for-creating-a-data-schema"></a>

Jede Datenquelle braucht ein Schema. Sie können zwischen zwei Möglichkeiten wählen, Amazon ML ein Schema zur Verfügung zu stellen: 
+  Erlauben Sie Amazon ML, die Datentypen der einzelnen Attribute in der Eingabedatendatei abzuleiten und automatisch ein Schema für Sie zu erstellen.
+  Geben Sie eine Schemadatei an, wenn Sie Ihre Amazon Simple Storage Service (Amazon S3) -Daten hochladen.

### Erlauben Sie Amazon ML, Ihr Schema zu erstellen
<a name="allowing-amazon-create-your-schema"></a>

Wenn Sie die Amazon ML-Konsole verwenden, um eine Datenquelle zu erstellen, verwendet Amazon ML einfache Regeln, die auf den Werten Ihrer Variablen basieren, um Ihr Schema zu erstellen. Wir empfehlen Ihnen dringend, das von Amazon ML erstellte Schema zu überprüfen und die Datentypen zu korrigieren, falls sie nicht korrekt sind. 

### Bereitstellen eines Schemas
<a name="providing-schema-to-amazon-ml"></a>

 Nachdem Sie Ihre Schemadatei erstellt haben, müssen Sie sie für Amazon ML verfügbar machen. Sie haben zwei Optionen: 

1.  Stellen Sie das Schema mithilfe der Amazon ML-Konsole bereit.

    Verwenden Sie die Konsole zum Erstellen Ihrer Datenquelle, und berücksichtigen Sie dabei die Schemadatei, indem Sie die Erweiterung .schema an den Namen Ihrer Eingabedatendatei anhängen. Wenn der Amazon Simple Storage Service (Amazon S3) -URI zu Ihren Eingabedaten beispielsweise s3://my-bucket-name/data/input.csv, the URI to your schema will be s3://my-bucket-name/data/input.csv.schema lautet. Amazon ML findet automatisch die von Ihnen bereitgestellte Schemadatei, anstatt zu versuchen, das Schema aus Ihren Daten abzuleiten. 

    Um ein Verzeichnis mit Dateien als Dateneingabe für Amazon ML zu verwenden, hängen Sie die Erweiterung.schema an Ihren Verzeichnispfad an. Wenn sich Ihre Datendateien beispielsweise am Speicherort s3:///.schema befinden. examplebucket/path/to/data/, the URI to your schema will be s3://examplebucket/path/to/data 

1.  Stellen Sie das Schema mithilfe der Amazon ML-API bereit.

    Wenn Sie die Amazon ML-API aufrufen möchten, um Ihre Datenquelle zu erstellen, können Sie die Schemadatei in Amazon S3 hochladen und dann den URI zu dieser Datei im `DataSchemaLocationS3` API-Attribut angeben. `CreateDataSourceFromS3` [Weitere Informationen finden Sie unter CreateDataSourceFrom S3.](https://docs.aws.amazon.com/machine-learning/latest/APIReference/API_CreateDataSourceFromS3.html) 

    Sie können das Schema direkt in der Payload `CreateDataSource` von\* angeben, `APIs` anstatt es zuerst in Amazon S3 zu speichern. Dazu fügen Sie die vollständige Schemazeichenfolge in das `DataSchema` Attribut `CreateDataSourceFromS3``CreateDataSourceFromRDS`, oder `CreateDataSourceFromRedshift` APIs ein. Weitere Informationen finden Sie unter [Amazon Machine Learning API Reference](https://docs.aws.amazon.com/machine-learning/latest/APIReference/). 