

Die vorliegende Übersetzung wurde maschinell erstellt. Im Falle eines Konflikts oder eines Widerspruchs zwischen dieser übersetzten Fassung und der englischen Fassung (einschließlich infolge von Verzögerungen bei der Übersetzung) ist die englische Fassung maßgeblich.

# Eingabe- und Ausgabeschnittstelle für den Algorithmus TabTransformer
<a name="InputOutput-TabTransformer"></a>

TabTransformer arbeitet mit Tabellendaten, wobei die Zeilen Beobachtungen, eine Spalte die Zielvariable oder Bezeichnung und die übrigen Spalten Merkmale darstellen. 

Die SageMaker KI-Implementierung von TabTransformer unterstützt CSV für Training und Inferenz:
+ Für **Schulungen ContentType** müssen gültige Eingaben *text/csv* sein.
+ *Für **Inference ContentType** müssen gültige Eingaben text/csv sein.*

**Anmerkung**  
Bei der CSV-Training geht der Algorithmus davon aus, dass die Zielvariable in der ersten Spalte zu finden ist und CSV keinen Header-Datensatz aufweist.   
Bei der CSV-Inferenz geht der Algorithmus davon aus, dass die CSV-Eingabe keine Kennzeichnungsspalte hat. 

**Eingabeformat für Trainingsdaten, Validierungsdaten und kategoriale Features**

Achten Sie darauf, wie Sie Ihre Trainingsdaten für die Eingabe in das Modell formatieren. TabTransformer Sie müssen den Pfad zu einem Amazon-S3-Bucket angeben, der Ihre Trainings- und Validierungsdaten enthält. Sie können auch eine Liste von kategorialen Funktionen einschließen. Verwenden Sie sowohl `training` als auch den `validation` Kanal, um Ihre Eingabedaten bereitzustellen. Alternativ können Sie aber auch nur den `training` Kanal verwenden.

**Verwenden Sie sowohl den `training` als auch den `validation` Kanal**

Sie können Ihre Eingabedaten über zwei S3-Pfade bereitstellen, einen für den `training` Kanal und einen für den `validation` Kanal. Jeder S3-Pfad kann entweder ein S3-Präfix sein, das auf eine oder mehrere CSV-Dateien verweist, oder ein vollständiger S3-Pfad, der auf eine bestimmte CSV-Datei verweist. Die Zielvariablen sollten sich in der ersten Spalte Ihrer CSV-Datei befinden. Die Prädiktorvariablen (Features) sollten sich in den verbleibenden Spalten befinden. Wenn mehrere CSV-Dateien für die `validation` Kanäle `training` oder bereitgestellt werden, verkettet der TabTransformer Algorithmus die Dateien. Die Validierungsdaten werden verwendet, um am Ende jeder Boosting-Iteration eine Validierungspunktzahl zu berechnen. Early-Stopping wird angewendet, wenn sich der Validierungsscore nicht mehr verbessert.

Wenn Ihre Predictors kategorische Features enthalten, können Sie eine JSON-Datei bereitstellen, die `categorical_index.json` an derselben Stelle benannt ist wie Ihre Trainingsdatendatei (en). Wenn Sie eine JSON-Datei für kategorische Features bereitstellen, muss Ihr `training`-Kanal auf ein S3-Präfix verweisen und nicht auf eine spezifische CSV-Datei. Diese Datei sollte ein Python-Wörterbuch enthalten, in dem der Schlüssel die Zeichenfolge `"cat_index_list"` und der Wert eine Liste eindeutiger Ganzzahlen ist. Jede Ganzzahl in der Werteliste sollte den Spaltenindex der entsprechenden kategorischen Features in Ihrer CSV-Datei mit Trainingsdaten angeben. Jeder Wert sollte eine positive Ganzzahl (größer als Null, weil Null den Zielwert darstellt), kleiner als `Int32.MaxValue` (2147483647) und kleiner als die Gesamtzahl der Spalten sein. Es sollte nur eine JSON-Datei mit dem kategorischen Index geben.

**Benutze nur den `training` Kanal**:

Sie können Ihre Eingabedaten alternativ über einen einzigen S3-Pfad für den `training` Kanal bereitstellen. Dieser S3-Pfad sollte auf ein Verzeichnis mit einem Unterverzeichnis mit dem Namen `training/` verweisen, das eine oder mehrere CSV-Dateien enthält. Sie können optional ein weiteres Unterverzeichnis am selben Speicherort namens `validation/` einschließen, das auch eine oder mehrere CSV-Dateien enthält. Wenn die Validierungsdaten nicht angegeben werden, werden 20% Ihrer Trainingsdaten nach dem Zufallsprinzip als Validierungsdaten ausgewählt. Wenn Ihre Predictors kategorische Features enthalten, können Sie eine JSON-Datei bereitstellen, die `categorical_index.json` an derselben Stelle benannt ist wie Ihre Datenunterverzeichnisse.

**Anmerkung**  
Beim CSV-Trainingseingangsmodus muss der für den Algorithmus verfügbare Gesamtarbeitsspeicher (Instance-Zählung verfügbarer Arbeitsspeicher im `InstanceType`) in der Lage sein, den Trainingsdatensatz aufzunehmen.