

Die vorliegende Übersetzung wurde maschinell erstellt. Im Falle eines Konflikts oder eines Widerspruchs zwischen dieser übersetzten Fassung und der englischen Fassung (einschließlich infolge von Verzögerungen bei der Übersetzung) ist die englische Fassung maßgeblich.

# Tabellendaten
<a name="clarify-processing-job-data-format-tabular"></a>

Tabellendaten beziehen sich auf Daten, die in einen zweidimensionalen Datenrahmen geladen werden können. In dem Frame steht jede Zeile für einen Datensatz, und jeder Datensatz hat eine oder mehrere Spalten. Bei den Werten in jeder Zelle des Datenrahmens kann es sich um numerische, kategoriale oder Textdatentypen handeln.

## Voraussetzungen für tabellarische Datensätze
<a name="clarify-processing-job-data-format-tabular-prereq"></a>

Vor der Analyse sollten für Ihren Datensatz bereits alle erforderlichen Vorverarbeitungsschritte durchgeführt worden sein. Dazu gehören Datenbereinigung oder Feature-Engineering.

Sie können einen oder mehrere Datensätze bereitstellen. Wenn Sie mehrere Datensätze angeben, verwenden Sie die folgenden Hinweise, um sie für den Verarbeitungsauftrag SageMaker Clarify zu identifizieren.
+ Verwenden Sie entweder eine [ProcessingInput](https://docs.aws.amazon.com/sagemaker/latest/APIReference/API_ProcessingInput.html)benannte Konfiguration `dataset` oder die Analysekonfiguration`dataset_uri`, um den Hauptdatensatz anzugeben. Weitere Informationen über `dataset_uri` finden Sie in der Parameterliste unter [Analyse-Konfigurationsdateien](clarify-processing-job-configure-analysis.md).
+ Verwenden Sie den in der Analysekonfigurationsdatei bereitgestellten `baseline` Parameter. Der Basisdatensatz ist für die SHAP-Analyse erforderlich. Weitere Informationen zur Analysekonfigurationsdatei, einschließlich Beispielen, finden Sie unter [Analyse-Konfigurationsdateien](clarify-processing-job-configure-analysis.md).

In der folgenden Tabelle sind die unterstützten Datenformate, ihre Dateierweiterungen und MIME-Typen aufgeführt.


| Data format (Datenformat) | Dateierweiterung | MIME-Typ | 
| --- | --- | --- | 
|  CSV  |  csv  |  `text/csv`  | 
|  JSON-Lines  |  jsonl  |  `application/jsonlines`  | 
|  JSON  |  json  |  `application/json`  | 
|  Parquet  |  parquet  |  „Anwendung/X-Parkett“  | 

Die folgenden Abschnitte zeigen beispielhafte tabellarische Datensätze in den Formaten CSV, JSON Lines und Apache Parquet.

### Voraussetzungen für tabellarische Datensätze im CSV-Format
<a name="clarify-processing-job-data-format-tabular-prereq-csv"></a>

Der SageMaker Clarif-Verarbeitungsjob dient zum Laden von CSV-Datendateien im [csv.Excel-Dialekt](https://docs.python.org/3/library/csv.html#csv.excel). Er ist jedoch flexibel genug, um auch andere Leitungsabschlüsse, einschließlich `\n` und `\r`, zu unterstützen.

Aus Kompatibilitätsgründen müssen alle CSV-Datendateien, die für den SageMaker Clarif-Verarbeitungsauftrag bereitgestellt werden, in UTF-8 codiert sein.

Wenn Ihr Datensatz keine Kopfzeile enthält, gehen Sie folgendermaßen vor:
+ Stellen Sie die Bezeichnung der Analysekonfiguration auf `0` Index ein. Das bedeutet, dass die erste Spalte die Ground-Truth-Beschriftung ist.
+ Wenn der Parameter `headers` gesetzt ist, legen Sie ihn `label` auf die Überschrift der Beschriftungsspalte fest, um die Position der Beschriftungsspalte anzugeben. Alle anderen Spalten werden als Features bezeichnet.

  Das Folgende ist ein Beispiel für einen Datensatz, der keine Kopfzeile enthält.

  ```
  1,5,2.8,2.538,This is a good product
  0,1,0.79,0.475,Bad shopping experience
  ...
  ```

Wenn Ihre Daten eine Kopfzeile enthalten, setzen Sie den Parameter `label` auf Index `0`. Verwenden Sie die Ground-Truth-Labelüberschrift, um die Position der Labelspalte `Label` anzugeben. Alle anderen Spalten werden als Features bezeichnet.

Nachfolgend sehen Sie ein Beispiel für eine Datenmenge, die eine Kopfzeile enthält.

```
Label,Rating,A12,A13,Comments
1,5,2.8,2.538,This is a good product
0,1,0.79,0.475,Bad shopping experience
...
```

### Voraussetzungen für tabellarische Datensätze im JSON-Format
<a name="clarify-processing-job-data-format-tabular-prereq-json"></a>

JSON ist ein flexibles Format zur Darstellung strukturierter Daten mit beliebiger Komplexität. Die SageMaker Clarify-Unterstützung für JSON ist nicht auf ein bestimmtes Format beschränkt und ermöglicht somit flexiblere Datenformate im Vergleich zu Datensätzen in den Formaten CSV oder JSON Lines. Diese Anleitung zeigt Ihnen, wie Sie eine Analysekonfiguration für tabellarische Daten im JSON-Format einrichten. 

**Anmerkung**  
Um die Kompatibilität zu gewährleisten, müssen alle JSON-Datendateien, die für den SageMaker Clarif-Verarbeitungsjob bereitgestellt werden, in UTF-8 codiert sein.

Im Folgenden finden Sie ein Beispiel für Eingabedaten mit Datensätzen, die einen Schlüssel der obersten Ebene, eine Liste von Funktionen und eine Bezeichnung enthalten.

```
[
    {"features":[1,5,2.8,2.538,"This is a good product"],"label":1},
    {"features":[0,1,0.79,0.475,"Bad shopping experience"],"label":0},
    ...
]
```

Bei einer Beispielkonfigurationsanalyse für den vorherigen Eingabe-Beispieldatensatz sollten die folgenden Parameter festgelegt werden:
+ Der `label` Parameter sollte den [JMESPath](https://jmespath.org/)Ausdruck verwenden`[*].label`, um das Ground-Truth-Etikett für jeden Datensatz im Datensatz zu extrahieren. Der JMESPath Ausdruck sollte eine Liste von Bezeichnungen erzeugen, wobei das i-t-Label dem i-th-Datensatz entspricht.
+ Der `features` Parameter sollte den JMESPath Ausdruck verwenden`[*].features`, um eine Reihe von Features für jeden Datensatz im Datensatz zu extrahieren. Der JMESPath Ausdruck sollte ein 2D-Array oder eine 2D-Matrix erzeugen, in der die i-te Zeile die Merkmalswerte für den i-ten Datensatz enthält.

  Im Folgenden finden Sie Beispieleingabedaten mit Datensätzen, die einen Schlüssel der obersten Ebene und einen verschachtelten Schlüssel enthalten, der eine Liste von Features und Bezeichnungen für jeden Datensatz enthält.

```
{
    "data": [
        {"features":[1,5,2.8,2.538,"This is a good product"],"label":1}},
        {"features":[0,1,0.79,0.475,"Bad shopping experience"],"label":0}}
    ]
}
```

Bei einer Beispielkonfigurationsanalyse für den vorherigen Eingabe-Beispieldatensatz sollten die folgenden Parameter festgelegt werden:
+ Der `label` Parameter verwendet den [JMESPath](https://jmespath.org/)Ausdruck`data[*].label`, um das Ground-Truth-Label für jeden Datensatz im Datensatz zu extrahieren. Der JMESPath Ausdruck sollte eine Liste von Bezeichnungen erzeugen, wobei das i-th-Label für den Datensatz steht.
+ Der `features` Parameter verwendet den JMESPath Ausdruck`data[*].features`, um das Feature-Array für jeden Datensatz im Datensatz zu extrahieren. Der JMESPath Ausdruck sollte ein 2D-Array oder eine 2D-Matrix erzeugen, in der die i-te Zeile die Merkmalswerte für den i-ten Datensatz enthält.

### Voraussetzungen für tabellarische Datensätze im Format JSON Lines
<a name="clarify-processing-job-data-format-tabular-prereq-jsonlines"></a>

JSON Lines ist ein Textformat zur Darstellung strukturierter Daten, wobei jede Zeile ein gültiges JSON-Objekt ist. Derzeit unterstützen SageMaker Clarife-Verarbeitungsaufträge nur JSON-Zeilen im SageMaker AI-Dense Format. Um dem erforderlichen Format zu entsprechen, sollten alle Funktionen eines Datensatzes in einem einzigen JSON-Array aufgelistet werden. Weitere Informationen zu JSON-Zeilen finden Sie unter [JSONLINES-Anfrageformat](cdf-inference.md#cm-jsonlines).

**Anmerkung**  
Alle JSON Lines-Datendateien, die für den SageMaker Clarif-Verarbeitungsauftrag bereitgestellt werden, müssen in UTF-8 codiert sein, um die Kompatibilität sicherzustellen.

Im Folgenden finden Sie ein Beispiel dafür, wie Sie eine Analysekonfiguration für einen Datensatz festlegen, der einen **Schlüssel der obersten Ebene** und eine **Liste** von Elementen enthält. 

```
{"features":[1,5,2.8,2.538,"This is a good product"],"label":1}
{"features":[0,1,0.79,0.475,"Bad shopping experience"],"label":0}
...
```

Bei der Konfigurationsanalyse für das vorherige Datensatzbeispiel sollten die Parameter wie folgt festgelegt werden:
+ Um die Position des Ground-Truth-Labels anzugeben, `label` sollte der Parameter auf den Ausdruck gesetzt werden. JMESPath `label`
+ Um die Position der Feature-Anordnung anzugeben, `features` sollte der Parameter auf den JMESPath Ausdruck gesetzt werden`features`.

Im Folgenden finden Sie ein Beispiel dafür, wie Sie eine Analysekonfiguration für einen Datensatz festlegen, der einen Schlüssel der **obersten Ebene** und einen **verschachtelten Schlüssel** enthält, der eine **Liste** von Elementen enthält. 

```
{"data":{"features":[1,5,2.8,2.538,"This is a good product"],"label":1}}
{"data":{"features":[0,1,0.79,0.475,"Bad shopping experience"],"label":0}}
...
```

Bei der Konfigurationsanalyse für das vorherige Datensatzbeispiel sollten die Parameter wie folgt festgelegt werden:
+ Der Parameter `label` sollte auf den JMESPath Ausdruck `data.label` gesetzt werden, der die Position des Ground-Truth-Labels angibt.
+ Der Parameter `features` sollte auf den JMESPath Ausdruck gesetzt werden`data.features`, der die Position der Feature-Anordnung angibt.

### Voraussetzungen für tabellarische Datensätze im Parquet-Format
<a name="clarify-processing-job-data-format-tabular-prereq-parquet"></a>

[Parquet](https://parquet.apache.org/) ist ein spaltenorientiertes binäres Datenformat. Derzeit unterstützen SageMaker Clarif-Verarbeitungsaufträge das Laden von Parquet-Datendateien nur dann, wenn die Anzahl der Verarbeitungsinstanzen `1` bei

Da SageMaker Clarif-Verarbeitungsaufträge keine Endpunktanfrage oder Endpunktantwort im Parquet-Format unterstützen, müssen Sie das Datenformat der Endpunktanforderung angeben, indem Sie den Analysekonfigurationsparameter `content_type` auf ein unterstütztes Format festlegen. Weitere Informationen finden Sie unter `content_type` in [Analyse-Konfigurationsdateien](clarify-processing-job-configure-analysis.md).

Die Parquet-Daten müssen Spaltennamen haben, die als Zeichenketten formatiert sind. Verwenden Sie den `label` Analysekonfigurationsparameter, um den Namen der Beschriftungspalte so festzulegen, dass er die Position der Ground-Truth-Beschriftungen angibt. Alle anderen Spalten werden als Features bezeichnet.