

Die vorliegende Übersetzung wurde maschinell erstellt. Im Falle eines Konflikts oder eines Widerspruchs zwischen dieser übersetzten Fassung und der englischen Fassung (einschließlich infolge von Verzögerungen bei der Übersetzung) ist die englische Fassung maßgeblich.

# Verstehen Sie die Ergebnisse Ihres Auftrags zur Modellbewertung
<a name="clarify-foundation-model-evaluate-results"></a>

In den folgenden Abschnitten erfahren Sie, wie Sie die Ergebnisse Ihrer Modellbewertung interpretieren. Die in Amazon S3 gespeicherten JSON-Ausgabedaten für automatische und menschliche Modellevaluierungsaufträge unterscheiden sich. Sie können herausfinden, wo die Ergebnisse eines Auftrags in Amazon S3 gespeichert werden, indem Sie Studio verwenden. Öffnen Sie dazu die Startseite der **Model-Evaluierungen** in Studio und wählen Sie Ihren Job aus der Tabelle aus.

## Sehen Sie sich die Ergebnisse der Modellevaluierung in Studio an
<a name="model-evaluation-console-results"></a>

Wenn Ihre Modellevaluierung abgeschlossen ist, können Sie anhand der folgenden Schritte sehen, wie Ihr Modell im Vergleich zu dem von Ihnen bereitgestellten Datensatz abgeschnitten hat:

1. Wählen Sie im Studio-Navigationsbereich **Jobs** und dann **Modellevaluierung** aus.

1. Auf der Seite **Model Evaluations** werden erfolgreich eingereichte Jobs in einer Liste angezeigt. Die Liste enthält den Jobnamen, den Status, den Modellnamen, den Evaluierungstyp und das Datum, an dem er erstellt wurde.

1. Wenn Ihre Modellbewertung erfolgreich abgeschlossen wurde, können Sie auf den Jobnamen klicken, um eine Zusammenfassung der Bewertungsergebnisse zu erhalten. 

1. Wählen Sie zum Anzeigen Ihres Personalanalyseberichts den Namen der Stelle aus, die Sie untersuchen möchten.

Informationen zur Interpretation der Ergebnisse der Modellevaluierung finden Sie in dem Thema, das der Art der Modellevaluierungsaufgabe entspricht, deren Ergebnisse Sie interpretieren möchten:
+ [Machen Sie sich mit den Ergebnissen einer menschlichen Evaluierungsaufgabe vertraut](clarify-foundation-model-evaluate-results-human.md)
+ [Machen Sie sich mit den Ergebnissen eines automatischen Bewertungsauftrags vertraut](clarify-foundation-model-evaluate-auto-ui-results.md)

# Machen Sie sich mit den Ergebnissen einer menschlichen Evaluierungsaufgabe vertraut
<a name="clarify-foundation-model-evaluate-results-human"></a>

Bei der Erstellung eines Auftrags zur Modellbewertung mit menschlichen Mitarbeitern haben Sie einen oder mehrere *Metriktypen* ausgewählt. Wenn Mitglieder des Arbeitsteams eine Antwort im Mitarbeiterportal auswerten, werden ihre Antworten im `humanAnswers` JSON-Objekt gespeichert. Wie diese Antworten gespeichert werden, hängt vom Metriktyp ab, der bei der Erstellung des Jobs ausgewählt wurde.

In den folgenden Abschnitten werden diese Unterschiede und Beispiele erläutert.

## JSON-Ausgabereferenz
<a name="clarify-foundation-model-evaluate-results-human-ref"></a>

Wenn ein Auftrag zur Modellbewertung abgeschlossen ist, werden die Ergebnisse in Amazon S3 als JSON-Datei gespeichert. Das JSON-Objekt enthält drei Knoten auf hoher Ebene `humanEvaluationResult``inputRecord`, und. `modelResponses` Der `humanEvaluationResult` Schlüssel ist ein Knoten auf hoher Ebene, der die Antworten des Arbeitsteams enthält, das der Modellevaluierungsaufgabe zugewiesen wurde. Der `inputRecord` Schlüssel ist ein Knoten auf hoher Ebene, der die Eingabeaufforderungen enthält, die den Modellen bei der Erstellung des Modellevaluierungsjobs zur Verfügung gestellt wurden. Der `modelResponses` Schlüssel ist ein Knoten auf hoher Ebene, der die Antworten auf die Eingabeaufforderungen der Modelle enthält.

In der folgenden Tabelle sind die Schlüssel-Wert-Paare zusammengefasst, die in der JSON-Ausgabe des Modellevaluierungsjobs gefunden wurden.

Die nachfolgenden Abschnitte enthalten detailliertere Informationen zu den einzelnen Schlüssel-Wert-Paaren.


****  

| Parameter | Beispiel | Description | 
| --- | --- | --- | 
|  `flowDefinitionArn`  |  arn:aws:sagemaker:us-west-2:111122223333:flow-definition/flow-definition-name  |  Der ARN des Workflows für die menschliche Überprüfung (Flow-Definition), der den Human Loop erstellt hat.  | 
| humanAnswers |  Eine Liste von JSON-Objekten, die für die ausgewählten Bewertungsmetriken spezifisch sind. Weitere Informationen hierzu finden Sie unter [Schlüsselwertpaare finden Sie unter `humanAnswers`](#clarify-foundation-model-evaluate-humanAnswers).  |  Eine Liste von JSON-Objekten, die Antworten von Mitarbeitern enthalten.  | 
|  `humanLoopName`  | system-generated-hash | Eine systemseitig generierte Hexadezimalzeichenfolge mit 40 Zeichen. | 
| inputRecord |  <pre>"inputRecord": {<br />    "prompt": {<br />        "text": "Who invented the airplane?"<br />    },<br />    "category": "Airplanes",<br />    "referenceResponse": {<br />        "text": "Orville and Wilbur Wright"<br />    },<br />    "responses":<br /><br />        [{<br />            "modelIdentifier": "meta-textgeneration-llama-codellama-7b",<br />            "text": "The Wright brothers, Orville and Wilbur Wright are widely credited with inventing and manufacturing the world's first successful airplane."<br />        }]<br />}</pre>  | Ein JSON-Objekt, das eine Eingabeaufforderung aus dem Eingabedatensatz enthält.  | 
| modelResponses |  <pre>"modelResponses": [{<br />    "modelIdentifier": "arn:aws:bedrock:us-west-2::foundation-model/model-id",<br />    "text": "the-models-response-to-the-prompt"<br />}]</pre>  | Die einzelnen Antworten der Modelle. | 
| inputContent | <pre>{<br />    "additionalDataS3Uri":"s3://user-specified-S3-URI-path/datasets/dataset-name/records/record-number/human-loop-additional-data.json",<br />    "evaluationMetrics":[<br />        {<br />		  "description":"brief-name",<br />		  "metricName":"metric-name",<br />		  "metricType":"IndividualLikertScale"<br />	  }<br />    ],<br />    "instructions":"example instructions"<br />}</pre> |  Der Inhalt des Human-Loop-Eingangs, der zum Starten des Human-Loops in Ihrem Amazon-S3-Bucket erforderlich ist.  | 
| modelResponseIdMap | <pre>{<br />   "0": "sm-margaret-meta-textgeneration-llama-2-7b-1711485008-0612",<br />   "1": "jumpstart-dft-hf-llm-mistral-7b-ins-20240327-043352"<br />}</pre> |  Beschreibt, wie jedes Modell in der dargestellt wird`answerContent`.  | 

### Schlüsselwertpaare finden Sie unter `humanEvaluationResult`
<a name="clarify-foundation-model-evaluate-humanEvaluationResult"></a>

 Die folgenden Schlüsselwertpaare wurden `humanEvaluationResult` in der Ausgabe Ihres Modellbewertungsjobs unter gefunden.

Informationen zu den Schlüssel-Wert-Paaren, die mit verknüpft sind`humanAnswers`, finden Sie unter[Schlüsselwertpaare finden Sie unter `humanAnswers`](#clarify-foundation-model-evaluate-humanAnswers).

**`flowDefinitionArn`**
+ Der ARN der Flow-Definition, die verwendet wurde, um den Modellevaluierungsjob abzuschließen.
+ *Beispiel:*`arn:aws:sagemaker:us-west-2:111122223333:flow-definition/flow-definition-name`

**`humanLoopName`**
+ Eine systemseitig generierte Hexadezimalzeichenfolge mit 40 Zeichen.

**`inputContent`**
+ Dieser Schlüsselwert beschreibt die *Metriktypen* und die Anweisungen, die Sie für Mitarbeiter im Mitarbeiterportal bereitgestellt haben.
  + `additionalDataS3Uri`: Der Ort in Amazon S3, an dem die Anweisungen für Mitarbeiter gespeichert werden.
  + `instructions`: Die Anweisungen, die Sie den Mitarbeitern im Worker-Portal zur Verfügung gestellt haben.
  + `evaluationMetrics`: Der Name der Metrik und ihre Beschreibung. Der entscheidende Wert `metricType` ist das Tool, das den Mitarbeitern zur Verfügung gestellt wird, um die Antworten der Modelle zu bewerten.

**`modelResponseIdMap`**
+ Dieses Schlüsselwertpaar gibt die vollständigen Namen der ausgewählten Modelle an und gibt an, wie die Auswahlmöglichkeiten der Mitarbeiter den Modellen in den `humanAnswers` Schlüsselwertpaaren zugeordnet werden.

### Schlüsselwertpaare finden Sie unter `inputRecord`
<a name="clarify-foundation-model-evaluate-inputRecord"></a>

Die folgenden Einträge beschreiben die `inputRecord` Schlüssel-Wert-Paare.

**`prompt`**
+ Der Text der an das Modell gesendeten Aufforderung.

**`category`**
+ Eine optionale Kategorie, die die Aufforderung klassifiziert. Sichtbar für Mitarbeiter während der Modellevaluierung im Mitarbeiterportal.
+ *Beispiel:*`"American cities"`

**`referenceResponse`**
+ Ein optionales Feld aus dem Eingabe-JSON, das verwendet wird, um den Ground Truth anzugeben, auf den sich die Mitarbeiter bei der Bewertung beziehen sollen

**`responses`**
+ Ein optionales Feld aus dem Eingabe-JSON, das Antworten aus anderen Modellen enthält.

Ein Beispiel für einen JSON-Eingabedatensatz.

```
{
  "prompt": {
     "text": "Who invented the airplane?"
  },
  "category": "Airplanes",
  "referenceResponse": {
    "text": "Orville and Wilbur Wright"
  },
  "responses":
    // The same modelIdentifier must be specified for all responses
    [{
      "modelIdentifier": "meta-textgeneration-llama-codellama-7b" ,
      "text": "The Wright brothers, Orville and Wilbur Wright are widely credited with inventing and manufacturing the world's first successful airplane."
    }]
}
```

### Schlüsselwertpaare finden Sie unter `modelResponses`
<a name="clarify-foundation-model-evaluate-modelResponses"></a>

Ein Array von Schlüsselwertpaaren, das die Antworten der Modelle und das Modell, das die Antworten geliefert hat, enthält.

**`text`**
+ Die Reaktion des Modells auf die Aufforderung.

**`modelIdentifier`**
+ Der Name des Modells

### Schlüsselwertpaare finden Sie unter `humanAnswers`
<a name="clarify-foundation-model-evaluate-humanAnswers"></a>

Eine Reihe von Schlüsselwertpaaren, die die Antworten aus den Modellen und die Art und Weise, wie Mitarbeiter die Modelle bewertet haben, enthält.

**`acceptanceTime`**
+ Wenn der Mitarbeiter die Aufgabe im Workerportal angenommen hat.

**`submissionTime`**
+ Als der Arbeitnehmer seine Antwort eingereicht hat.

**`timeSpentInSeconds`**
+ Wie viel Zeit hat der Mitarbeiter mit der Erledigung der Aufgabe verbracht?

**`workerId`**
+ Die ID des Mitarbeiters, der die Aufgabe erledigt hat.

**`workerMetadata`**
+ Metadaten darüber, welchem Arbeitsteam dieser Modellevaluierungsaufgabe zugewiesen wurde.

#### Format des `answerContent` JSON-Arrays
<a name="clarify-foundation-model-evaluate-humanAnswers-answerconent"></a>

Die Struktur der Antwort hängt von den Bewertungsmetriken ab, die bei der Erstellung des Model-Evaluierungsjobs ausgewählt wurden. Jede Antwort oder Antwort eines Mitarbeiters wird in einem neuen JSON-Objekt aufgezeichnet.

**`answerContent`**
+ `evaluationResults`enthält die Antworten des Arbeiters.
  + Wenn **die Auswahlschaltflächen** ausgewählt sind, lauten die Ergebnisse der einzelnen Mitarbeiter wie folgt`"evaluationResults": "comparisonChoice"`. 

    `metricName`: Name der Metrik.

    `result`: Das JSON-Objekt gibt an, welches Modell der Worker mit einem `0` oder ausgewählt hat`1`. Um zu sehen, welchem Wert ein Modell zugeordnet ist,`modelResponseIdMap`.
  + Wenn die **Likert-Skala „Vergleich**“ ausgewählt ist, sind die Ergebnisse der einzelnen Mitarbeiter identisch. `"evaluationResults": "comparisonLikertScale"` 

    `metricName`: Name der Metrik.

    `leftModelResponseId`: Gibt an, `modelResponseIdMap` was auf der linken Seite des Arbeiterportals angezeigt wurde.

    `rightModelResponseId`: Gibt an, `modelResponseIdMap` was auf der linken Seite des Arbeiterportals angezeigt wurde.

    `result`: Das JSON-Objekt gibt an, welches Modell der Worker mit einem `0` oder ausgewählt hat`1`. Um zu sehen, welchem Wert ein Modell zugeordnet ist, `modelResponseIdMap`
  + Wenn die Option **Ordinaler Rang** ausgewählt ist, sind die Ergebnisse für jeden Mitarbeiter gleich. `"evaluationResults": "comparisonRank"`

    `metricName`: Name der Metrik.

    `result`: Array von JSON-Objekten. Für jedes Modell (`modelResponseIdMap`) geben die Arbeiter eine `rank` an.

    ```
    "result": [{
    	"modelResponseId": "0",
    	"rank": 1
    }, {
    	"modelResponseId": "1",
    	"rank": 1
    }]
    ```
  + Wenn bei der **Likert-Skala die Auswertung einer einzelnen Modellantwort** ausgewählt ist, werden die Ergebnisse gespeichert, in `"evaluationResults": "individualLikertScale"` denen ein Mitarbeiter arbeitet. Dies ist ein JSON-Array, das die Punktzahlen enthält, die bei der Erstellung des Jobs `metricName` angegeben wurden.

    `metricName`: Name der Metrik.

    `modelResponseId`: Das Modell, das bewertet wurde. Um zu sehen, welchem Wert ein Modell zugeordnet ist,`modelResponseIdMap`.

    `result`: Ein Schlüsselwertpaar, das den vom Mitarbeiter ausgewählten Likert-Skalenwert angibt.
  + Wenn „**Daumen hoch/runter**“ ausgewählt ist, werden die Ergebnisse eines Workers als JSON-Array gespeichert. `"evaluationResults": "thumbsUpDown"`

    `metricName`: Name der Metrik.

    `result`: Entweder `true` oder `false` wie es sich auf die bezieht. `metricName` Wenn ein Arbeitnehmer Daumen hoch wählt,`"result" : true`.

## Beispielausgabe einer Jobausgabe zur Modellbewertung
<a name="clarify-foundation-model-evaluate-results-human-example"></a>

Das folgende JSON-Objekt ist eine Beispielausgabe eines Auftrags zur Modellbewertung, die in Amazon S3 gespeichert wird. Weitere Informationen zu den einzelnen Schlüsselwertepaaren finden Sie unter[JSON-Ausgabereferenz](#clarify-foundation-model-evaluate-results-human-ref).

Aus Gründen der Übersichtlichkeit enthält dieser Job nur die Antworten von zwei Mitarbeitern. Einige Schlüsselwertpaare wurden aus Gründen der besseren Lesbarkeit möglicherweise auch gekürzt

```
{
	"humanEvaluationResult": {
		"flowDefinitionArn": "arn:aws:sagemaker:us-west-2:111122223333:flow-definition/flow-definition-name",
        "humanAnswers": [
            {
                "acceptanceTime": "2024-06-07T22:31:57.066Z",
                "answerContent": {
                    "evaluationResults": {
                        "comparisonChoice": [
                            {
                                "metricName": "Fluency",
                                "result": {
                                    "modelResponseId": "0"
                                }
                            }
                        ],
                        "comparisonLikertScale": [
                            {
                                "leftModelResponseId": "0",
                                "metricName": "Coherence",
                                "result": 1,
                                "rightModelResponseId": "1"
                            }
                        ],
                        "comparisonRank": [
                            {
                                "metricName": "Toxicity",
                                "result": [
                                    {
                                        "modelResponseId": "0",
                                        "rank": 1
                                    },
                                    {
                                        "modelResponseId": "1",
                                        "rank": 1
                                    }
                                ]
                            }
                        ],
                        "individualLikertScale": [
                            {
                                "metricName": "Correctness",
                                "modelResponseId": "0",
                                "result": 2
                            },
                            {
                                "metricName": "Correctness",
                                "modelResponseId": "1",
                                "result": 3
                            },
                            {
                                "metricName": "Completeness",
                                "modelResponseId": "0",
                                "result": 1
                            },
                            {
                                "metricName": "Completeness",
                                "modelResponseId": "1",
                                "result": 4
                            }
                        ],
                        "thumbsUpDown": [
                            {
                                "metricName": "Accuracy",
                                "modelResponseId": "0",
                                "result": true
                            },
                            {
                                "metricName": "Accuracy",
                                "modelResponseId": "1",
                                "result": true
                            }
                        ]
                    }
                },
                "submissionTime": "2024-06-07T22:32:19.640Z",
                "timeSpentInSeconds": 22.574,
                "workerId": "ead1ba56c1278175",
                "workerMetadata": {
                    "identityData": {
                        "identityProviderType": "Cognito",
                        "issuer": "https://cognito-idp.us-west-2.amazonaws.com/us-west-2_WxGLvNMy4",
                        "sub": "cd2848f5-6105-4f72-b44e-68f9cb79ba07"
                    }
                }
            },
            {
                "acceptanceTime": "2024-06-07T22:32:19.721Z",
                "answerContent": {
                    "evaluationResults": {
                        "comparisonChoice": [
                            {
                                "metricName": "Fluency",
                                "result": {
                                    "modelResponseId": "1"
                                }
                            }
                        ],
                        "comparisonLikertScale": [
                            {
                                "leftModelResponseId": "0",
                                "metricName": "Coherence",
                                "result": 1,
                                "rightModelResponseId": "1"
                            }
                        ],
                        "comparisonRank": [
                            {
                                "metricName": "Toxicity",
                                "result": [
                                    {
                                        "modelResponseId": "0",
                                        "rank": 2
                                    },
                                    {
                                        "modelResponseId": "1",
                                        "rank": 1
                                    }
                                ]
                            }
                        ],
                        "individualLikertScale": [
                            {
                                "metricName": "Correctness",
                                "modelResponseId": "0",
                                "result": 3
                            },
                            {
                                "metricName": "Correctness",
                                "modelResponseId": "1",
                                "result": 4
                            },
                            {
                                "metricName": "Completeness",
                                "modelResponseId": "0",
                                "result": 1
                            },
                            {
                                "metricName": "Completeness",
                                "modelResponseId": "1",
                                "result": 5
                            }
                        ],
                        "thumbsUpDown": [
                            {
                                "metricName": "Accuracy",
                                "modelResponseId": "0",
                                "result": true
                            },
                            {
                                "metricName": "Accuracy",
                                "modelResponseId": "1",
                                "result": false
                            }
                        ]
                    }
                },
                "submissionTime": "2024-06-07T22:32:57.918Z",
                "timeSpentInSeconds": 38.197,
                "workerId": "bad258db224c3db6",
                "workerMetadata": {
                    "identityData": {
                        "identityProviderType": "Cognito",
                        "issuer": "https://cognito-idp.us-west-2.amazonaws.com/us-west-2_WxGLvNMy4",
                        "sub": "84d5194a-3eed-4ecc-926d-4b9e1b724094"
                    }
                }
            }
        ],
        "humanLoopName": "a757 11d3e75a 8d41f35b9873d 253f5b7bce0256e",
        "inputContent": {
            "additionalDataS3Uri": "s3://mgrt-test-us-west-2/test-2-workers-2-model/datasets/custom_dataset/0/task-input-additional-data.json",
            "instructions": "worker instructions provided by the model evaluation job administrator",
            "evaluationMetrics": [
                {
                    "metricName": "Fluency",
                    "metricType": "ComparisonChoice",
                    "description": "Measures the linguistic quality of a generated text."
                },
                {
                    "metricName": "Coherence",
                    "metricType": "ComparisonLikertScale",
                    "description": "Measures the organization and structure of a generated text."
                },
                {
                    "metricName": "Toxicity",
                    "metricType": "ComparisonRank",
                    "description": "Measures the harmfulness of a generated text."
                },
                {
                    "metricName": "Accuracy",
                    "metricType": "ThumbsUpDown",
                    "description": "Indicates the accuracy of a generated text."
                },
                {
                    "metricName": "Correctness",
                    "metricType": "IndividualLikertScale",
                    "description": "Measures a generated answer's satisfaction in the context of the question."
                },
                {
                    "metricName": "Completeness",
                    "metricType": "IndividualLikertScale",
                    "description": "Measures a generated answer's inclusion of all relevant information."
                }
            ],
            "disableRandomization": "true"
        },
        "modelResponseIdMap": {
            "0": "sm-margaret-meta-textgeneration-llama-2-7b-1711485008-0612",
            "1": "jumpstart-dft-hf-llm-mistral-7b-ins-20240327-043352"
        }
    },
    "inputRecord": {
        "prompt": {
            "text": "What is high intensity interval training?"
        },
        "category": "Fitness",
        "referenceResponse": {
            "text": "High-Intensity Interval Training (HIIT)"
        }
    },
    "modelResponses": [
        {
            "text": "High Intensity Interval Training (HIIT) is a form of exercise that alternates between periods of high intensity work and low intensity recovery.HIIT is an excellent way to increase your fitness and improve your health, but it can be difficult to get started.In this article, we will",
            "modelIdentifier": "sm-margaret-meta-textgeneration-llama-2-7b-1711485008-0612"
        },
        {
            "text": "High intensity interval training is a form of exercise consisting of short bursts of maximum effort followed by periods of rest. The theory behind HIIT is that it can often be more effective at improving cardiovascular and metabolic health than longer, lower intensity workouts.The work intervals can range in length depending on the specific type of exercise, but are typically between 20 and 90 seconds. The recovery periods are generally longer, lasting between 1 and 5 minutes. This pattern is then repeated for multiple sets.\n\nSince the work intervals are high intensity, they require more effort from your body and therefore result in a greater calorie burn. The body also continues to burn calories at an increased rate after the workout due to an effect called excess post exercise oxygen consumption (EPOC), also know as the afterburn effect.\n\nHIIT is a versatile form of training that can be adapted to different fitness levels and can be performed using a variety of exercises including cycling, running, bodyweight movements, and even swimming. It can be done in as little as 20 minutes once or twice a week, making it an efficient option for busy individuals.\n\nWhat are the benefits of high intensity interval training",
            "modelIdentifier": "jumpstart-dft-hf-llm-mistral-7b-ins-20240327-043352"
        }
    ]
}
```

# Machen Sie sich mit den Ergebnissen eines automatischen Bewertungsauftrags vertraut
<a name="clarify-foundation-model-evaluate-auto-ui-results"></a>

Wenn Sie den Auftrag zur automatischen Modellbewertung abgeschlossen haben, werden die Ergebnisse in Amazon S3 gespeichert. In den folgenden Abschnitten werden die generierten Dateien und ihre Interpretation beschrieben.

## Interpretation der `output.json` Dateistruktur
<a name="clarify-foundation-model-evaluate-auto-ui-results-json"></a>

Die `output.json` Datei enthält aggregierte Ergebnisse für Ihre ausgewählten Datensätze und Metriken.

Im Folgenden finden Sie eine Beispielausgabe.

```
{
    "evaluations": [{
        "evaluation_name": "factual_knowledge",
        "dataset_name": "trex",
		## The structure of the prompt template changes based on the foundation model selected
		"prompt_template": "<s>[INST] <<SYS>>Answer the question at the end in as few words as possible. Do not repeat the question. Do not answer in complete sentences.<</SYS> Question: $feature [/INST]",
        "dataset_scores": [{
            "name": "factual_knowledge",
            "value": 0.2966666666666667
        }],
        "category_scores": [{
                "name": "Author",
                "scores": [{
                    "name": "factual_knowledge",
                    "value": 0.4117647058823529
                }]
            },
				....
            {
                "name": "Capitals",
                "scores": [{
                    "name": "factual_knowledge",
                    "value": 0.2857142857142857
                }]
            }
        ]
    }]
}
```

## Interpretation der Struktur der Instance-bezogenen Ergebnisdatei
<a name="clarify-foundation-model-evaluate-auto-ui-results-jsonl"></a>

Eine *evaluation\$1name* \$1 *dataset\$1name* .jsonl-Datei mit instanzbezogenen Ergebnissen für jede Jsonlines-Anfrage. Wenn Ihre Jsonlines-Eingabedaten `300` Anfragen enthielten, enthält diese Jsonlines-Ausgabedatei Antworten. `300` Die Ausgabedatei enthält die Anfrage an Ihr Modell, gefolgt von der Punktzahl für diese Bewertung. Es folgt ein Beispiel für eine Instance-weite Ausgabe.

## Interpretieren des Berichts
<a name="clarify-foundation-model-evaluate-auto-ui-results-report"></a>

Ein **Bewertungsbericht** enthält die Ergebnisse Ihrer Bewertungsaufgabe für das Stiftungsmodell. Der Inhalt des Bewertungsberichts hängt von der Art der Aufgabe ab, mit der Sie Ihr Modell bewertet haben. Jeder Bericht enthält die folgenden Abschnitte:

1. Die **Gesamtpunktzahl** für jede erfolgreiche Bewertung im Rahmen der Bewertungsaufgabe. Als Beispiel für eine Bewertung mit einem Datensatz: Wenn Sie Ihr Modell für eine Klassifikationsaufgabe auf Genauigkeit und semantische Robustheit bewertet haben, wird oben in Ihrem Bericht eine Tabelle mit einer Zusammenfassung der Bewertungsergebnisse für Genauigkeit und Genauigkeit (Semantische Robustheit) angezeigt. Andere Auswertungen mit anderen Datensätzen können anders strukturiert sein.

1. Die Konfiguration für Ihren Bewertungsjob, einschließlich Modellname, Typ, welcher Bewertungsmethoden verwendet wurden und anhand welcher Datensätze Ihr Modell bewertet wurde.

1. Ein Abschnitt mit **detaillierten Evaluationsergebnissen**, in dem der Bewertungsalgorithmus zusammengefasst wird, Informationen und Links zu allen integrierten Datensätzen, zur Berechnung von Punktzahlen sowie Tabellen mit einigen Beispieldaten und den zugehörigen Ergebnissen bereitgestellt werden.

1. Ein Abschnitt „**Fehlgeschlagene Evaluierungen**“, der eine Liste der Bewertungen enthält, die nicht abgeschlossen wurden. Wenn keine Evaluierungen fehlschlugen, wird dieser Abschnitt des Berichts weggelassen.