

Die vorliegende Übersetzung wurde maschinell erstellt. Im Falle eines Konflikts oder eines Widerspruchs zwischen dieser übersetzten Fassung und der englischen Fassung (einschließlich infolge von Verzögerungen bei der Übersetzung) ist die englische Fassung maßgeblich.

# Aufgabentypen zur Modellbewertung in Amazon Bedrock
<a name="model-evaluation-tasks"></a>

In einem Auftrag zur Modellbewertung handelt es sich bei einem Bewertungsaufgabentyp um eine Aufgabe, die das Modell auf der Grundlage der Informationen in Ihren Prompts ausführen soll. Sie können einen Aufgabentyp pro Auftrag zur Modellbewertung wählen.

In der folgenden Tabelle sind die verfügbaren Aufgabentypen für automatische Modellbewertungen, integrierte Datensätze und relevante Metriken für jeden Aufgabentyp zusammengefasst.


**Verfügbare integrierte Datensätze für automatische Aufträge zur Modellbewertung in Amazon Bedrock**  
[\[See the AWS documentation website for more details\]](http://docs.aws.amazon.com/de_de/bedrock/latest/userguide/model-evaluation-tasks.html)

**Topics**
+ [Allgemeine Textgenerierung für die Modellbewertung in Amazon Bedrock](model-evaluation-tasks-general-text.md)
+ [Textzusammenfassung für die Modellbewertung in Amazon Bedrock](model-evaluation-tasks-text-summary.md)
+ [Frage und Antwort zur Modellbewertung in Amazon Bedrock](model-evaluation-tasks-question-answer.md)
+ [Textklassifizierung für die Modellbewertung in Amazon Bedrock](model-evaluation-text-classification.md)

# Allgemeine Textgenerierung für die Modellbewertung in Amazon Bedrock
<a name="model-evaluation-tasks-general-text"></a>

Die allgemeine Textgenerierung ist eine Aufgabe, die von Anwendungen mit integrierten Chatbots verwendet wird. Die Antworten, die ein Modell auf allgemeine Fragen generiert, sind von der Richtigkeit, Relevanz und des Bias des Textes abhängig, der zum Trainieren des Modells verwendet wird.

**Wichtig**  
Bei der allgemeinen Textgenerierung besteht ein bekanntes Systemproblem, das verhindert, dass Cohere-Modelle eine erfolgreiche Toxizitätsbewertung abschließen.

Die folgenden integrierten Datensätze enthalten Eingabeaufforderungen, die sich gut für allgemeine Textgenerierungsaufgaben eignen.

**Bias im Datensatz zur Sprachgenerierung mit offenem Ende (Open-ended Language Generation; BOLD)**  
Der Bias in Datensatz zur Sprachgenerierung mit offenem Ende (BOLD) ist ein Datensatz, der die Fairness bei der allgemeinen Textgenerierung bewertet und sich auf fünf Bereiche konzentriert: Beruf, Geschlecht, Rasse, religiöse und politische Ideologie. Er enthält 23.679 verschiedene Eingabeaufforderungen zur Textgenerierung.

**RealToxicityPrompts**  
RealToxicityPrompts ist ein Datensatz, der die Toxizität bewertet. Es versucht, das Modell dazu zu bringen, rassistische, sexistische oder anderweitig toxische Sprache zu erzeugen. Dieser Datensatz enthält 100 000 verschiedene Eingabeaufforderungen zur Textgenerierung.

**T-Rex: Eine groß angelegte Angleichung natürlicher Sprache an Knowledge Base Triples (TREX)**  
TREX ist ein Datensatz, der aus Knowledge Base Triples (KBTs) besteht und aus Wikipedia extrahiert wurde. KBTs sind eine Art von Datenstruktur, die bei der Verarbeitung natürlicher Sprache (NLP) und der Wissensdarstellung verwendet wird. Sie bestehen aus einem Subjekt, einem Prädikat und einem Objekt, wobei das Subjekt und das Objekt durch eine Beziehung miteinander verbunden sind. Ein Beispiel für ein Knowledge Base Triple (KBT) ist „George Washington war der Präsident der Vereinigten Staaten“. Das Subjekt ist „George Washington“, das Prädikat ist „war der Präsident von“ und das Objekt ist „der Vereinigten Staaten“.

**WikiText2**  
WikiText2 ist ein HuggingFace-Datensatz mit Eingabeaufforderungen, die bei der allgemeinen Textgenerierung verwendet werden.

Die folgende Tabelle fasst die berechneten Metriken und die empfohlenen integrierten Datensätze zusammen, die für automatische Aufträge zur Modellbewertung verfügbar sind. Damit Sie die verfügbaren integrierten Datensätze mithilfe der AWS CLI oder eines unterstützten AWS SDK erfolgreich spezifizieren können, verwenden Sie die Parameternamen in der Spalte *Integrierte Datensätze (API)*.


**Verfügbare integrierte Datensätze für die allgemeine Textgenerierung in Amazon Bedrock**  
[\[See the AWS documentation website for more details\]](http://docs.aws.amazon.com/de_de/bedrock/latest/userguide/model-evaluation-tasks-general-text.html)

Weitere Informationen darüber, wie die berechnete Metrik für jeden integrierten Datensatz berechnet wird, finden Sie unter [Überprüfen der Berichte zu Modellbewertungsaufträgen und Metriken in Amazon Bedrock](model-evaluation-report.md).

# Textzusammenfassung für die Modellbewertung in Amazon Bedrock
<a name="model-evaluation-tasks-text-summary"></a>

Die Textzusammenfassung wird für Aufgaben wie das Erstellen von Zusammenfassungen von Nachrichten, Rechtsdokumenten, wissenschaftlichen Arbeiten, Inhaltsvorschauen und die Kuratierung von Inhalten verwendet. Mehrdeutigkeit, Kohärenz, Bias und Fließfähigkeit des zum Trainieren des Modells verwendeten Textes sowie Informationsverlust, Genauigkeit, Relevanz oder Kontextinkongruenz können die Qualität der Antworten beeinflussen.

**Wichtig**  
Bei der Textzusammenfassung besteht ein bekanntes Systemproblem, das verhindert, dass Cohere-Modelle eine erfolgreiche Toxizitätsbewertung abschließen.

Die folgenden integrierten Datensätze werden für den Aufgabentyp Textzusammenfassung empfohlen.

**Gigaword**  
Der Gigaword-Datensatz besteht aus Schlagzeilen von Nachrichtenartikeln. Dieser Datensatz wird für Textzusammenfassungsaufgaben verwendet.

Die folgende Tabelle fasst die berechneten Metriken und die empfohlenen integrierten Datensätze zusammen. Damit Sie die verfügbaren integrierten Datensätze mithilfe der AWS CLI oder eines unterstützten AWS SDK erfolgreich spezifizieren können, verwenden Sie die Parameternamen in der Spalte *Integrierte Datensätze (API)*.


**Verfügbare integrierte Datensätze für die Textzusammenfassung in Amazon Bedrock**  
[\[See the AWS documentation website for more details\]](http://docs.aws.amazon.com/de_de/bedrock/latest/userguide/model-evaluation-tasks-text-summary.html)

Weitere Informationen darüber, wie die berechnete Metrik für jeden integrierten Datensatz berechnet wird, finden Sie unter [Überprüfen der Berichte zu Modellbewertungsaufträgen und Metriken in Amazon Bedrock](model-evaluation-report.md).

# Frage und Antwort zur Modellbewertung in Amazon Bedrock
<a name="model-evaluation-tasks-question-answer"></a>

Frage und Antwort wird für Aufgaben wie das Generieren automatischer Helpdesk-Antworten, das Abrufen von Informationen und E-Learning verwendet. Wenn der für das Training des Basismodells verwendete Text Probleme wie unvollständige oder ungenaue Daten, Sarkasmus oder Ironie enthält, kann sich die Qualität der Antworten verschlechtern.

**Wichtig**  
Bei Frage und Antwort besteht ein bekanntes Systemproblem, das verhindert, dass Cohere-Modelle eine erfolgreiche Toxizitätsbewertung abschließen.

Die folgenden integrierten Datensätze werden für den Aufgabentyp „Frage und Antwort“ empfohlen.

**BoolQ**  
BoolQ ist ein Datensatz, der aus yes/no Frage- und Antwortpaaren besteht. Die Eingabeaufforderung enthält eine kurze Passage und dann eine Frage zu der Passage. Dieser Datensatz wird für die Verwendung mit dem Aufgabentyp „Frage und Antwort“ empfohlen.

**Natural Questions**  
Natural Questions ist ein Datensatz, der aus echten Benutzerfragen besteht, die in der Google-Suche eingegeben wurden.

**TriviaQA**  
TriviaQA ist ein Datensatz, der über 650.000 enthält. question-answer-evidence-triples Dieser Datensatz wird für Frage- und Antwortaufgaben verwendet.

Die folgende Tabelle fasst die berechneten Metriken und die empfohlenen integrierten Datensätze zusammen. Um die verfügbaren integrierten Datensätze mit dem oder einem unterstützten AWS SDK erfolgreich zu spezifizieren AWS CLI, verwenden Sie die Parameternamen in der Spalte *Integrierte* Datensätze (API).


**Verfügbare integrierte Datensätze für den Aufgabentyp „Frage und Antwort“ in Amazon Bedrock**  
[\[See the AWS documentation website for more details\]](http://docs.aws.amazon.com/de_de/bedrock/latest/userguide/model-evaluation-tasks-question-answer.html)

Weitere Informationen darüber, wie die berechnete Metrik für jeden integrierten Datensatz berechnet wird, finden Sie unter [Überprüfen der Berichte zu Modellbewertungsaufträgen und Metriken in Amazon Bedrock](model-evaluation-report.md).

# Textklassifizierung für die Modellbewertung in Amazon Bedrock
<a name="model-evaluation-text-classification"></a>

Die Textklassifizierung wird verwendet, um Text in vordefinierte Kategorien zu einzuteilen. Zu den Anwendungen, die Textklassifizierung verwenden, gehören Inhaltsempfehlungen, Spam-Erkennung, Spracherkennung und Trendanalysen in sozialen Medien. Unausgewogene Klassen, mehrdeutige Daten, verrauschte Daten und Bias bei der Kennzeichnung sind einige Probleme, die zu Fehlern bei der Textklassifizierung führen können.

**Wichtig**  
Bei der Textklassifizierung besteht ein bekanntes Systemproblem, das verhindert, dass Cohere-Modelle eine erfolgreiche Toxizitätsbewertung abschließen.

Die folgenden integrierten Datensätze werden für den Aufgabentyp „Textklassifizierung“ empfohlen.

**Women's E-Commerce Clothing Reviews**  
Women's E-Commerce Clothing Reviews ist ein Datensatz, der von Kunden verfasste Rezensionen zu Bekleidungsartikeln enthält. Dieser Datensatz wird für Textklassifizierungsaufgaben verwendet. 

In der folgenden Tabelle werden die berechneten Metriken und die empfohlenen integrierten Datensätze zusammengefasst. Damit Sie die verfügbaren integrierten Datensätze mithilfe der AWS CLI oder eines unterstützten AWS SDK erfolgreich spezifizieren können, verwenden Sie die Parameternamen in der Spalte *Integrierte Datensätze (API)*.




**Verfügbare integrierte Datensätze in Amazon Bedrock**  
[\[See the AWS documentation website for more details\]](http://docs.aws.amazon.com/de_de/bedrock/latest/userguide/model-evaluation-text-classification.html)

Weitere Informationen darüber, wie die berechnete Metrik für jeden integrierten Datensatz berechnet wird, finden Sie unter [Überprüfen der Berichte zu Modellbewertungsaufträgen und Metriken in Amazon Bedrock](model-evaluation-report.md).