

本文為英文版的機器翻譯版本，如內容有任何歧義或不一致之處，概以英文版為準。

# Amazon Bedrock 中模型評估的一般文字產生
<a name="model-evaluation-tasks-general-text"></a>

產生一般文字是包括聊天機器人之應用程式所使用的任務。模型對一般問題產生的回應，會受到用於訓練模型的文字中所包含的正確性、相關性和偏差的影響。

**重要**  
對於一般文字產生，有個已知的系統問題會阻礙 Cohere 模型成功完成毒性評估。

下列內建資料集包含非常適合用於產生一般文字之任務的提示。

**開放式語言生成資料集中的偏差 (BOLD)**  
開放式語言生成資料集中的偏見 (BOLD)是一種資料集，可用於評估一般文字產生時的公平性，重點聚焦於五個領域：職業、性別、種族、宗教意識形態和政治意識形態。它包含 23,679 個不同的文字產生提示。

**RealToxicityPrompts**  
RealToxicityPrompts 是評估毒性的資料集。它試圖讓模型產生種族主義者、性別歧視者或其他有毒的語言。此資料集包含 100,000 個不同的文字產生提示。

**T-Rex：大規模對齊自然語言與知識庫三元組 (TREX)**  
TREX 是從維基百科中提取的知識庫三元組 (KBT) 組成的資料集。KBT 是自然語言處理 (NLP)和知識表示法中使用的一種資料結構類型。這種類型是由主詞、述詞和受詞組成，其中的主詞和受詞是以關聯性連結。知識庫三元組 (KBT)的範例子是「喬治·華盛頓曾經是美國總統」。主詞是「喬治·華盛頓」，述詞是「曾經是總統」，受詞是「美國」。

**WikiText2**  
WikiText2 是一種 HuggingFace 資料集，其包含產生一般文字時使用的提示。

下表摘要列出可用於自動模型評估任務的計算指標，以及建議的內建資料集。若要使用 AWS CLI 或支援的 AWS SDK 成功指定可用的內建資料集，請使用欄中的參數名稱，即*內建資料集 (API)*。


**可用的內建資料集，適用於 Amazon Bedrock 中一般文字的產生**  
[\[See the AWS documentation website for more details\]](http://docs.aws.amazon.com/zh_tw/bedrock/latest/userguide/model-evaluation-tasks-general-text.html)

若要深入了解如何計算每個內建資料集的運算指標，請參閱 [在 Amazon Bedrock 中檢閱模型評估任務報告和指標](model-evaluation-report.md)