在模型評估任務中使用提示資料集和可用的評估維度

下列各節提供如何使用自動和人工型模型評估任務的概觀。

模型評估任務

在模型評估任務中，評估任務是您希望模型根據提示中找到的資訊執行的任務。

您可以為每個模型評估任務選擇一種任務類型。使用下列幾節以進一步了解每個任務類型。每一節也包含一份可用的內建資料集清單，以及只能用於自動模型評估任務的對應指標。

開放式生成

開放式文字生成是基礎模型任務，可對沒有預先定義結構的提示產生自然語言回應，例如對聊天機器人的一般用途查詢。對於開放式文字生成，基礎模型評估 (FMEval) 可以根據下列維度評估您的模型。

事實知識 - 評估模型編碼事實知識的效果。FMEval 可以針對您自己的自訂資料集測量您的模型，或使用以 TREX 開放原始碼資料集為基礎的內建資料集。
語意穩健性 - 評估模型輸出由於輸入中微小的、語意保留變更而變更的程度。FMEval 會測量您的模型輸出由於鍵盤打錯字、隨機變更為大寫，以及隨機新增或刪除空格而變更的方式。
提示刻板印像 - 測量模型在其回應中編碼偏差的機率。這些偏差包括種族、性別、性傾向、宗教、年齡、國籍、失能、身體外觀和社會經濟狀態的偏差。FMEval 可以針對您自己的自訂資料集測量您的模型回應，或使用以 CrowS-Pairs 開放原始碼挑戰資料集為基礎的內建資料集。
毒性 - 使用毒性偵測模型評估文字。FMEval 會檢查您的模型是否有性暗示、粗魯、不合理、仇恨或攻擊性評論、褻瀆、侮辱、調情、身分攻擊，以及威脅。FMEval 可以針對您自己的自訂資料集測量您的模型，或使用以 RealToxicityPrompts、RealToxicityPromptsChallenging 和 BOLD 資料集為基礎的內建資料集。

RealToxicityPromptsChallenging 是 RealToxicityPrompts 的子集，用來測試大型語言模型 (LLM) 的限制。它也會識別 LLM 容易產生有毒文字的區域。

您可以使用下列毒性偵測器來評估模型：
- UnitaryAI Detoxify-unbiased - 根據 Toxic Comment Classification Challenge 和 Jigsaw Unintended Bias in Toxicity Classification 訓練的多標籤文字分類器。此模型為下列類別提供 7 分數：毒性、嚴重毒性、淫穢、威脅、侮辱、性露骨和身分攻擊。
- Toxigen-roberta - 根據 ToxiGen 資料集微調的二進位 RoBERTa 型文字分類器。ToxiGen 資料集包含的句子帶有與少數群體有關的微妙和隱含毒性。

文字摘要

文字摘要用於建立新聞摘要、法律文件、學術論文、內容預覽和內容策展等任務。下列可能影響回應的品質：用來訓練基礎模型之文字的模糊性、連貫性、偏差和流暢性，以及資訊遺失、準確性、相關性或上下文不相符。FMEval 可以針對您自己的自訂資料集評估您的模型，或使用以 Government Report Dataset 和 Gigaword 資料集為基礎的內建資料集。對於文字摘要，FMEval 可以評估您的模型以取得下列內容：

準確性 - 數值分數，指出摘要與接受作為黃金標準之參考摘要的相似性。高數值分數表示摘要品質高。低數值分數表示摘要不佳。下列指標用來評估摘要的準確性：
- ROUGE-N - 計算參考與模型摘要之間的 N-gram。重疊。
- Meteor - 計算參考與模型摘要之間的單字重疊，同時考慮改寫。
- BERTScore - 計算和比較句子嵌入以進行摘要說明和參考。FMEval 使用 roberta-large-mnli 或 microsoft/deberta-xlarge-mnli 模型來計算嵌入。
毒性 - 使用毒性偵測器模型計算的所產生摘要分數。如需額外資訊，請參閱上述針對開放式生成任務的毒性一節，以取得詳細資訊。
語意穩健性 – 衡量因輸入中微小的語意保留變化而導致模型文字摘要品質變化的程度。這些變更的範例包括打錯字、隨機變更為大寫，以及隨機新增或刪除空格。語意穩健性使用未受干擾文字摘要與受干擾文字摘要之間準確度的絕對差異。準確性演算法使用 ROUGE-N、Meteor 和 BERTScore 指標，如本節先前所述。

回答問題

問答用於產生自動服務台回應、資訊擷取和電子學習等任務。FMEval 可以針對您自己的自訂資料集評估您的模型，或使用以BoolQ、TriviaQA 和 Natural Questions 資料集為基礎的內建資料集。對於問答，FMEval 可以評估您的模型以取得下列內容：

準確度 - 將產生的回應與參考中提供的問答組合進行比較的平均分數。分數透過下列方法進行平均：
- 完全相符 - 將 1 的二進位分數指派給完全相符，否則指派 0。
- 準完全相符 - 在移除了標點符號和文法冠詞 (例如 the、a、and) 之後，將 1 的二進位分數指派給相符項目。
- F1 Over Words - F1 分數，或標準化反應和參考之間精確度和召回率的調和平均值。F1 分數等於兩倍精確度乘以召回率除以精確度 (P) 和召回率 (R) 的總和，或 F1 = (2*P*R) / (P + R)。
  
  在先前的計算中，精確度定義為真陽性 (TP) 數除以真陽性和偽陽性 (FP) 的總和，或 P = (TP)/(TP+FP)。
  
  召回率定義為真陽性數除以真陽性和偽陰性 (FN) 的總和，或 R = (TP)/(TP+FN)。
  
  F1 Over Words 分數越高，表示回應品質越高。
語意穩健性 – 衡量因輸入中微小的語意保留變化而導致模型文字摘要品質變化的程度。這些變更的範例包括鍵盤打錯字、未正確將數字轉換為單字、隨機變更為大寫，以及隨機新增或刪除空格。語意穩健性使用未受干擾文字摘要與受干擾文字摘要之間準確度的絕對差異。準確度是使用完全相符、準完全相符和 F1 Over Words 來測量，如先前所述。
毒性 - 分數會使用毒性偵測器模型評估產生的答案。如需額外資訊，請參閱上述針對開放式生成任務的毒性一節，以取得詳細資訊。

分類

文字分類用於將文字分類到預先定義的類別。使用文字分類的應用程式包括內容推薦、垃圾郵件偵測、語言識別和社交媒體上的趨勢分析。不平衡、模糊、雜訊資料、標記中的偏差是一些可能會導致分類錯誤的問題。FMEval 會針對以 Women’s ECommerce Clothing Reviews 資料集為基礎的內建資料集評估您的模型，和/或針對您自己的提示資料集評估您的模型，以取得下列內容。

準確度 - 將預測類別與其標籤進行比較的分數。準確度是使用下列指標測量的：
- 分類準確度 - 如果預測標籤等於 true 標籤，則為 1 的二進位分數，否則為 0。
- 精確度 - 真陽性與所有陽性的比率，以整個資料集計算。降低偽陽性很重要時，精確度是適當的措施。您可以使用 multiclass_average_strategy 參數的下列值來彙總每個資料點的分數。每個參數列示在下列範例中。
- 召回率 – 真陽性與真陽性和假陰性總和的比率，以整個資料集計算。減少偽陽性很重要時，召回率是適當的措施。您可以使用 multiclass_average_strategy 參數的下列值來彙總每個資料點的分數。
  - micro (預設) - 真陽性總和除以所有類別的真陽性和偽陰性總和。此彙總類型可測量模型的整體預測準確度，同時平均考慮所有類別。例如，此彙總可以評估您模型正確分類任何疾病患者的能力，包括罕見疾病，因為它為所有類別提供相同的權重。
  - macro - 針對每個類別計算的召回率值總和除以類別數量。此彙總類型可測量您模型針對每個類別的預測準確度，每個類別的權重相等。例如，此彙總可以評估您模型預測所有疾病的能力，無論每種疾病的流行程度或罕見程度為何。
  - samples (僅限多類別分類) - 所有樣本的真陽性總和與所有樣本的真陽性和偽陰性總和的比率。對於多類別分類，樣本包含一組每個類別的預測回應。此彙總類型可為多類別問題精細測量每個樣本的召回率。例如，因為依樣本彙總會平均處理每個樣本，所以此彙總可以評估您模型預測罕見疾病患者正確診斷的能力，同時將偽陰性降至最低。
  - weighted - 一個類別的權重乘以相同類別的召回率，將所有類別加總。此彙總類型可測量整體召回率，同時在類別之間適應不同的重要性。例如，此彙總可以評估您模型預測患者正確診斷的能力，並為威脅生命的疾病提供更高的權重。
  - binary - 針對值 pos_label 指定的類別計算的召回率。此彙總類型會忽略未指定的類別，並提供單一類別的整體預測準確度。例如，此彙總可以評估您模型篩檢人口中特定高度傳染性危及生命疾病的能力。
  - none - 為每個類別計算的召回率。當類別之間的錯誤懲罰差異很大時，類別特定的召回率可協助您解決資料中的類別不平衡。例如，此彙總可以評估您模型識別可能具有特定疾病的所有患者的效果。
- 平衡的分類準確度 (BCA) - 針對二進制分類，召回率和真陰性率的總和除以 2。真陰性率是真陰性數除以真陰性和偽陽性的總和。針對多類別分類，BCA 的計算方式為每個類別的召回率值總和除以類別數量。當預測偽陽性和偽陰性的懲罰都很高時，BCA 可以提供協助。例如，BCA 可以評估您模型預測多種採用侵入性治療的高度傳染性致命疾病的效果。
語意穩健性 - 評估模型輸出由於輸入中微小的、語意保留變更而變更的程度。由於鍵盤打錯字、隨機變更為大寫，以及隨機新增或刪除空格，FMEval 會測量您的模型輸出。語意穩健性會對未受干擾文字摘要與受干擾文字摘要之間準確度的絕對差異進行評分。

基礎模型評估的類型

以下各節為您的基礎模型提供人工和演算法類型評估的詳細資訊。

人工評估

若要依人工評估您的模型，您必須定義指標和相關聯的指標類型。如果想要評估多個模型，您可以使用比較或個別評分機制。如果想要評估一個模型，您必須使用個別評分機制。下列評分機制可以套用至任何文字相關任務：

(比較) 李克特量表 - 比較 - 人工評估者會根據您的指示，在 5 點李克特量表上的兩個回應之間指出其偏好。在最終報告中，結果將顯示為對整個資料集的偏好強度評分的直方圖。在您的指示中定義 5 點量表要點，如此您的評估者才會知道如何根據您的期望對回應進行評分。
(比較) 選擇按鈕 - 允許人工評估者根據您的指示，使用選項按鈕來指出優於另一個回應的偏好回應。最終報告中的結果會以每個模型的工作者偏好的回應百分比顯示。在指示中清楚解釋您的評估方法。
(比較) 順序排名允許人力評估者根據您的指示，將其對提示的偏好回應從 1 開始依序排名。在最終報告中，結果顯示為評估者對整個資料集的排名直方圖。確定在您的指示中定義了 1 的排名代表何義。
(個人) 拇指向上/向下 - 允許人工評估者根據您的指示，將模型中的每個回應評分為可接受或不可接受的。在最終報告中，結果顯示每個模型獲得拇指向上評分的評估者佔總評分的百分比。您可以使用此評分方法來評估一個或多個模型。如果您在包含兩個模型的評估中使用此方法，UI 會針對每個模型回應向工作團隊提供拇指向上或向下選項。最終報告將個別顯示每個模型的彙總結果。在您給工作團隊的指示中，定義什麼是可接受的回應。
(個人) 李克特量表 - 個人 - 允許人力評估者在 5 點李克特量表上根據您的指示，指出他們核准模型回應的強度。在最終報告中，結果會顯示評估者對整個資料集的 5 點評分直方圖。您可以使用此評分方法，進行包含一個或多個模型的評估。如果您在包含多個模型的評估中選取此評分方法，則會針對每個模型回應向您的工作團隊提供 5 點李克特量表。最終報告將個別顯示每個模型的彙總結果。在您的指示中定義 5 點量表要點，如此您的評估者才會知道如何根據您的期望對回應進行評分。

自動評估

自動評估可以利用內建資料集和演算法，或者您可以自帶專用於使用案例的提示資料集。每個任務的內建資料集各不相同，並列示在下列各節中。如需任務及其相關聯指標和資料集的摘要，請參閱下列基礎模型摘要評估一節中的資料表。

基礎模型評估摘要

下表摘要說明用於人工和自動評估的所有評估任務、指標和內建資料集。

任務	人工評估	人工指標	自動評估	自動指標	自動內建資料集
開放式生成	流暢性、連貫性、毒性、準確性、一致性、相關性、使用者定義	偏好率、偏好強度、偏好排名、核准率、核准強度	事實知識		TREX
			語意穩健性		TREX
					BOLD
					WikiText
			提示刻板印像		CrowS-Pairs
			毒性		RealToxicityPrompts
					BOLD
文字摘要			準確性	ROUGE-N	Government Report Dataset
				BERTScore	Gigaword
					Government Report Dataset
					Gigaword
					Government Report Dataset
					Gigaword
回答問題			準確性	完全符合	BoolQ
				準完全符合	NaturalQuestions
				F1 Over Words	TriviaQA
			語意穩健性		BoolQ
					NaturalQuestions
					TriviaQA
			毒性		BoolQ
					NaturalQuestions
					TriviaQA
文字分類			準確性	分類準確性	Women's Ecommerce Clothing Reviews
				精確度	Women's Ecommerce Clothing Reviews
				取回	Women's Ecommerce Clothing Reviews
				平衡的分類準確度	Women's Ecommerce Clothing Reviews
			語意穩健性		Women's Ecommerce Clothing Reviews

您的瀏覽器已停用或無法使用 Javascript。

您必須啟用 Javascript，才能使用 AWS 文件。請參閱您的瀏覽器說明頁以取得說明。

文件慣用形式

開始使用

準確性