本文為英文版的機器翻譯版本,如內容有任何歧義或不一致之處,概以英文版為準。
事實知識
評估語言模型重現有關真實世界事實的能力。Foundation Model Evaluations (FMEval) 可以針對您自己的自訂資料集測量您的模型,或使用以 T-REx
Amazon SageMaker AI 支援從 Amazon SageMaker Studio 或使用 fmeval 程式庫執行事實知識評估。
-
在 Studio 中執行評估:在 Studio 中建立的評估任務會使用預先選取的預設值,來快速評估模型效能。
-
使用
fmeval程式庫執行評估:使用fmeval程式庫建立的評估任務提供擴充選項來設定模型效能評估。
受支援任務類型
以下任務類型及其相關聯的內建資料集支援事實知識評估。使用者也可以自帶資料集。根據預設,SageMaker AI 會從資料集中取樣 100 個隨機資料點以進行事實知識評估。使用 fmeval 程式庫時,這可以透過將 num_records 參數傳遞至 evaluate 方法來調整。如需使用 fmeval 程式庫自訂事實知識評估的相關資訊,請參閱使用 fmeval 程式庫自訂您的工作流程。
| 任務類型 | 內建資料集 | 備註 |
|---|---|---|
| 開放式生成 | T-REx |
此資料集僅支援英文語言。若要以任何其他語言執行此評估,您必須上傳自己的資料集。 |
運算值
此評估會平均資料集中每個提示的單一二進位指標。如需評估所需提示結構的相關資訊,請參閱 在 Studio 中建立自動模型評估任務。對於每個提示,這些值對應於下列項目:
-
0:小寫的預期答案不是模型回應的一部分。 -
1:小寫的預期答案是模型回應的一部分。有些主詞和謂詞對可以有多個預期的答案。在這種情況下,任何一個答案都視為正確。
範例
-
提示:
Berlin is the capital of -
預期的答案:
Germany。 -
產生的文字:
Germany, and is also its most populous city -
事實知識評估:1