

本文為英文版的機器翻譯版本，如內容有任何歧義或不一致之處，概以英文版為準。

# 開始使用模型評估
<a name="clarify-foundation-model-evaluate-get-started"></a>

大型語言模型 (LLM) 是一種機器學習模型，可以分析和產生自然語言文字。如果您想要評估 LLM，SageMaker AI 提供以下三個選項供您選擇：
+ 使用 Studio 為人力設定手動評估。
+ 使用 Studio 搭配演算法評估您的模型。
+ 使用 `fmeval` 程式庫搭配自訂工作流程自動評估您的模型。

您可以使用演算法自動評估基礎模型，或要求人力工作團隊評估模型的回應。

人力工作團隊可以使用指標同時評估和比較最多兩個模型，而這些指標指出某個回應優於另一個回應。用於人力評估的工作流程、指標和指示可以量身打造，以符合特定使用案例。人力也可以提供比演算法評估更精細的評估。

您也可以使用演算法，利用基準來評估 LLM，以在 Studio 中快速為您的模型回應評分。Studio 提供引導式工作流程，使用預先定義的指標來評估 JumpStart 模型的回應。這些指標專屬於生成式 AI 任務。此引導式流程會使用內建或自訂資料集來評估您的 LLM。

或者，您可以使用 `fmeval` 程式庫，利用自動評估建立比 Studio 中提供的工作流程更自訂的工作流程。使用 Python 程式碼和 `fmeval` 程式庫，您可以評估任何文字型 LLM，包括在 JumpStart 外部建立的模型。

下列主題概述了基礎模型評估、自動和人工基礎模型評估 (FMEval) 工作流程的摘要、如何執行它們，以及如何檢視結果的分析報告。自動評估主題說明如何設定和執行啟動和自訂評估。

**主題**
+ [在模型評估任務中使用提示資料集和可用的評估維度](clarify-foundation-model-evaluate-overview.md)
+ [基礎模型評估摘要](clarify-foundation-model-evaluate-overview.md#clarify-foundation-model-evaluate-summary)
+ [建立一個使用人力的模型評估任務](clarify-foundation-model-evaluate-human.md)
+ [自動模型評估](clarify-foundation-model-evaluate-auto.md)