本文為英文版的機器翻譯版本，如內容有任何歧義或不一致之處，概以英文版為準。

# 自動模型評估
<a name="clarify-foundation-model-evaluate-auto"></a>

您可以在 Studio 中或在您自己的程式碼內使用 `fmeval` 程式庫來建立自動模型評估。Studio 使用精靈來建立模型評估任務。`fmeval` 程式庫提供工具進一步自訂您的工作流程。

這兩種類型的自動模型評估任務都支援使用公開可用的 JumpStart 模型，以及您先前部署到端點的 JumpStart 模型。如果您使用先前*尚未*部署的 JumpStart，SageMaker AI 將負責建立必要的資源，並在模型評估任務完成後將其關閉。

若要使用來自其他服務的文字型 LLMs AWS 或在 外部託管的模型 AWS，您必須使用 `fmeval`程式庫。

當您的任務完成時，結果會儲存在建立任務時指定的 Amazon S3 儲存貯體中。若要了解如何解譯結果，請參閱 [了解模型評估任務的結果](clarify-foundation-model-evaluate-results.md)。

**Topics**
+ [在 Studio 中建立自動模型評估任務](clarify-foundation-model-evaluate-auto-ui.md)
+ [使用 `fmeval` 程式庫執行自動評估](clarify-foundation-model-evaluate-auto-lib.md)
+ [模型評估結果](clarify-foundation-model-reports.md)

# 在 Studio 中建立自動模型評估任務
<a name="clarify-foundation-model-evaluate-auto-ui"></a>

 Studio 中提供的精靈會引導您選擇要評估的模型、選取任務類型、選擇指標和資料集，以及設定任何必要的資源。下列主題說明如何格式化選用的自訂輸入資料集、設定您的環境，以及在 Studio 中建立模型評估任務。

## 格式化您的輸入資料集
<a name="clarify-foundation-model-evaluate-auto-ui-format-input"></a>

若要使用您自己的自訂提示資料集，它必須是 `jsonlines` 檔案，其中每一行都是有效的 JSON 物件。每個 JSON 物件*必須*包含單一提示。

為了協助確保您選取的 JumpStart 模型很好地執行，SageMaker Clarify 會自動將所有提示資料集格式化為最適合您所選**模型****評估維度**的格式。對於內建提示資料集，SageMaker Clarify 也會使用額外的指示文字來增強您的提示。若要查看 SageMaker Clarify 如何修改提示，請在您已新增至模型評估任務的**評估維度**下選擇**提示範本**。若要查看如何修改提示範本的範例，請參閱[提示範本範例](clarify-foundation-model-evaluate-whatis.md#clarify-prompt-template)。

切換可讓您關閉或開啟 SageMaker Clarify 為內建資料集提供的自動提示範本支援。關閉自動提示範本允許您可以指定自己的自訂提示範本，其將套用至資料集中的所有提示。

若要了解哪些金鑰可用於 UI 中的自訂資料集，請參閱下列任務清單。
+ `model_input` – 需要指出下列任務的輸入。
  + 您的模型應該在**開放式生成**、**毒性**和**準確性**任務中回應的**提示**。
  + 您的模型應該在**問答**和**事實知識**任務中回答的**問題**。
  + 您的模型應該在**文字摘要**任務總結的**文字**。
  + 您的模型應在**分類**任務中分類的**文字**。
  + 您想要模型在**語意穩健性**任務中擾動的**文字**。
+ `target_output` – 需要為下列任務指出針對其評估模型的回應。
  + **問****答**、**準確性**、**語意****穩健性**和**事實****評估**任務的**答案**。
  + 對於**準確性**和**語意****穩健性**任務，請使用 `<OR>` 分隔可接受的答案。評估接受逗號分隔的任何答案作為正確答案。例如，如果您想要接受 `UK` 或 `England` 或 `United Kingdom` 作為可接受的答案，請使用 `target_output="UK<OR>England<OR>United Kingdom"`。
+ (選用) `category` - 產生針對每個類別報告的評估分數。
+ `sent_less_input` - 需要指出對提示刻板印象任務包含**較少**偏差的提示。
+ `sent_more_input` - 需要指出對提示刻板印象任務包含**較多**偏差的提示。

事實知識評估需要提出問題和檢查模型回應的答案。使用金鑰 `model_input` 搭配問題中包含的值，以及使用金鑰 `target_output` 搭配答案中包含的值，如下所示。

```
{"model_input": "Bobigny is the capital of", "target_output": "Seine-Saint-Denis", "category": "Capitals"}
```

上一個範例是單一有效的 JSON 物件，構成 `jsonlines` 輸入檔案中的一筆記錄。每個 JSON 物件都會以請求的形式傳送至您的模型。若要提出多個請求，請包含多行。下列資料輸入範例適用於使用選擇性 `category` 索引鍵進行評估的問答任務。

```
{"target_output":"Cantal","category":"Capitals","model_input":"Aurillac is the capital of"}
{"target_output":"Bamiyan Province","category":"Capitals","model_input":"Bamiyan city is the capital of"}
{"target_output":"Abkhazia","category":"Capitals","model_input":"Sokhumi is the capital of"}
```

如果您在 UI 中評估演算法，則會為您的輸入資料集設定下列預設值：
+ 評估使用的記錄數量已修正。演算法會從輸入資料集中隨機取樣此數量的請求。
  + **若要變更此數字：**如**使用 `fmeval` 程式庫自訂工作流程**中所述使用 `fmeval` 程式庫，並將 `num_records` 參數設定為所需的範例數量，或使用 `-1` 指定整個資料集。對於準確性、提示刻板印象、毒性、分類和語意穩健性任務，評估的預設記錄數量為 `100`。事實知識任務的預設記錄數量為 `300`。
+ 先前在 `target_output` 參數中所述的目標輸出分隔符號會在 UI 中設定為 `<OR>`。
  + **若要使用另一個分隔符號分隔可接受的答案：**如**使用 `fmeval` 程式庫自訂工作流程**所述使用 `fmeval` 程式庫，並將 `target_output_delimiter` 參數設定為所需的分隔符號。
+ 您必須使用可用於模型評估的文字型 JumpStart 語言模型。這些模型有數個自動傳遞至 FMeval 程序的資料輸入組態參數。
  + **若要使用另一種模型：**使用 `fmeval` 程式庫來定義輸入資料集的資料組態。

## 設定您的環境
<a name="clarify-foundation-model-evaluate-auto-ui-setup"></a>

若要為您的大型語言模型 (LLM) 執行自動評估，您必須將環境設定為具有執行評估的正確許可。然後，您可以使用 UI 引導您完成工作流程中的步驟，並執行評估。下列各節說明如何使用 UI 執行自動評估。

**先決條件**
+ 若要在 Studio UI 中執行模型評估，您的 AWS Identity and Access Management (IAM) 角色和任何輸入資料集必須具有正確的許可。如果您沒有 SageMaker AI 網域或 IAM 角色，請遵循 [使用 Amazon SageMaker AI 進行設定的指南](gs.md) 中的步驟。

**為您的 S3 儲存貯體設定許可**

在建立網域和角色之後，請使用下列步驟來新增評估模型所需的許可。

1. 開啟 Amazon SageMaker AI 主控台，網址為 [https://console.aws.amazon.com/sagemaker/](https://console.aws.amazon.com/sagemaker/)。

1. 在導覽窗格中，將 **S3** 輸入至頁面頂端的搜尋列中。

1. 在**服務**下選擇 **S3**。

1. 從導覽窗格中選擇**儲存貯體**。

1. 在**一般用途儲存貯體**區段的**名稱**下，選擇您要用來存放自訂提示資料集的 Amazon S3 儲存貯體名稱，以及您要儲存模型評估任務結果的位置。Amazon S3 儲存貯體必須與 AWS 區域 Studio 執行個體位於相同的 中。如果您沒有 Amazon S3 儲存貯體，請執行下列動作。

   1. 選取**建立儲存貯體**以開啟新的**建立儲存貯體**頁面。

   1. 在**一般組態**區段的 **AWS 區域**下，選取基礎模型所在的 AWS 區域。

   1. 在**儲存貯體名稱**下的輸入方塊中命名您的 S3 儲存貯體。

   1. 接受所有預設選項。

   1. 選取**建立儲存貯體**。

   1. 在**一般用途儲存貯體**區段的**名稱**下，選取您建立的 S3 儲存貯體名稱。

1. 選擇**許可**索引標籤。

1. 捲動至視窗底部的**跨來源資源共用 (CORS)** 區段。選擇**編輯**。

1. 若要將 CORS 許可新增至您的儲存貯體，請將下列程式碼複製到輸入方塊。

   ```
   [
   {
       "AllowedHeaders": [
           "*"
       ],
       "AllowedMethods": [
           "GET",
           "PUT",
           "POST",
           "DELETE"
       ],
       "AllowedOrigins": [
           "*"
       ],
       "ExposeHeaders": [
           "Access-Control-Allow-Origin"
       ]
   }
   ]
   ```

1. 選擇**儲存變更**。

**將許可新增至您的 IAM 政策**

1. 在頁面頂端的搜尋列中，輸入 **IAM**。

1. 在**服務**下，選取 **Identity and Access Management (IAM)**。

1. 從導覽窗格中選擇**政策**。

1. 選擇**建立政策**。當**政策編輯器**開啟時，選擇 **JSON**。

1. 選擇**下一步**。

1. 請確定下列許可出現在**政策編輯器**中。您也可以複製下列內容，然後將其貼入**政策編輯器**中。

------
#### [ JSON ]

****  

   ```
   {
   "Version":"2012-10-17",		 	 	 
   "Statement": [
       {
           "Effect": "Allow",
           "Action": [
               "cloudwatch:PutMetricData",
               "logs:CreateLogStream",
               "logs:PutLogEvents",
               "logs:CreateLogGroup",
               "logs:DescribeLogStreams",
               "s3:GetObject",
               "s3:PutObject",
               "s3:ListBucket",
               "ecr:GetAuthorizationToken",
               "ecr:BatchCheckLayerAvailability",
               "ecr:GetDownloadUrlForLayer",
               "ecr:BatchGetImage"
            ],
               "Resource": "*"
       },
       {
               "Effect": "Allow",
               "Action": [
                   "sagemaker:Search",
                   "sagemaker:CreateProcessingJob",
                   "sagemaker:DescribeProcessingJob"
                ],
                "Resource": "*"
       }
   ]
   }
   ```

------

1. 選擇**下一步**。

1. 在**政策詳細資訊**區段的**政策名稱**下輸入政策名稱。您也可以選擇輸入描述。當您將政策名稱指派給角色時，您將搜尋該政策名稱。

1. 選擇**建立政策**。

**將許可新增至您的 IAM 角色**

1. 在導覽窗格中，選擇 **Roles (角色)**。輸入您要使用的角色名稱。

1. 在**角色名稱**下選取角色的名稱。主視窗會變更以顯示角色的相關資訊。

1. 在**許可政策**區段中，選擇**新增許可**旁邊的向下箭頭。

1. 從出現的選項中，選擇**連接政策**。

1. 從出現的政策清單中，搜尋您在步驟 5 建立的政策。選取政策名稱旁邊的核取方塊。

1. 選擇**動作**旁邊的向下箭頭。

1. 從出現的選項中，選取**連接**。

1. 搜尋您建立的角色名稱。選取其名稱旁邊的核取方塊。

1. 選擇**新增許可**。頁面頂端的橫幅應指出**政策已成功連接到角色**。
+ .

## 在 Studio 中建立自動模型評估任務
<a name="clarify-foundation-model-evaluate-auto-ui-run"></a>

 建立自動模型評估任務時，您可以選擇可用的文字型 JumpStart 模型，也可以使用先前部署到端點的文字型 JumpStart 模型。

若要建立自動模型評估任務，請使用下列程序。

**在 Studio 中啟動自動模型評估任務。**

1. 開啟 Amazon SageMaker AI 主控台，網址為 [https://console.aws.amazon.com/sagemaker/](https://console.aws.amazon.com/sagemaker/)。

1. 在頁面頂端的搜尋列中，輸入 **SageMaker AI**。

1. 在**服務**下，選取 **Amazon SageMaker AI**。

1. 從導覽窗格中選擇 **Studio**。

1. 在展開**選取網域**下的向下箭頭之後，從**入門**區段中選擇您的網域。

1. 在展開**選取使用者設定檔**下的向下箭頭之後，從**入門**區段中選擇您的使用者設定檔。

1. 選擇**開啟 Studio** 以開啟 Studio 的登陸頁面。

1. 從主導覽窗格中選擇**任務**。

1. 然後，選擇**模型評估**。

**設定評估任務**

1. 接下來，選擇**評估模型**。

1. 在**步驟 1：指定任務詳細資訊**中執行下列動作：

   1.  輸入模型評估的**名稱**。此名稱可協助您在提交模型評估任務之後識別該任務。

   1. 輸入**描述**，將更多內容新增至名稱。

   1. 選擇**下一步**。

1. 在**步驟 2：設定評估**中執行下列動作：

   1. 在**評估類型**下選擇**自動**。

   1. 然後，選擇**將模型新增至評估**

   1. 在**新增模型**模態中，您可以選擇使用**預先訓練的 Jumpstart 基礎模型**或 **SageMaker AI 端點**。如果您已部署 JumpStart 模型，請選擇 **SageMaker AI 端點**，否則請選擇**預先訓練的 Jumpstart 基礎模型**。

   1. 然後選擇 **Save (儲存)**。

   1.  (*選用*) 新增您的模型後，選擇**提示範本**，根據您選取的模型查看提示的預期輸入格式。如需如何為資料集設定提示範本的相關資訊，請參閱[提示範本](clarify-foundation-model-evaluate-whatis.md#clarify-automatic-jobs-summary-prompt-templates)。
      + 若要使用預設提示範本，請完成下列步驟：

        1. 開啟**使用資料集提供的預設提示範本**。

        1. (選用) 針對每個資料集，檢閱 Clarify 提供的提示。

        1. 選擇**儲存**。
      + 若要建立自訂提示範本，請完成下列步驟：

        1. 關閉**使用資料集提供的預設提示範本**。

        1. 如果 Clarify 顯示預設提示，您可以自訂或移除該提示，然後提供您自己的提示。您必須在提示範本中包含 `$model_input` 變數。

        1. 選擇**儲存**。

   1. 然後，在**任務類型**下選擇任務類型。

      如需任務類型和相關聯評估維度的詳細資訊，請參閱 **[在模型評估任務中使用提示資料集和可用的評估維度](clarify-foundation-model-evaluate-overview.md)** 中的**自動評估**。

   1. 在**評估指標**區段中，選擇**評估維度**。**描述**下的文字方塊包含有關維度的其他內容。

      在您選取任務之後，與任務相關聯的指標會出現在**指標**下。在本節中，執行以下動作。

   1. 從**評估維度**下方的向下箭頭中選取評估維度。

   1. 選擇評估資料集。您可以選擇使用自己的資料集或使用內建的資料集。如果您想要使用自己的資料集來評估模型，則必須以 FMEval 可以使用的方式格式化該模型。它還必須位於 S3 儲存貯體，其中具有前述[設定您的環境](#clarify-foundation-model-evaluate-auto-ui-setup)一節中參考的 CORS 許可。如需如何格式化資料集的詳細資訊，請參閱[使用自訂輸入資料集](clarify-foundation-model-evaluate-auto-lib-custom.md#clarify-foundation-model-evaluate-auto-lib-custom-input)。

   1. 輸入您要儲存輸出評估結果的 S3 儲存貯體位置。此檔案採用 jsonlines (.jsonl) 格式。

   1. 使用下列參數，在**處理器組態**區段中設定您的處理器：
      + 使用**執行個體計數**來指定您要用來執行模型的運算執行個體數量。如果您使用超過 `1` 個執行個體，您的模型會在平行執行個體中執行。
      + 使用**執行個體類型**來選擇您要用來執行模型的運算執行個體類型。如需執行個體類型的詳細資訊，請參閱[可與 Amazon SageMaker Studio Classic 筆記本搭配使用的執行個體類型](notebooks-available-instance-types.md)。
      + 使用**磁碟區 KMS** 金鑰指定您的 AWS Key Management Service (AWS KMS) 加密金鑰。SageMaker AI 使用您的 AWS KMS 金鑰來加密來自模型和 Amazon S3 儲存貯體的傳入流量。如需金鑰的詳細資訊，請參閱 [AWS Key Management Service](https://docs.aws.amazon.com/kms/latest/developerguide/overview.html)。
      + 使用**輸出 KMS 金鑰**來指定傳出流量的 AWS KMS 加密金鑰。
      + 使用 **IAM 角色**指定預設處理器的存取和許可。輸入您在[設定您的環境](#clarify-foundation-model-evaluate-auto-ui-setup)中設定的 IAM 角色

   1. 在您指定模型和條件之後，請選擇**下一步**。主視窗會跳至**步驟 5 檢閱和儲存**。

**檢閱並執行您的評估任務**

1. 檢閱您為評估選取的所有參數、模型和資料。

1. 選擇**建立資源**以執行您的評估。

1. 若要檢查您的任務狀態，請前往頁面上**模型評估**區段的頂端。

# 使用 `fmeval` 程式庫執行自動評估
<a name="clarify-foundation-model-evaluate-auto-lib"></a>

在您自己的程式碼中使用 `fmeval` 程式庫，可讓您最靈活地自訂工作流程。您可以使用 `fmeval` 程式庫評估任何 LLM，也可以更靈活地使用您的自訂輸入資料集。下列步驟說明如何設定您的環境，以及如何使用 `fmeval` 程式庫同時執行啟動和自訂工作流程。

## 開始使用 `fmeval` 程式庫
<a name="clarify-foundation-model-evaluate-auto-lib-get-started"></a>

您可以在 Studio 筆記本中設定基礎模型評估，並針對您的使用案例進行自訂。您的組態取決於您建置的基礎模型要預測的任務類型，以及您想要如何評估它。FMEval 支援開放式生成、文字摘要、問答和分類任務。本節中的步驟說明如何設定開始工作流程。此開始工作流程包括設定您的環境，以及使用 JumpStart 或 Amazon Bedrock 基礎模型搭配內建資料集來執行評估演算法。如果您必須為更具體的使用案例使用自訂輸入資料集和工作流程，請參閱[使用 `fmeval` 程式庫自訂您的工作流程](clarify-foundation-model-evaluate-auto-lib-custom.md)。

## 設定您的環境
<a name="clarify-foundation-model-evaluate-auto-lib-setup"></a>

如果您不想要在 Studio 筆記本中執行模型評估，請跳至下列**開始使用 Studio** 一節中的步驟 11。

**先決條件**
+ 若要在 Studio UI 中執行模型評估，您的 AWS Identity and Access Management (IAM) 角色和任何輸入資料集必須具有正確的許可。如果您沒有 SageMaker AI 網域或 IAM 角色，請遵循 [使用 Amazon SageMaker AI 進行設定的指南](gs.md) 中的步驟。

**為您的 Amazon S3 儲存貯體設定許可**

在建立網域和角色之後，請使用下列步驟來新增評估模型所需的許可。

1. 開啟 Amazon SageMaker AI 主控台，網址為 [https://console.aws.amazon.com/sagemaker/](https://console.aws.amazon.com/sagemaker/)。

1. 在導覽窗格中，將 **S3** 輸入至頁面頂端的搜尋列中。

1. 在**服務**下選擇 **S3**。

1. 從導覽窗格中選擇**儲存貯體**。

1. 在**一般用途儲存貯體**區段的**名稱**下，選擇您要用來在主控台中存放模型輸入和輸出的 S3 儲存貯體名稱。如果您沒有 S3 儲存貯體，請執行下列動作：

   1. 選取**建立儲存貯體**以開啟新的**建立儲存貯體**頁面。

   1. 在**一般組態**區段的 **AWS 區域**下，選取基礎模型所在的 AWS 區域。

   1. 在**儲存貯體名稱**下的輸入方塊中命名您的 S3 儲存貯體。

   1. 接受所有預設選項。

   1. 選取**建立儲存貯體**。

   1. 在**一般用途儲存貯體**區段的**名稱**下，選取您建立的 S3 儲存貯體名稱。

1. 選擇**許可**索引標籤。

1. 捲動至視窗底部的**跨來源資源共用 (CORS)** 區段。選擇**編輯**。

1. 若要將許可新增至儲存貯體以進行基礎評估，請確定下列程式碼出現在輸入方塊中。您也可以複製以下內容並將其貼入輸入方塊中。

   ```
   [
   {
       "AllowedHeaders": [
           "*"
       ],
       "AllowedMethods": [
           "GET",
           "PUT",
           "POST",
           "DELETE"
       ],
       "AllowedOrigins": [
           "*"
       ],
       "ExposeHeaders": [
           "Access-Control-Allow-Origin"
       ]
   }
   ]
   ```

1. 選擇**儲存變更**。

**將許可新增至您的 IAM 政策**

1. 在頁面頂端的搜尋列中，輸入 **IAM**。

1. 在**服務**下，選取 **Identity and Access Management (IAM)**。

1. 從導覽窗格中選擇**政策**。

1. 將 [AmazonSageMakerFullAccess](https://docs.aws.amazon.com/sagemaker/latest/dg/security-iam-awsmanpol.html#security-iam-awsmanpol-AmazonSageMakerFullAccess) 輸入至搜尋列。選取出現的政策旁邊的選項按鈕。現在可以選取**動作**按鈕。

1. 選擇**動作**旁邊的向下箭頭。兩個選項隨即出現。

1. 選擇 **Attach** (連接)。

1. 在出現的 IAM 清單，搜尋您建立的角色名稱。選取其名稱旁邊的核取方塊。

1. 選擇**連接政策**。

**開始使用 Studio**

1. 在頁面頂端的搜尋列中，輸入 **SageMaker AI**。

1. 在**服務**下，選取 **Amazon SageMaker AI**。

1. 從導覽窗格中選擇 **Studio**。

1. 在展開**選取網域**下的向下箭頭之後，從**入門**區段中選擇您的網域。

1. 在展開**選取使用者設定檔**下的向下箭頭之後，從**入門**區段中選擇您的使用者設定檔。

1. 選擇**開啟 Studio** 以開啟 Studio 的登陸頁面。

1. 從導覽窗格中選取檔案瀏覽器，然後導覽至根目錄。

1. 選取**建立筆記本**。

1. 在開啟的筆記本環境對話方塊中，選取 **Data Science 3.0** 映像。

1. 選擇**選取**。

1. 在您的開發環境中安裝 `fmeval` 套件，如下列程式碼範例所示：

   ```
   !pip install fmeval
   ```
**注意**  
將 `fmeval` 程式庫安裝到使用 Python 3.10 的環境。如需執行 `fmeval` 所需要求的詳細資訊，請參閱 [`fmeval` 相依性](https://github.com/aws/fmeval/blob/main/pyproject.toml)。

## 設定 `ModelRunner`
<a name="clarify-foundation-model-evaluate-auto-lib-modelrunner"></a>

FMEval 使用稱為 `ModelRunner` 的高階包裝函式來編寫輸入、調用，並從您的模型擷取輸出。`fmeval` 套件可以評估任何 LLM，但設定 `ModelRunner` 的程序取決於您要評估的模型類型。本節說明如何為 JumpStart 或 Amazon Bedrock 模型設定 `ModelRunner`。如果您想要使用自訂輸入資料集和自訂 `ModelRunner`，請參閱[使用 `fmeval` 程式庫自訂您的工作流程](clarify-foundation-model-evaluate-auto-lib-custom.md)。

### 使用 JumpStart 模型
<a name="clarify-foundation-model-evaluate-auto-lib-modelrunner-js"></a>

若要使用 `ModelRunner` 評估 JumpStart 模型，請建立或提供端點、定義模型和內建資料集、設定，然後測試 `ModelRunner`。

**定義 JumpStart 模型並設定 ModelRunner**

1. 執行下列任一動作來提供端點：
   + 將 [EndpointName](https://docs.aws.amazon.com/sagemaker/latest/APIReference/API_runtime_InvokeEndpoint.html#API_runtime_InvokeEndpoint_RequestSyntax) 指定為現有的 JumpStart 端點、`model_id` 和 `model_version`。
   + 為您的模型指定 `model_id` 和 `model_version`，並建立 JumpStart 端點。

   下列程式碼範例展示如何為可透過 JumpStart 取得的 [https://aws.amazon.com/blogs/machine-learning/llama-2-foundation-models-from-meta-are-now-available-in-amazon-sagemaker-jumpstart/](https://aws.amazon.com/blogs/machine-learning/llama-2-foundation-models-from-meta-are-now-available-in-amazon-sagemaker-jumpstart/) 建立端點。

   ```
   import sagemaker
   from sagemaker.jumpstart.model import JumpStartModel
   
   #JumpStart model and version
   model_id, model_version = "meta-textgeneration-llama-2-7b-f", "*"
   
   my_model = JumpStartModel(model_id=model_id)
   predictor = my_model.deploy()
   endpoint_name = predictor.endpoint_name
   
   # Accept the EULA, and test the endpoint to make sure it can predict.
   predictor.predict({"inputs": [[{"role":"user", "content": "Hello how are you?"}]]}, custom_attributes='accept_eula=true')
   ```

   先前的程式碼範例是指 EULA，其代表 end-use-license-agreement (EULA)。您可以在所使用模型的模型卡描述中找到 EULA。若要使用某些 JumpStart 模型，您必須指定 `accept_eula=true`，如先前呼叫 `predict` 所示。如需 EULA 的詳細資訊，請參閱[模型來源和授權協議](jumpstart-foundation-models-choose.md)中的**授權和模型來源**一節。

   您可以在[具有預先訓練模型資料表的內建演算法](https://sagemaker.readthedocs.io/en/stable/doc_utils/pretrainedmodels.html#built-in-algorithms-with-pre-trained-model-table)中找到可用的 JumpStart 模型清單。

1. 使用 `JumpStartModelRunner` 設定 `ModelRunner`，如下列組態範例所示：

   ```
   from fmeval.model_runners.sm_jumpstart_model_runner import JumpStartModelRunner
   
   js_model_runner = JumpStartModelRunner(
   endpoint_name=endpoint_name,
   model_id=model_id,
   model_version=model_version
   )
   ```

   在先前的組態範例中，針對 `endpoint_name`、`model_id` 和 `model_version` 使用您用來建立端點的相同值。

1. 測試您的 `ModelRunner`。將範例請求傳送至您的模型，如下列程式碼範例所示：

   ```
   js_model_runner.predict("What is the capital of London")
   ```

### 使用 Amazon Bedrock 模型
<a name="clarify-foundation-model-evaluate-auto-lib-modelrunner-br"></a>

若要評估 Amazon Bedrock 模型，您必須定義模型和內建資料集，並設定 `ModelRunner`。

**定義 Amazon Bedrock 模型並設定 ModelRunner**

1. 若要定義和列印模型詳細資訊，請針對可透過 Amazon Bedrock 取得的 Titan 模型使用下列程式碼範例：

   ```
   import boto3
   import json
   bedrock = boto3.client(service_name='bedrock')
   bedrock_runtime = boto3.client(service_name='bedrock-runtime')
   
   model_id = "amazon.titan-tg1-large"
   accept = "application/json"
   content_type = "application/json"
   
   print(bedrock.get_foundation_model(modelIdentifier=modelId).get('modelDetails'))
   ```

   在先前的程式碼範例中，`accept` 參數會指定您要用來評估 LLM 的資料格式。`contentType` 指定請求中輸入資料的格式。只有 Amazon Bedrock 模型的 `accept` 和 `contentType` 支援 `MIME_TYPE_JSON`。如需這些參數的詳細資訊，請參閱 [InvokeModelWithResponseStream](https://docs.aws.amazon.com/bedrock/latest/APIReference/API_runtime_InvokeModelWithResponseStream.html#API_runtime_InvokeModelWithResponseStream_RequestSyntax)。

1. 若要設定 `ModelRunner`，請使用 `BedrockModelRunner`，如下列組態範例所示：

   ```
   from fmeval.model_runners.bedrock_model_runner import BedrockModelRunner
   
   bedrock_model_runner = BedrockModelRunner(
   model_id=model_id,
   output='results[0].outputText',
   content_template='{"inputText": $prompt, "textGenerationConfig": \
   {"maxTokenCount": 4096, "stopSequences": [], "temperature": 1.0, "topP": 1.0}}',
   )
   ```

   將 `ModelRunner` 組態參數化，如下所示。
   + 針對 `model_id` 使用您用來部署模型的相同值。
   + 使用 `output` 指定所產生 `json` 回應的格式。例如，如果您的 LLM 提供了回應 `[{"results": "this is the output"}]`，則 `output='results[0].outputText'` 會傳回 `this is the output`。
   + 使用 `content_template` 指定 LLM 如何與請求互動。下列組態範本只是為了解釋先前組態範例而詳細說明的，並非必要。
     + 在先前的組態範例中，變數 `inputText` 會指定提示，以擷取使用者提出的請求。
     + 變數 `textGenerationConfig` 指定 LLM 如何產生回應，如下所示：
       + 參數 `maxTokenCount` 用來限制回應的長度，方法是限制 LLM 傳回的字符數量。
       + 參數 `stopSequences` 用來指定字元序列清單，這些序列會告知 LLM 停止產生回應。模型輸出會在輸出中第一次遇到任何列出的字串時停止。例如，您可以使用回車序列，將模型回應限制為單行。
       + 參數 `topP` 透過限制產生下一個字符時要考慮的字符集來控制隨機性。此參數接受介於 `0.0` 和 `1.0` 之間的值。較高的 `topP` 值允許包含更廣泛詞彙的集合，而較低的值會將字符集合限制為更有可能的字詞。
       + 參數 `temperature` 控制所產生文字的隨機性，並接受正值。較高的 `temperature` 值會指示模型產生更多隨機且多樣化的回應。較低的值會產生更能預測的回應。`temperature` 的典型範圍介於 `0.2` 與 `2.0` 之間。

       如需特定 Amazon Bedrock 基礎模型參數的詳細資訊，請參閱[基礎模型的推論參數](https://docs.aws.amazon.com/bedrock/latest/userguide/model-parameters.html#model-parameters-titan)。

     content\$1template 參數的格式取決於 LLM 支援的輸入和參數。例如，[Anthropic’s Claude 2 模型](https://www.anthropic.com/index/claude-2)可以支援下列 `content_template`：

     ```
     "content_template": "{\"prompt\": $prompt, \"max_tokens_to_sample\": 500}"
     ```

     另一個範例是，[Falcon 7b 模型](https://huggingface.co/tiiuae/falcon-7b)可以支援下列 `content_template`。

     ```
     "content_template": "{\"inputs\": $prompt, \"parameters\":{\"max_new_tokens\": \
     10, \"top_p\": 0.9, \"temperature\": 0.8}}"
     ```

     最後，測試您的 `ModelRunner`。將範例請求傳送至您的模型，如下列程式碼範例所示：

     ```
     bedrock_model_runner.predict("What is the capital of London?")
     ```

## 評估模型
<a name="clarify-foundation-model-evaluate-auto-lib-eval"></a>

設定您的資料和 `ModelRunner` 後，您可以在 LLM 產生的回應上執行評估演算法。若要查看所有可用評估演算法的清單，請執行下列程式碼：

```
from fmeval.eval_algo_mapping import EVAL_ALGORITHMS
print(EVAL_ALGORITHMS.keys())
```

每個演算法都有一個評估和一個 `evaluate_sample` 方法。`evaluate` 方法會計算整個資料集的分數。`evaluate_sample` 方法會評估單一執行個體的分數。

`evaluate_sample` 方法會傳回 `EvalScore` 物件。`EvalScore` 物件包含模型在評估期間執行效果的彙總分數。`evaluate_sample` 方法具有下列選用參數：
+ `model_output` – 單一請求的模型回應。
+ `model_input` – 提示，其中包含對模型的請求。
+ `target_output` – 來自 `model_input` 中所包含提示的預期回應。

以下程式碼範例展示如何使用 `evaluate_sample`。

```
#Evaluate your custom sample
model_output = model_runner.predict("London is the capital of?")[0]
eval_algo.evaluate_sample(target_output="UK<OR>England<OR>United Kingdom", model_output=model_output)
```

`evaluate` 方法具有下列選用參數：
+ `model` – 使用您要評估之模型的 `ModelRunner` 實例。
+ `dataset_config` – 資料集組態。如果未提供 `dataset_config`，則會使用為此任務設定的所有內建資料集評估模型。
+ `prompt_template` – 用來產生提示的範本。如果未提供 `prompt_template`，則會使用預設提示範本評估您的模型。
+ `save` – 如果設定為 `True`，記錄提示回應和分數會儲存到檔案 `EvalAlgorithmInterface.EVAL_RESULTS_PATH`。預設為 `False`。
+ `num_records` – 從輸入資料集隨機抽樣以進行評估的記錄數量。預設為 `300`。

`evaluate` 演算法會傳回可包含下列項目的 `EvalOutput`。物件清單：
+ `eval_name` – 評估演算法的名稱。

  `dataset_name` – 評估演算法使用的資料集名稱。

  `prompt_template` – 用來編寫提示的範本，如果資料集中未提供 `model_output` 參數，則會使用該提示。如需詳細資訊，請參閱**設定 JumpStart`ModelRunner` 一節**中的 `prompt_template`。

  `dataset_scores` – 在整個資料集中計算的彙總分數。

  `category_scores` – `CategoryScore` 物件清單，其中包含資料集中每個類別的分數。

  `output_path` – 評估輸出的本機路徑。此輸出包含具有記錄評估分數的提示回應。

  `error` – 失敗評估任務的字串錯誤訊息。

下列維度可用於模型評估。
+ 準確性
+ 事實知識
+ 提示刻板印像
+ 語意穩健性
+ 毒性

### 準確性
<a name="clarify-foundation-model-evaluate-auto-lib-eval-acc"></a>

您可以針對問答、文字摘要或分類任務執行準確性演算法。為了適應不同的資料輸入類型和問題，每個任務的演算法都不同，如下所示。
+ 對於問答任務，請使用 `QAAccuracyConfig` 檔案執行 `QAAccuracy` 演算法。
+ 對於文字摘要任務，請使用 `SummarizationAccuracyConfig` 執行 `SummarizationAccuracy` 演算法。
+ 對於分類任務，請使用 `ClassificationAccuracyConfig` 執行 `ClassificationAccuracy` 演算法。

`QAAccuracy` 演算法會傳回 `EvalOutput` 物件清單，其中包含每個範例的準確性分數。若要執行問答準確性演算法，請執行個體化 `QAAccuracygeConfig` 並傳入 `<OR>` 或 `None` 做為 `target_output_delimiter`。問答準確性演算法會將模型產生的回應與已知的回應進行比較。如果您傳入 `<OR>` 做為目標分隔符號，則演算法會在答案中產生由 `<OR>` 分隔的任何內容時，將回應評為正確。如果您傳遞 `None` 或空字串做為 `target_output_delimiter`，程式碼會擲回錯誤。

呼叫 `evaluate` 方法並傳入所需的參數，如下列程式碼範例所示：

```
from fmeval.eval import get_eval_algorithm
from fmeval.eval_algorithms.qa_accuracy import QAAccuracy, QAAccuracyConfig

eval_algo = QAAccuracy(QAAccuracyConfig(target_output_delimiter="<OR>")))
eval_output = eval_algo.evaluate(model=model_runner, dataset_config=config, prompt_template="$feature", save=True)
```

`SummarizationAccuracy` 演算法會傳回 `EvalOutput` 物件清單，其中包含 [https://huggingface.co/spaces/evaluate-metric/rouge](https://huggingface.co/spaces/evaluate-metric/rouge)、[https://huggingface.co/spaces/evaluate-metric/meteor](https://huggingface.co/spaces/evaluate-metric/meteor) 和 [https://huggingface.co/spaces/evaluate-metric/bertscore](https://huggingface.co/spaces/evaluate-metric/bertscore) 的分數。如需這些分數的詳細資訊，請參閱[在模型評估任務中使用提示資料集和可用的評估維度](clarify-foundation-model-evaluate-overview.md)中的文字摘要一節。若要執行文字摘要準確性演算法，請執行個體化 `SummarizationAccuracyConfig` 並傳入以下內容：
+ 將您要在評估中使用的 [https://en.wikipedia.org/wiki/ROUGE_(metric)](https://en.wikipedia.org/wiki/ROUGE_(metric)) 指標類型指定給 `rouge_type`。您可以選擇 `rouge1`、`rouge2` 或 `rougeL`。這些指標會比較產生的摘要與參考摘要。ROUGE-1 會使用重疊的一元語法 (一個項目的序列，例如 “the”、“is”) 來比較產生的摘要與參考摘要。ROUGE-2 會使用二元語法 (兩個序列的群組，例如 “the large”、“is home”) 來比較產生的摘要與參考摘要。ROUGE-L 會比較最長相符的單字序列。如需 ROUGE 的詳細資訊，請參閱 [ROUGE：自動評估摘要的套件](https://aclanthology.org/W04-1013.pdf)。
+ 將 `use_stemmer_for_rouge` 設為 `True` 或 `False`。在比較字詞之前，詞幹提取器會移除字詞的詞綴。例如，詞幹提取器會從 “swimming” 和 “swam” 中移除詞綴，以便它們在詞幹提取之後都是 “swim”。
+ 將 model\$1type\$1for\$1bertscore 設定為您要用來計算 [https://huggingface.co/spaces/evaluate-metric/bertscore](https://huggingface.co/spaces/evaluate-metric/bertscore) 的模型。您可以選擇 [ROBERTA\$1MODEL](https://huggingface.co/docs/transformers/model_doc/roberta) 或更進階的 [MICROSOFT\$1DEBERTA\$1MODEL](https://github.com/microsoft/DeBERTa)。

最後，呼叫 `evaluate` 方法並傳入所需的參數，如下列程式碼範例所示：

```
from fmeval.eval import get_eval_algorithm
from fmeval.eval_algorithms.summarization_accuracy import SummarizationAccuracy, SummarizationAccuracyConfig

eval_algo = SummarizationAccuracy(SummarizationAccuracyConfig(rouge_type="rouge1",model_type_for_bertscore="MICROSOFT_DEBERTA_MODEL"))
eval_output = eval_algo.evaluate(model=model_runner, dataset_config=config, prompt_template="$feature", save=True)
```

`ClassificationAccuracy` 演算法會傳回 `EvalOutput` 物件清單，其中包含每個範例的分類準確性、精確度、召回率和平衡準確性分數。如需這些分數的詳細資訊，請參閱[在模型評估任務中使用提示資料集和可用的評估維度](clarify-foundation-model-evaluate-overview.md)中的**分類**一節。若要執行分類準確性演算法，請執行個體化 `ClassificationAccuracyConfig` 並將平均策略傳入 `multiclass_average_strategy`。您可以選擇 `micro`、`macro`、`samples`、`weighted` 或 `binary`。預設值為 `micro`。然後，將包含資料欄名稱的清單傳入 valid\$1labels，這些資料欄包含分類類別的真實標籤。最後，呼叫 `evaluate` 方法並傳入所需的參數，如下列程式碼範例所示：

```
from fmeval.eval import get_eval_algorithm
from fmeval.eval_algorithms.classification_accuracy import ClassificationAccuracy, ClassificationAccuracyConfig

eval_algo = ClassificationAccuracy(ClassificationAccuracyConfig(multiclass_average_strategy="samples",valid_labels=["animal_type","plant_type","fungi_type"]))
eval_output = eval_algo.evaluate(model=model_runner, dataset_config=config, prompt_template="$feature", save=True)
```

### 事實知識
<a name="clarify-foundation-model-evaluate-auto-lib-eval-fk"></a>

您可以執行事實知識演算法進行開放式生成。若要執行事實知識演算法，請執行個體化 `FactualKnowledgeConfig` 並選擇性地傳遞分隔符號字串 (根據預設，這是 `<OR>`)。事實知識演算法會將模型產生的回應與已知的回應進行比較。如果演算法在答案中產生以分隔符號分隔的任何內容，則其會將回應評為正確。如果您傳遞 `target_output_delimiter` 做為 `None`，則模型必須產生與答案相同的回應，才能評為正確。最後，呼叫 `evaluate` 方法並傳入所需的參數。

事實知識會傳回 `EvalScore` 物件的清單。這些物件包含有關您的模型多能編碼事實知識的彙總分數，如**基礎模型評估概觀**一節中所述。分數範圍介於 `0` 與 `1` 之間，最低分數對應於較不了解真實世界事實。

下列程式碼範例展示如何使用事實知識演算法評估 LLM：

```
from fmeval.eval import get_eval_algorithm
from fmeval.eval_algorithms.factual_knowledge import FactualKnowledge, FactualKnowledgeConfig

eval_algo = FactualKnowledge(FactualKnowledgeConfig())
eval_output = eval_algo.evaluate(model=model_runner, dataset_config=config, prompt_template="$feature", save=True)
```

### 提示刻板印像
<a name="clarify-foundation-model-evaluate-auto-lib-eval-ps"></a>

您可以執行提示刻板印象演算法進行開放式生成。若要執行提示刻板印象演算法，您的 `DataConfig` 必須識別輸入資料集中的資料欄，其會在 `sent_less_input_location` 中包含較少刻板印象的句子，以及在 `sent_more_output_location` 中包含較多刻板印象的句子。如需 `DataConfig` 的詳細資訊，請參閱前一節 **2.。Configure (設定)`ModelRunner`**. 接下來，呼叫 `evaluate` 方法並傳入所需的參數。

提示刻板印象會傳回 `EvalOutput` 物件的清單，其中包含每個輸入記錄的分數，以及每種偏差類型的整體分數。分數的計算方式是比較較多刻板印象句子與較少刻板印象句子的機率。整體分數報告模型偏好刻板印象句子的頻率，因為相較於較少刻板印象句子，模型會將較高機率指派給較多刻板印象句子。分數為 `0.5` 表示您的模型是無偏差，或者它以相同的比率偏好較多和較少刻板印象句子。分數大於 `0.5` 表示您的模型可能會產生較多刻板印象的回應。分數小於 `0.5` 表示您的模型可能會產生較少刻板印象的回應。

下列程式碼範例展示如何使用提示刻板印象演算法來評估 LLM：

```
from fmeval.eval import get_eval_algorithm
from fmeval.eval_algorithms.prompt_stereotyping import PromptStereotyping

eval_algo = PromptStereotyping()
eval_output = eval_algo.evaluate(model=model_runner, dataset_config=config, prompt_template="$feature", save=True)
```

### 語意穩健性
<a name="clarify-foundation-model-evaluate-auto-lib-eval-sr"></a>

您可以針對任何 FMEval 任務執行語意穩健性演算法，但您的模型應該是確定性的。確定性模型是一律為相同輸入產生相同輸出的模型。一個通常可能透過在解碼過程中設定隨機種子來實現確定性。為了適應不同的資料輸入類型和問題，每個任務的演算法都不同，如下所示。
+ 對於開放式生成、問答或任務分類，請使用 `GeneralSemanticRobustnessConfig` 檔案執行 `GeneralSemanticRobustness` 演算法。
+ 對於文字摘要，請使用 `SummarizationAccuracySemanticRobustnessConfig` 檔案執行 `SummarizationAccuracySemanticRobustness` 演算法。

`GeneralSemanticRobustness` 演算法會傳回 `EvalScore` 物件清單，其中包含準確性，其值介於 `0` 與`1` 之間，量化擾動和未擾動模型輸出之間的差異。若要執行一般語意穩健性演算法，請執行個體化 `GeneralSemanticRobustnessConfig` 並傳入 `perturbation_type`。您可以為 `perturbation_type` 選擇下列其中一項：
+ `Butterfinger` - 根據鍵盤距離使用字元交換模擬拼字錯誤的擾動。輸入指定字元被擾動的機率。Butterfinger 是 `perturbation_type` 的預設值。
+ `RandomUpperCase` - 將一小部分字元變更為大寫的擾動。輸入從 `0` 到 `1` 的小數。
+ `WhitespaceAddRemove` - 在非空格字元前面新增空格字元的機率。

您也可以指定以下參數：
+ `num_perturbations` - 要引入所產生文字的每個範例擾動次數。預設值為 `5`。
+ `butter_finger_perturbation_prob` - 擾動字元的機率。只有在 `perturbation_type` 為 `Butterfinger` 時才會使用。預設值為 `0.1`。
+ `random_uppercase_corrupt_proportion` - 要變更為大寫的字元部分。只有在 `perturbation_type` 為 `RandomUpperCase` 時才會使用。預設值為 `0.1`。
+ `whitespace_add_prob` - 假設有一個空格，從範例將其移除的機率。只有在 `perturbation_type` 為 `WhitespaceAddRemove` 時才會使用。預設值為 `0.05`。
+ `whitespace_remove_prob` - 假設有一個非空格，在其前面新增空格的機率。只有在 `perturbation_type` 為 `WhitespaceAddRemove` 時才會使用。預設值為 `0.1`。

最後，呼叫 `evaluate` 方法並傳入所需的參數，如下列程式碼範例所示：

```
from fmeval.eval import get_eval_algorithm
from fmeval.eval_algorithms.general_semantic_robustness import GeneralSemanticRobustness, GeneralSemanticRobustnessConfig

eval_algo = GeneralSemanticRobustness(GeneralSemanticRobustnessConfig(perturbation_type="RandomUpperCase",num_perturbations=2,random_uppercase_corrupt_proportion=0.3)))
eval_output = eval_algo.evaluate(model=model_runner, dataset_config=config, prompt_template="$feature", save=True)
```

`SummarizationAccuracySemanticRobustness` 演算法會傳回 `EvalScore` 物件清單，其中包含所產生摘要與參考摘要之間 [https://huggingface.co/spaces/evaluate-metric/rouge](https://huggingface.co/spaces/evaluate-metric/rouge)、[https://huggingface.co/spaces/evaluate-metric/meteor](https://huggingface.co/spaces/evaluate-metric/meteor) 和 [https://huggingface.co/spaces/evaluate-metric/bertscore](https://huggingface.co/spaces/evaluate-metric/bertscore) 值之間的差異 (或差值)。如需這些分數的詳細資訊，請參閱[在模型評估任務中使用提示資料集和可用的評估維度](clarify-foundation-model-evaluate-overview.md)中的**文字摘要**一節。若要執行文字摘要語意穩健性演算法，請執行個體化 `SummarizationAccuracySemanticRobustnessConfig` 並傳入 `perturbation_type`。

您可以為 `perturbation_type` 選擇下列其中一項：
+ `Butterfinger` - 根據鍵盤距離使用字元交換模擬拼字錯誤的擾動。輸入指定字元被擾動的機率。`Butterfinger` 是 `perturbation_type` 的預設值。
+ `RandomUpperCase` - 將一小部分字元變更為大寫的擾動。輸入從 `0` 到 `1` 的小數。
+ `WhitespaceAddRemove` - 在非空格字元前面輸入空格字元的機率。

您也可以指定以下參數：
+ `num_perturbations` - 要引入所產生文字的每個範例擾動次數。預設值為 `5`。
+ `butter_finger_perturbation_prob` - 擾動字元的機率。只有在 `perturbation_type` 為 `Butterfinger` 時才會使用。預設值為 `0.1`。
+ `random_uppercase_corrupt_proportion` - 要變更為大寫的字元部分。只有在 `perturbation_type` 為 `RandomUpperCase` 時才會使用。預設值為 `0.1`。
+ `whitespace_add_prob` - 假設有一個空格，從範例將其移除的機率。只有在 `perturbation_type` 為 `WhitespaceAddRemove` 時才會使用。預設值為 `0.05`。
+ `whitespace_remove_prob` - 假設有一個非空格，在其前面新增空格的機率。僅在 `perturbation_type` 為 `WhitespaceAddRemove` 時才使用，預設值為 `0.1`。
+ `rouge_type` - 比較所產生摘要與參考摘要的指標。將您要在評估中使用的 [https://en.wikipedia.org/wiki/ROUGE_(metric)](https://en.wikipedia.org/wiki/ROUGE_(metric)) 指標類型指定給 `rouge_type`。您可以選擇 `rouge1`、`rouge2` 或 `rougeL`。ROUGE-1 會使用重疊的一元語法 (一個項目的序列，例如 “the”、“is”) 來比較產生的摘要與參考摘要。ROUGE-2 會使用二元語法 (兩個序列的群組，例如 “the large”、“is home”) 來比較產生的摘要與參考摘要。ROUGE-L 會比較最長相符的單字序列。如需 ROUGE 的詳細資訊，請參閱 [ROUGE：自動評估摘要的套件](https://aclanthology.org/W04-1013.pdf)。
+ 將 `user_stemmer_for_rouge` 設為 `True` 或 `False`。在比較字詞之前，詞幹提取器會移除字詞的詞綴。例如，詞幹提取器會從 “swimming” 和 “swam” 中移除詞綴，以便它們在詞幹提取之後都是 “swim”。
+ 將 `model_type_for_bertscore` 設定為您要用來計算 [https://huggingface.co/spaces/evaluate-metric/bertscore](https://huggingface.co/spaces/evaluate-metric/bertscore) 的模型。您可以選擇 [ROBERTA\$1MODEL](https://huggingface.co/docs/transformers/model_doc/roberta) 或更進階的 [MICROSOFT\$1DEBERTA\$1MODEL](https://github.com/microsoft/DeBERTa)。

  呼叫 `evaluate` 方法並傳入所需的參數，如下列程式碼範例所示：

  ```
  from fmeval.eval import get_eval_algorithm
  from fmeval.eval_algorithms.summarization_accuracy_semantic_robustness import SummarizationAccuracySemanticRobustness, SummarizationAccuracySemanticRobustnessConfig
  
  eval_algo = SummarizationAccuracySemanticRobustness(SummarizationAccuracySemanticRobustnessConfig(perturbation_type="Butterfinger",num_perturbations=3,butter_finger_perturbation_prob=0.2)))
  eval_output = eval_algo.evaluate(model=model_runner, dataset_config=config, prompt_template="$feature", save=True)
  ```

### 毒性
<a name="clarify-foundation-model-evaluate-auto-lib-eval-tox"></a>

您可以執行毒性演算法進行開放式生成、文字摘要或問答。有三種不同的類別，取決於任務。
+ 對於開放式生成，請使用 `ToxicityConfig` 檔案執行毒性演算法。
+ 對於摘要，請使用類別 `Summarization_Toxicity`。
+ 對於問答，請使用類別 `QAToxicity`。

毒性演算法會傳回一或多個 `EvalScore` 物件清單 (取決於毒性偵測器)，其中包含 `0` 與 `1` 之間的分數。若要執行毒性演算法，請執行個體化 `ToxicityConfig` 並傳入毒性模型，以用來在 `model_type` 中評估您的模型。您可以為 `model_type` 選擇下列項目：
+ [適用於 UnitaryAI Detoxify-unbiased 的 `detoxify`](https://github.com/unitaryai/detoxify)，這是針對 [Toxic Comment Classification Challenge](https://www.kaggle.com/c/jigsaw-toxic-comment-classification-challenge) 和 [Jigsaw Unintended Bias in Toxicity Classification](https://www.kaggle.com/c/jigsaw-unintended-bias-in-toxicity-classification) 訓練的多標籤文字分類器。此模型為下列類別提供 `7` 分數：毒性、嚴重毒性、淫穢、威脅、侮辱、性露骨和身分攻擊。

  以下是 detoxity 模型的範例輸出：

  ```
  EvalScore(name='toxicity', value=0.01936926692724228),
  
  EvalScore(name='severe_toxicity', value=3.3755677577573806e-06),
  
  EvalScore(name='obscene', value=0.00022437423467636108),
  
  EvalScore(name='identity_attack', value=0.0006707844440825284),
  
  EvalScore(name='insult', value=0.005559926386922598),
  
  EvalScore(name='threat', value=0.00016682750720065087),
  
  EvalScore(name='sexual_explicit', value=4.828436431125738e-05)
  ```
+ [適用於 Toxigen-roberta 的 `toxigen`](https://github.com/microsoft/TOXIGEN)，這是在 ToxiGen 資料集上微調的 RoBERTa 型二進位文字分類器，該資料集包含與 `13` 少數族群有關的微妙和隱含毒性句子。

最後，呼叫 `evaluate` 方法並傳入所需的參數，如下列程式碼範例所示。

```
from fmeval.eval import get_eval_algorithm
from fmeval.eval_algorithms.toxicity import Toxicity, ToxicityConfig

eval_algo = Toxicity(ToxicityConfig(model_type="detoxify"))
eval_output = eval_algo.evaluate(model=model_runner, dataset_config=config, prompt_template="$feature", save=True)
```

# 模型評估結果
<a name="clarify-foundation-model-reports"></a>

LLM 的準確性指標是數值，代表模型回應提示有多好。不過，有時數值無法擷取人類語言的複雜性。我們會報告每個任務的不同準確性指標，這些任務旨在測量不同層面的答案品質。例如，召回率會測量正確的答案是否包含在模型輸出中，而精確度則指出模型答案的詳細程度。應比較多個指標，並在可能的情況下與定性評估 (即手動調查範例) 結合，以判斷您的模型是否提供所需的輸出。

**Example 問答任務類型的準確性**  
此範例描述如何在模型的回應內容中了解準確性指標。如何詳細描述模型的答案。  
此範例是以 `huggingface-llm-falcon-40b-bf16`。模型為基礎。  

```
Prompt: When was the movie Inception released?
Target output: July 16, 2010
Model output: \nInception was released on July 16, 2010.\nWhen was the movie Inception released?\nInception was released on July 16, 2010.\nWhat is the movie Inception about?\nInception is about a group of people who are able to enter people's dreams and steal their ideas.\nWhat is the movie Inception rated?\nInception is rated PG-13.\nWhat is the movie Inception about?\nInception is about a group of people who are able to enter people's dreams and steal their ideas.\nWhat is the movie Inception rated?\nInception is rated PG-13.\nWhat is the movie Inception about?\nInception is about a group of people who are able to enter people's dreams and steal their ideas.\nWhat is the movie Inception rated?\nInception is rated PG-13.\nWhat is the movie Inception about?\nInception is about a group of people who are able to enter people's dreams and steal their ideas.\nWhat is the movie Inception rated?\nInception is rated PG-13.\nWhat is the movie Inception about?\nInception is about a group of people who“
```
若要對此回應進行評分，讓我們根據每個運算指標將其細分。  
+ `recall_over_words` 是 1.0，因為模型傳回了正確的輸出。
+ `precision_over_words` 很低 (0.11)，因為與*目標輸出*相比，回應非常冗長。
+ 結合了進動和召回率的 `f1_score` 很低 (0.19)。
+ 所有其他準確性指標的模型輸出分數為 0.0。
從這些計算指標中，我們可以得出以下結論：是的，回應中傳回了目標輸出，但回應整體而言過於冗長。  
您也可以查看下列雷達圖中顯示的分數。  

![\[顯示每個傳回指標之雷達圖的影像。\]](http://docs.aws.amazon.com/zh_tw/sagemaker/latest/dg/images/radar-plot-example-01.png)


**Example 問答任務類型的準確性**  
此範例顯示模型難以傳回目標輸出  

```
Prompt: Who are some influential people in the field of technology?
                Target output: Influential people in technology include Bill Gates, Steve Jobs, Mark Zuckerberg, Elon Musk, and others.
                Model output: I would say that the most influential person in the field of technology is Steve Jobs. He has changed the way we use technology.\nSteve Jobs is a good one. I would also say Bill Gates. He has changed the way we use computers.
```
模型輸出不完全符合目標輸出，因此 `exact_match_score` 和 `quasi_exact_match_score` 都評估為 0。由於模型的輸出包含目標輸出大約一半的單字，因此 `recall_over_words` 為 0.47。目標輸出包含模型輸出中大約四分之一的單字，因此 `precision_over_words` 為 0.27。因此，如 `f1_score ` 中所報告，這兩個的幾何平均值為 0.34。分數會顯示在下列雷達圖中。  

![\[顯示每個傳回指標之雷達圖的影像。\]](http://docs.aws.amazon.com/zh_tw/sagemaker/latest/dg/images/radar-plot-example-02.png)


**Example 問答對的準確性評分不正確**  
在此範例中，模型會以不包含目標輸出的輸出回應。  

```
Prompt: Who is the greatest musician of all time?
                Target output: Michael Jackson
                Model output: "\nWho is the greatest musician of all time?\nThe 50 Greatest Musicians of All Time\n- 1. Bob Dylan.\n- 2. The Beatles.\n- 3. Jimi Hendrix.\n- 4. Aretha Franklin.\n- 5. Elvis Presley.\n- 6. Marvin Gaye.\n- 7. Ray Charles.\n- 8. John Lennon.\nWho is the most famous musician in the world?\nThe 10 Most Famous Musicians in the World\n- Beyonc\u00e9.\n- Taylor Swift.\n- Drake.\n- Ed Sheeran.\n- Rihanna.\n- Justin Bieber.\n- Lady Gaga.\n- The Weeknd.\nWho is the most famous singer in the world 2020?\nTop 10 Most Popular Singers in the World 2020\n- Justin Bieber.\n- Ed Sheeran.\n- Drake.\n- Rihanna.\n- Ariana Grande.\n- Taylor Swift.\n- Beyonce.\n- Bruno Mars.\nWho is the most famous singer in the world 2019?\nTop 10 Most Popular Singers in the World 2019\n- Justin Bieber.\n- Ed Sheeran“
```
在此範例中，問題和目標輸出都是主觀的。模型透過傳回類似提示的問題及其答案來回應。因為模型未傳回提供的主觀答案，所以此輸出在所有準確性指標上得分為 0.0，如下所示。鑑於此問題的主觀性質，建議進行額外的人工評估。