在 Studio 中建立自動模型評估任務

Studio 中提供的精靈會引導您選擇要評估的模型、選取任務類型、選擇指標和資料集，以及設定任何必要的資源。下列主題說明如何格式化選用的自訂輸入資料集、設定您的環境，以及在 Studio 中建立模型評估任務。

若要使用您自己的自訂提示資料集，它必須是 jsonlines 檔案，其中每一行都是有效的 JSON 物件。每個 JSON 物件必須包含單一提示。

為了協助確保您選取的 JumpStart 模型很好地執行，SageMaker Clarify 會自動將所有提示資料集格式化為最適合您所選模型評估維度的格式。對於內建提示資料集，SageMaker Clarify 也會使用額外的指示文字來增強您的提示。若要查看 SageMaker Clarify 如何修改提示，請在您已新增至模型評估任務的評估維度下選擇提示範本。若要查看如何修改提示範本的範例，請參閱提示範本範例。

切換可讓您關閉或開啟 SageMaker Clarify 為內建資料集提供的自動提示範本支援。關閉自動提示範本允許您可以指定自己的自訂提示範本，其將套用至資料集中的所有提示。

若要了解哪些金鑰可用於 UI 中的自訂資料集，請參閱下列任務清單。

model_input – 需要指出下列任務的輸入。
- 您的模型應該在開放式生成、毒性和準確性任務中回應的提示。
- 您的模型應該在問答和事實知識任務中回答的問題。
- 您的模型應該在文字摘要任務總結的文字。
- 您的模型應在分類任務中分類的文字。
- 您想要模型在語意穩健性任務中擾動的文字。
target_output – 需要為下列任務指出針對其評估模型的回應。
- 問答、準確性、語意穩健性和事實評估任務的答案。
- 對於準確性和語意穩健性任務，請使用 <OR> 分隔可接受的答案。評估接受逗號分隔的任何答案作為正確答案。例如，如果您想要接受 UK 或 England 或 United Kingdom 作為可接受的答案，請使用 target_output="UK<OR>England<OR>United Kingdom"。
(選用) category - 產生針對每個類別報告的評估分數。
sent_less_input - 需要指出對提示刻板印象任務包含較少偏差的提示。
sent_more_input - 需要指出對提示刻板印象任務包含較多偏差的提示。

事實知識評估需要提出問題和檢查模型回應的答案。使用金鑰 model_input 搭配問題中包含的值，以及使用金鑰 target_output 搭配答案中包含的值，如下所示。


{"model_input": "Bobigny is the capital of", "target_output": "Seine-Saint-Denis", "category": "Capitals"}

上一個範例是單一有效的 JSON 物件，構成 jsonlines 輸入檔案中的一筆記錄。每個 JSON 物件都會以請求的形式傳送至您的模型。若要提出多個請求，請包含多行。下列資料輸入範例適用於使用選擇性 category 索引鍵進行評估的問答任務。


{"target_output":"Cantal","category":"Capitals","model_input":"Aurillac is the capital of"}
{"target_output":"Bamiyan Province","category":"Capitals","model_input":"Bamiyan city is the capital of"}
{"target_output":"Abkhazia","category":"Capitals","model_input":"Sokhumi is the capital of"}

如果您在 UI 中評估演算法，則會為您的輸入資料集設定下列預設值：

評估使用的記錄數量已修正。演算法會從輸入資料集中隨機取樣此數量的請求。
- 若要變更此數字：如使用 fmeval 程式庫自訂工作流程中所述使用 fmeval 程式庫，並將 num_records 參數設定為所需的範例數量，或使用 -1 指定整個資料集。對於準確性、提示刻板印象、毒性、分類和語意穩健性任務，評估的預設記錄數量為 100。事實知識任務的預設記錄數量為 300。
先前在 target_output 參數中所述的目標輸出分隔符號會在 UI 中設定為 <OR>。
- 若要使用另一個分隔符號分隔可接受的答案：如使用 fmeval 程式庫自訂工作流程所述使用 fmeval 程式庫，並將 target_output_delimiter 參數設定為所需的分隔符號。
您必須使用可用於模型評估的文字型 JumpStart 語言模型。這些模型有數個自動傳遞至 FMeval 程序的資料輸入組態參數。
- 若要使用另一種模型：使用 fmeval 程式庫來定義輸入資料集的資料組態。

若要為您的大型語言模型 (LLM) 執行自動評估，您必須將環境設定為具有執行評估的正確許可。然後，您可以使用 UI 引導您完成工作流程中的步驟，並執行評估。下列各節說明如何使用 UI 執行自動評估。

先決條件

若要在 Studio UI 中執行模型評估，您的 AWS Identity and Access Management (IAM) 角色和任何輸入資料集必須具有正確的許可。如果您沒有 SageMaker AI 網域或 IAM 角色，請遵循使用 Amazon SageMaker AI 進行設定的指南中的步驟。

為您的 S3 儲存貯體設定許可

在建立網域和角色之後，請使用下列步驟來新增評估模型所需的許可。

開啟 Amazon SageMaker AI 主控台，網址為 https://console.aws.amazon.com/sagemaker/。
在導覽窗格中，將 S3 輸入至頁面頂端的搜尋列中。
在服務下選擇 S3。
從導覽窗格中選擇儲存貯體。
在一般用途儲存貯體區段的名稱下，選擇您要用來存放自訂提示資料集的 Amazon S3 儲存貯體名稱，以及您要儲存模型評估任務結果的位置。Amazon S3 儲存貯體必須與 AWS 區域 Studio 執行個體位於相同的中。如果您沒有 Amazon S3 儲存貯體，請執行下列動作。
1. 選取建立儲存貯體以開啟新的建立儲存貯體頁面。
2. 在一般組態區段的 AWS 區域下，選取基礎模型所在的 AWS 區域。
3. 在儲存貯體名稱下的輸入方塊中命名您的 S3 儲存貯體。
4. 接受所有預設選項。
5. 選取建立儲存貯體。
6. 在一般用途儲存貯體區段的名稱下，選取您建立的 S3 儲存貯體名稱。
選擇許可索引標籤。
捲動至視窗底部的跨來源資源共用 (CORS) 區段。選擇編輯。

若要將 CORS 許可新增至您的儲存貯體，請將下列程式碼複製到輸入方塊。


[
{
    "AllowedHeaders": [
        "*"
    ],
    "AllowedMethods": [
        "GET",
        "PUT",
        "POST",
        "DELETE"
    ],
    "AllowedOrigins": [
        "*"
    ],
    "ExposeHeaders": [
        "Access-Control-Allow-Origin"
    ]
}
]

選擇儲存變更。

將許可新增至您的 IAM 政策

在頁面頂端的搜尋列中，輸入 IAM。
在服務下，選取 Identity and Access Management (IAM)。
從導覽窗格中選擇政策。
選擇建立政策。當政策編輯器開啟時，選擇 JSON。
選擇下一步。

請確定下列許可出現在政策編輯器中。您也可以複製下列內容，然後將其貼入政策編輯器中。

選擇下一步。
在政策詳細資訊區段的政策名稱下輸入政策名稱。您也可以選擇輸入描述。當您將政策名稱指派給角色時，您將搜尋該政策名稱。
選擇建立政策。

將許可新增至您的 IAM 角色

在導覽窗格中，選擇 Roles (角色)。輸入您要使用的角色名稱。
在角色名稱下選取角色的名稱。主視窗會變更以顯示角色的相關資訊。
在許可政策區段中，選擇新增許可旁邊的向下箭頭。
從出現的選項中，選擇連接政策。
從出現的政策清單中，搜尋您在步驟 5 建立的政策。選取政策名稱旁邊的核取方塊。
選擇動作旁邊的向下箭頭。
從出現的選項中，選取連接。
搜尋您建立的角色名稱。選取其名稱旁邊的核取方塊。
選擇新增許可。頁面頂端的橫幅應指出政策已成功連接到角色。

建立自動模型評估任務時，您可以選擇可用的文字型 JumpStart 模型，也可以使用先前部署到端點的文字型 JumpStart 模型。

若要建立自動模型評估任務，請使用下列程序。

在 Studio 中啟動自動模型評估任務。

開啟 Amazon SageMaker AI 主控台，網址為 https://console.aws.amazon.com/sagemaker/。
在頁面頂端的搜尋列中，輸入 SageMaker AI。
在服務下，選取 Amazon SageMaker AI。
從導覽窗格中選擇 Studio。
在展開選取網域下的向下箭頭之後，從入門區段中選擇您的網域。
在展開選取使用者設定檔下的向下箭頭之後，從入門區段中選擇您的使用者設定檔。
選擇開啟 Studio 以開啟 Studio 的登陸頁面。
從主導覽窗格中選擇任務。
然後，選擇模型評估。

設定評估任務

接下來，選擇評估模型。
在步驟 1：指定任務詳細資訊中執行下列動作：
1. 輸入模型評估的名稱。此名稱可協助您在提交模型評估任務之後識別該任務。
2. 輸入描述，將更多內容新增至名稱。
3. 選擇下一步。
在步驟 2：設定評估中執行下列動作：
1. 在評估類型下選擇自動。
2. 然後，選擇將模型新增至評估
3. 在新增模型模態中，您可以選擇使用預先訓練的 Jumpstart 基礎模型或 SageMaker AI 端點。如果您已部署 JumpStart 模型，請選擇 SageMaker AI 端點，否則請選擇預先訓練的 Jumpstart 基礎模型。
4. 然後選擇 Save (儲存)。
5. (選用) 新增您的模型後，選擇提示範本，根據您選取的模型查看提示的預期輸入格式。如需如何為資料集設定提示範本的相關資訊，請參閱提示範本。
  - 若要使用預設提示範本，請完成下列步驟：
    1. 開啟使用資料集提供的預設提示範本。
    2. (選用) 針對每個資料集，檢閱 Clarify 提供的提示。
    3. 選擇儲存。
  - 若要建立自訂提示範本，請完成下列步驟：
    1. 關閉使用資料集提供的預設提示範本。
    2. 如果 Clarify 顯示預設提示，您可以自訂或移除該提示，然後提供您自己的提示。您必須在提示範本中包含 $model_input 變數。
    3. 選擇儲存。
6. 然後，在任務類型下選擇任務類型。
  
  如需任務類型和相關聯評估維度的詳細資訊，請參閱 在模型評估任務中使用提示資料集和可用的評估維度 中的自動評估。
7. 在評估指標區段中，選擇評估維度。描述下的文字方塊包含有關維度的其他內容。
  
  在您選取任務之後，與任務相關聯的指標會出現在指標下。在本節中，執行以下動作。
8. 從評估維度下方的向下箭頭中選取評估維度。
9. 選擇評估資料集。您可以選擇使用自己的資料集或使用內建的資料集。如果您想要使用自己的資料集來評估模型，則必須以 FMEval 可以使用的方式格式化該模型。它還必須位於 S3 儲存貯體，其中具有前述設定您的環境一節中參考的 CORS 許可。如需如何格式化資料集的詳細資訊，請參閱使用自訂輸入資料集。
10. 輸入您要儲存輸出評估結果的 S3 儲存貯體位置。此檔案採用 jsonlines (.jsonl) 格式。
11. 使用下列參數，在處理器組態區段中設定您的處理器：
  - 使用執行個體計數來指定您要用來執行模型的運算執行個體數量。如果您使用超過 1 個執行個體，您的模型會在平行執行個體中執行。
  - 使用執行個體類型來選擇您要用來執行模型的運算執行個體類型。如需執行個體類型的詳細資訊，請參閱可與 Amazon SageMaker Studio Classic 筆記本搭配使用的執行個體類型。
  - 使用磁碟區 KMS 金鑰指定您的 AWS Key Management Service (AWS KMS) 加密金鑰。SageMaker AI 使用您的 AWS KMS 金鑰來加密來自模型和 Amazon S3 儲存貯體的傳入流量。如需金鑰的詳細資訊，請參閱 AWS Key Management Service。
  - 使用輸出 KMS 金鑰指定傳出流量的 AWS KMS 加密金鑰。
  - 使用 IAM 角色指定預設處理器的存取和許可。輸入您在設定您的環境中設定的 IAM 角色
12. 在您指定模型和條件之後，請選擇下一步。主視窗會跳至步驟 5 檢閱和儲存。

檢閱並執行您的評估任務

檢閱您為評估選取的所有參數、模型和資料。
選擇建立資源以執行您的評估。
若要檢查您的任務狀態，請前往頁面上模型評估區段的頂端。

您的瀏覽器已停用或無法使用 Javascript。

您必須啟用 Javascript，才能使用 AWS 文件。請參閱您的瀏覽器說明頁以取得說明。

文件慣用形式

自動模型評估

使用 fmeval 程式庫執行自動評估