本文為英文版的機器翻譯版本,如內容有任何歧義或不一致之處,概以英文版為準。
評估最佳化模型的效能
使用最佳化任務建立最佳化模型後,您可以執行模型效能的評估。此評估會產生延遲、輸送量和價格的指標。使用這些指標來判斷最佳化模型是否符合您的使用案例需求,或是否需要進一步最佳化。
您只能使用 Studio 執行效能評估。此功能並非透過 Amazon SageMaker AI API 或 Python SDK 提供。
開始之前
您必須先建立推論最佳化任務來最佳化模型,才能建立效能評估。在 Studio 中,您只能評估使用這些任務建立的模型。
建立效能評估
完成 Studio 中的下列步驟,為最佳化模型建立效能評估。
-
在 Studio 導覽功能表中,於任務下方,選擇推論最佳化。
-
選擇建立您要評估之最佳化模型的任務名稱。
-
在任務詳細資訊頁面上,選擇評估效能。
-
在評估效能頁面上,某些 JumpStart 模型會要求您簽署終端使用者授權協議 (EULA),才能繼續進行。若有要求,請檢閱授權協議一節中的授權條款。如果這些條款適用於您的使用案例,請選取我接受 EULA 並已閱讀條款與條件核取方塊
-
針對選取記號化工具的模型,請接受預設值,或選擇特定模型作為評估的記號化工具。
-
針對輸入資料集,選擇是否:
-
使用 SageMaker AI 中的預設範例資料集。
-
提供指向您自己範例資料集的 S3 URI。
-
-
對於效能結果的 S3 URI,請提供指向 Amazon S3 中您要存放評估結果的位置其 URI。
-
選擇評估。
Studio 會顯示效能評估頁面,在此您的評估任務會顯示在資料表中。狀態欄會顯示評估的狀態。
-
狀態為已完成時,選擇任務的名稱以查看評估結果。
評估詳細資訊頁面會顯示資料表,其中提供延遲、輸送量和價格的效能指標。如需關於每個指標的詳細資訊,請參閱推論效能評估的指標參考。
推論效能評估的指標參考
在您成功評估最佳化模型的效能之後,Studio 中的評估詳細資訊頁面會顯示下列指標。
延遲指標
延遲區段顯示下列指標
- 並行
-
評估模擬同時調用端點的並行使用者數目。
- 到第一個記號的時間 (毫秒)
-
傳送請求到收到串流回應第一個記號之間經過的時間。
- 權杖間延遲 (毫秒)
-
為每個請求產生輸出記號的時間。
- 用戶端延遲 (毫秒)
-
從傳送請求時間到收到整個回應時間的請求延遲。
- 輸入記號/秒 (計數)
-
所有請求中產生的輸入記號總數,除以並行的持續時間總秒數。
- 輸出記號/秒 (計數)
-
所有請求中產生的輸出記號總數,除以並行的持續時間總秒數。
- 用戶端調用 (計數)
-
並行傳送至所有使用者之間端點的推論請求總數。
- 用戶端調用錯誤 (計數)
-
以指定的並行傳送至所有使用者之間端點的導致調用錯誤之推論請求總數。
- 記號化工具失敗 (計數)
-
記號化工具無法剖析請求或回應的推論請求總數。
- 空白推論回應 (計數)
-
導致零輸出記號或記號化工具器無法剖析回應的推論請求總數。
輸送量指標
輸送量區段顯示下列指標。
- 並行
-
評估模擬同時調用端點的並行使用者數目。
- 輸入記號/秒/請求 (計數)
-
每個請求每秒產生的輸入記號總數。
- 輸出記號/秒/請求 (計數)
-
每個請求每秒產生的輸出記號總數。
- 輸入記號 (計數)
-
每個請求產生的輸入記號總數。
- 輸出記號 (計數)
-
每個請求產生的輸出記號總數。
價格指標
價格區段顯示下列指標。
- 並行
-
評估模擬同時調用端點的並行使用者數目。
- 每百萬個輸入記號的價格
-
處理 1 百萬個輸入記號的成本。
- 每百萬個輸出記號的價格
-
產生 1 百萬個輸出記號的成本。