本文為英文版的機器翻譯版本,如內容有任何歧義或不一致之處,概以英文版為準。
評估 Amazon Bedrock 資源的效能
使用 Amazon Bedrock 評估來評估 Amazon Bedrock 模型和知識庫的效能和有效性,以及 Amazon Bedrock 外部的模型和檢索增強生成 (RAG) 來源。Amazon Bedrock 可以計算效能指標 (例如模型的語意穩健性以及知識庫在擷取資訊和產生回應時的正確性)。對於模型評估,您也可以利用人力工作者團隊來評分,並提供其評估意見。
自動評估 (包括利用大型語言模型 (LLM) 的評估) 會產生計算分數和指標,這些資訊可協助您評估模型和知識庫的有效性。以人力為基礎的評估會使用人員團隊,這個團隊會提供與特定指標相關的評分和偏好。
概觀:自動模型評估任務
自動模型評估任務可讓您快速評估模型執行任務的能力。您可以提供針對特定使用案例量身打造的自訂提示資料集,也可以使用可用的內建資料集。
概觀:使用人力工作者的模型評估任務
使用人力工作者的模型評估任務可讓您將人類意見帶入模型評估程序中。這些工作者可以是公司的員工,或產業主題專家。
概觀:使用評審模型的模型評估任務
使用評審模型的模型評估任務可讓您透過使用第二個 LLM 快速評估模型的回應。第二個 LLM 會計算回應的分數,並提供每個回應的說明。
使用大型語言模型 (LLM) 的 RAG 評估概觀
以 LLM 為基礎評估會計算知識庫的效能指標。這些指標會顯示 RAG 來源或 Amazon Bedrock 知識庫是否能夠擷取高度相關的資訊,並產生適當的實用回應。您提供的資料集包含提示或使用者查詢,可用於評估知識庫如何擷取資訊並為這些指定的查詢產生回應。資料集還必須包含「基本事實」或預期的查詢擷取文字和回應,以便評估可以檢查知識庫是否符合預期。
使用以下主題,進一步了解如何建立第一個模型評估任務。
模型評估任務支援使用以下類型的 Amazon Bedrock 模型:
-
基礎模型
Amazon Bedrock 市集模型
-
自訂的基礎模型
-
匯入的基礎模型
-
提示路由器
-
您已購買佈建輸送量的模型