檢閱使用 LLM 的 RAG 評估指標 (主控台) - Amazon Bedrock

本文為英文版的機器翻譯版本,如內容有任何歧義或不一致之處,概以英文版為準。

檢閱使用 LLM 的 RAG 評估指標 (主控台)

您可以使用 Amazon Bedrock 主控台檢閱 RAG 評估任務報告中呈現的指標。

使用大型語言模型 (LLM) 運算評估指標的 RAG 評估,以評估 Amazon Bedrock 知識庫或外部 RAG 來源擷取資訊和產生回應的效能。

在您的 RAG 評估報告卡中,您將看到指標以及與您的僅擷取或擷取與回應產生評估類型相關的指標明細圖。不同的指標與不同的評估類型相關。每個指標的計算分數是擷取文字的平均分數,或針對提示資料集中所有使用者查詢產生的回應。每個指標的計算分數是介於 0 和 1 之間的值。愈接近 1,指標的特性就愈會顯示在擷取的文字或回應中。每個指標的明細圖會繪製一個直方圖,並計算每個分數範圍內有多少查詢的擷取文字或回應。

例如,您已建立評估任務來評估擷取與回應產生。主控台報告卡顯示回應中完整性的計算後分數為 0.82。完整性分數會測量產生的回應如何解決使用者問題的所有層面。它會計算為資料集中所有提示中問題回應的平均分數。完整性的直方圖顯示,大多數回應 (最高的長條) 都落在 0.7 至 0.8 完整性分數範圍之間。不過,刻板印象的知識庫分數也很高,回應中的概括陳述平均有 0.94 分。知識庫在多數時候可產生相當完整的回應,但這些回應包含有關個人或群體的大量概括陳述。

使用 LLM RAG 評估報告卡

針對使用 LLM 的 RAG 評估任務,請依照下列步驟在 Amazon Bedrock 主控台中開啟報告卡。請參閱下列資訊,了解與僅擷取和擷取與回應產生評估類型相關的每個指標。

  • 登入 AWS 管理主控台 ,並在 https://https://console.aws.amazon.com/bedrock/ 開啟 Amazon Bedrock 主控台。

  • 從導覽窗格中選擇評估,然後選擇知識庫評估

  • 選取知識庫評估任務的名稱。系統會將您導向至報告卡,這是知識庫評估的主要頁面。

    注意

    若要開啟報告卡,RAG 評估的狀態必須為就緒或可用。

與僅擷取類型評估相關的指標

有一些指標與評估知識庫擷取高度相關資訊的能力相關。

內容相關性

此指標與擷取資訊的品質相關。分數是資料集中所有提示中擷取文字區塊的平均分數。內容相關性表示擷取的文字區塊在內容上與問題相關。分數愈高,資訊的平均關聯性就愈高。分數愈低,資訊的平均關聯性就愈低。

內容涵蓋範圍 (需要基本事實)

此指標與擷取資訊的品質相關。分數是資料集中所有提示中擷取文字區塊的平均分數。內容涵蓋範圍表示擷取的文字區塊涵蓋基本事實文字中提供的所有資訊。分數愈高,平均內容涵蓋範圍就愈大。分數愈低,平均內容涵蓋範圍就愈小。

與擷取與回應產生類型評估相關的指標

有一些指標與評估知識庫根據擷取的資訊產生實用且適當回應的能力相關。

正確性

此指標與產生回應的品質相關。分數是資料集中所有提示中回應的平均分數。正確性表示準確回答問題。分數愈高,平均產生的回應愈正確。分數愈低,平均產生的回應愈不正確。

完整度

此指標與產生回應的品質相關。分數是資料集中所有提示中回應的平均分數。完整性表示回答和解決問題的所有層面。分數愈高,平均產生的回應愈完整。分數愈低,平均產生的回應愈不完整。

實用性

此指標與產生回應的品質相關。分數是資料集中所有提示中回應的平均分數。實用性表示對問題在整體上的實用回應。分數愈高,平均產生的回應愈實用。分數愈低,平均產生的回應愈不實用。

邏輯連貫性

此指標與產生回應的品質相關。分數是資料集中所有提示中回應的平均分數。邏輯連貫性表示回應沒有邏輯差距、不一致或矛盾。分數愈高,平均產生的回應就愈一致。分數愈低,平均產生的回應就愈不一致。

忠實性

此指標與產生回應的品質相關。分數是資料集中所有提示中回應的平均分數。忠實性表示避免就擷取的文字區塊產生幻覺。分數愈高,平均產生的回應就愈忠實。分數愈低,平均產生的回應就愈不忠實。

引用精確度

此指標與產生回應的品質相關。分數是資料集中所有提示中回應的平均分數。引用精確度是正確引用之引用段落數量的指標。分數愈高,平均回應中正確的引用愈多。分數愈低,平均引用就愈不正確。

如果您選擇使用引用精確度,則您也應該使用引用涵蓋率,反之亦然。引用涵蓋率是大約的引文召回率。同時使用兩者可提供引用品質的完整檢視。

引用涵蓋率

此指標與產生回應的品質相關。分數是資料集中所有提示中回應的平均分數。引用涵蓋率是大約的引文召回率,且為所引用段落對回應的佐證程度測量。分數愈高,平均引文對回應的佐證程度愈好。分數愈低,平均有引用佐證的回應就愈少。

如果您選擇使用引用涵蓋率,則您也應該使用引用精確度,反之亦然。同時使用兩者可提供引用品質的完整檢視。

危害性

此指標與產生回應的適當性相關。分數是資料集中所有提示中回應的平均分數。危害性表示做出仇恨、侮辱或暴力陳述。分數愈高,平均產生的回應就愈有害。分數愈低,平均產生的回應就愈無害。

刻板印象

此指標與產生回應的適當性相關。分數是資料集中所有提示中回應的平均分數。刻板印象是指對個人或群體進行概括陳述。分數越高,平均產生的回應中的刻板印象就越高。分數越低,平均產生的回應中的刻板印象就越低。請注意,具有強烈奉承性和詆毀性的刻板印象都會導致高分。

拒絕

此指標與產生回應的適當性相關。分數是資料集中所有提示中回應的平均分數。拒絕表示對問題的回避性回應。分數愈高,平均產生回應的回避性就愈高。分數愈低,平均產生回應的回避性就愈低。