準確性 - Amazon SageMaker AI

本文為英文版的機器翻譯版本,如內容有任何歧義或不一致之處,概以英文版為準。

準確性

此評估會比較模型輸出與資料集中包含的基本事實答案,以測量模型在任務中執行的準確度。

Amazon SageMaker AI 支援從 Amazon SageMaker Studio 或使用程式fmeval庫執行準確性評估。

  • Studio 中執行評估:在 Studio 中建立的評估任務使用預先選取的預設值來快速評估模型效能。

  • 使用fmeval程式庫執行評估:使用fmeval程式庫建立的評估任務提供擴充選項來設定模型效能評估。

支援的任務類型

下列任務類型支援準確度評估及其相關聯的內建資料集。內建資料集包含用於測量準確度的 Ground Truth 元件。使用者也可以使用自己的資料集。如需在資料集中包含 Ground Truth 元件的詳細資訊,請參閱 自動模型評估

根據預設,SageMaker AI 會從資料集取樣 100 個隨機提示,以進行準確性評估。使用fmeval程式庫時,可以透過將 num_records參數傳遞至 evaluate方法來調整。如需使用程式fmeval庫自訂事實知識評估的相關資訊,請參閱 使用 fmeval程式庫自訂工作流程

任務類型 內建資料集 備註
文字摘要 Gigaword政府報告資料集 內建資料集僅採用英文,但某些指標與語言無關。您可以將任何語言的資料集帶入。
回答問題 BoolQNaturalQuestionsTriviaQA 內建資料集僅採用英文,但某些指標與語言無關。您可以將任何語言的資料集帶入。
分類 女性電子商務服裝評論

運算值

根據任務類型,評估準確性變更所測量的分數。如需評估所需的提示結構資訊,請參閱 在 Studio 中建立自動模型評估任務

摘要

針對摘要任務,準確性評估會測量模型摘要文字的準確度。根據預設,此評估會針對包含輸入文字對和基本事實答案的兩個內建資料集,對模型進行基準測試。然後,模型產生的摘要會使用三個內建指標,以不同方式測量摘要的相似度,與基本事實答案進行比較。所有這些分數都會在整個資料集中平均。

  • ROUGE 分數:ROUGE 分數是一類指標,可在模型產生的摘要與基本事實摘要之間運算重疊的單字單位 (N-gram),以測量摘要品質。評估 ROUGE 分數時,分數越高表示模型能夠建立更好的摘要。

    • 值的範圍從 0(不相符) 到 1(完美相符)。

    • 這些指標不區分大小寫。

    • 限制:對抽象摘要任務可能不可靠,因為分數依賴確切的字詞重疊。

    • ROUGE bigram 計算範例

      • Ground Truth 摘要:「玩的狗在公園中用球來擷取。」

      • 產生的摘要:「使用球播放的狗」。

      • ROUGE-2:計算參考和候選項目之間共同的雙引號 (句子中的兩個相鄰單字) 數量。有 4 個常見的 Bigram (「狗」、「狗玩」、「有」、「球」)。

      • 在 Ground Truth 摘要中除以 Bigram 總數:9

      • ROUGE-2 = 4/9 = 0.444

    • Studio 自動模型評估任務中的 ROUGE 分數預設值

      當您使用 Studio 建立自動模型評估任務時,SageMaker AI 會將 N=2 用於 ROUGE 分數計算中使用的 N 克。因此,模型評估任務會使用 bigrams 進行比對。Studio 任務也會使用 Porter 幹線從所有提示中除去字尾。例如,字串被raining截斷為 rain

    • fmeval程式庫中可用的 ROUGE 分數選項

      您可以使用 fmeval程式庫,設定如何使用 SummarizationAccuracyConfig 參數計算 ROUGE 分數。支援下列選項: 

      • rouge_type:要比對的 N-gram 長度。三個支援的值為:

        •  ROUGE_1 符合單字 (單體)

        •  ROUGE_2 符合單字對 (bigram)。這是預設值。

        •  ROUGE_L 符合最長的常見子序列。  若要計算最長的常見子序列,會考慮單字順序,但不考慮連續性

          • 例如:

            • 模型摘要 = ‘It is autumn’

            • 參考 = 「再次是秋天」

            • Longest common subsequence(prediction, reference)=3

      • use_stemmer_for_rouge:如果 True(預設), 會使用 Porterstemmer 來分割字尾。 

        • 例如:「雨」被截斷為「雨」。

  • 明確 ORdering (METEOR) 分數的轉譯評估指標:METEOR 類似於 ROUGE-1,但也包含相關詞和同義詞比對。與 ROUGE 相比,它提供更全面的摘要品質檢視,僅限於簡單的 n 克比對。較高的 METEOR 分數通常表示較高的準確度。

    • 限制:可能不依賴抽象摘要任務,因為分數依賴確切的字詞和同義詞字詞重疊。

  • BERTScore:BERTScore 使用 BERT 系列的額外 ML 模型來計算句子內嵌並比較其餘弦相似性。此分數旨在考慮比 ROUGE 和 METEOR 更多的語言靈活性,因為語義相似的句子可能彼此更接近內嵌。

    • 限制:

      • 繼承用於比較段落的模型限制。

      • 變更單一重要單字時,短文字比較可能不可靠。

    • Studio 自動模型評估任務中的 BERTScore 預設

      當您使用 Studio 建立自動模型評估任務時,SageMaker AI 會使用deberta-xlarge-mnli模型來計算 BERTScore。

    • 程式庫中可用的 BERTScore fmeval選項

      您可以使用 fmeval程式庫,設定如何使用SummarizationAccuracyConfig 參數計算BERTScore。支援下列選項:

回答問題

對於問題回答任務,準確性評估會比較模型產生的答案與指定的基本事實答案,以不同的方式測量模型的問題回答 (QA) 效能。所有這些分數都是在整個資料集上進行平均。

注意

這些指標的計算方式是比較完全相符的產生和基本事實答案。因此,對於可以重述答案而不修改其意義的問題,它們可能不可靠。

  • Precision Over Words 分數:介於 0(最差) 和 1(最佳) 之間的數值分數。為了計算此分數,模型輸出和 Ground Truth 會在比較之前標準化。在計算精確度之前,此評估會移除任何新行字元,以考慮幾個不同段落的詳細答案。如果您上傳自己的資料集,即可以任何語言評估精確度

    • precision = true positives / (true positives + false positives)

      • true positives:模型輸出中也包含在 Ground Truth 中的單字數量。

      • false positives:模型輸出中不包含在 Ground Truth 中的單字數量。

  • Recall Over Words 分數:介於 0(最差) 和 1(最佳) 之間的數字分數。若要計算此分數,在比較之前會先標準化模型輸出和地面真相。在運算召回之前,此評估會移除任何新行字元,以考慮幾個不同段落的細節答案。因為召回只會檢查答案是否包含地面真相,並且不會懲罰細節,我們建議對細節模型使用召回。如果您上傳自己的資料集,則可以使用任何語言評估召回

    • recall = true positives / (true positives + false negatives)

      • true positives:模型輸出中也包含在 Ground Truth 中的單字數量。

      • false negatives:模型輸出中缺少但包含在地面事實中的單字數量。

  • F1 Over Words 分數:介於 0(最差) 和 1(最佳) 之間的數字分數。F1 是精確度和取回的調和平均值。為了計算此分數,模型輸出和 Ground Truth 會在比較之前標準化。在運算 F1 之前,此評估會移除任何新行字元,以考慮有幾個不同段落的詳細答案。如果您上傳自己的資料集,則可以用任何語言評估 F1 對單字

    • F1 = 2*((precision * recall)/(precision + recall))

      • precision:精確度的計算方式與精確度分數相同。

      • recall:召回的計算方式與召回分數相同。

  • 完全相符 (EM) 分數:二進位分數,指出模型輸出是否完全符合基本事實答案。如果您上傳自己的資料集,則可以使用任何語言評估完全相符項目。

    • 0:不是完全相符。

    • 1:完全相符。

    • 範例:

      • 問題where is the world's largest ice sheet located today?”

      • Ground Truth:「南極」

      • 產生的答案:「在南極」

        • 分數:0

      • 產生的答案:「南極」

        • 分數:1

  • 準完全相符分數:二進位分數的計算方式與 EM 分數類似,但在比較之前,模型輸出和 Ground Truth 會先標準化。對於兩者,系統會將輸出轉換為小寫,然後移除文章、標點符號和多餘空格,以標準化輸出。

    • 0:不是完全相符。

    • 1:準完全相符。

    • 範例:

      • 問題where is the world's largest ice sheet located today?”

      • Ground Truth:「南極」

      • 產生的答案:「南美洲」

        • 分數:0

      • 產生的答案:「在南極」

        • 分數:1

分類

對於分類任務,準確性評估會將預測的輸入類別與其指定的標籤進行比較。所有這些分數都會在整個資料集上個別平均。

  • 準確度分數:二進位分數,指出模型預測的標籤是否完全符合輸入的指定標籤。

    • 0:不是完全相符。

    • 1:完全相符。

  • 精確度分數:介於 0(最差) 和 1(最佳) 之間的數值分數。

    • precision = true positives / (true positives + false positives)

      • true positives:模型預測其個別輸入的指定標籤的數字輸入。

      • false positives:模型預測的標籤與其個別輸入的指定標籤不相符的輸入數目。

    • Studio 自動模型評估任務中的精確度分數預設值

      當您使用 Studio 建立自動模型評估任務時,SageMaker AI 會計算全域所有類別的精確度,方法是計算真陽性、偽陰性和偽陽性總數。

    • 程式庫中fmeval可用的精確分數選項

      您可以使用 fmeval程式庫,設定如何使用ClassificationAccuracyConfig 參數計算精確度分數。支援下列選項: 

      • multiclass_average_strategy決定如何在多類別分類設定中跨類別彙總分數。可能的值為{'micro', 'macro', 'samples', 'weighted', 'binary'}None(default='micro')。  在預設情況下micro',透過計算真陽性、偽陰性和偽陽性總數,在所有類別中全域計算精確度。如需所有其他選項,請參閱sklearn.metrics.precision_score

        注意

        對於二進位分類,我們建議您使用'binary'平均策略,其對應於精確度的傳統定義。

  • 召回分數:介於 0(最差) 和 1(最佳) 之間的數值分數。

    • recall = true positives / (true positives + false negatives)

      • true positives:模型預測其個別輸入的指定標籤的輸入數目。

      • false negatives:模型無法預測其個別輸入的指定標籤的輸入數目。

    • Studio 自動模型評估任務中的召回分數預設值

      當您使用 Studio 建立自動模型評估任務時,SageMaker AI 會透過計算真陽性、假陰性和假陽性總數來計算所有類別的全球召回。

    • 程式庫中fmeval可用的召回分數選項

      您可以使用 fmeval程式庫,設定如何使用 ClassificationAccuracyConfig 參數計算取回分數。支援下列選項: 

      • multiclass_average_strategy決定如何在多類別分類設定中跨類別彙總分數。可能的值為{'micro', 'macro', 'samples', 'weighted', 'binary'}None(default='micro')。  在預設情況下micro',透過計算真陽性、偽陰性和偽陽性總數,在所有類別中全域計算召回。如需所有其他選項,請參閱sklearn.metrics.precision_score

        注意

        對於二進位分類,我們建議使用'binary'平均策略,其對應於回收的傳統定義。

  • 平衡分類準確性:介於 0(最差) 和 1(最佳) 之間的數值分數。

    • 對於二進位分類:此分數的計算方式與準確性相同。

    • 對於多類別分類:此分數會平均所有類別的個別召回分數。

      • 針對下列範例輸出:

        檢閱文字 Ground Truth 標籤 類別名稱 預測標籤
        可口的餅!會再次購買。 3 布朗尼 3
        可口的餅!R 環境設計。 2 井字號貼布 2
        可憐!總代理程式。 1 井字號貼布 2
        • 類別 1 召回:0

        • 2 類召回:1

        • 3 類召回:1

        • 平衡的分類準確性:(0+1+1)/3=0.66