

本文為英文版的機器翻譯版本，如內容有任何歧義或不一致之處，概以英文版為準。

# 解讀您的結果
<a name="jumpstart-text-classification-interpret"></a>

從您的文字分類模型比較中分析評估指標，為生產部署做出資料驅動的決策。

## 了解評估指標
<a name="w2aac37c15c25b5"></a>

評估會為所有資料集的每個模型提供數個關鍵指標：

### 準確性
<a name="w2aac37c15c25b5b5"></a>

測量正確預測的百分比，最適合平衡資料集。不過，它可能會誤導不平衡的資料，並可能在一個類別主導時顯示人為的高結果。

### 精確度
<a name="w2aac37c15c25b5b7"></a>

透過測量正確的陽性預測百分比，評估模型避免偽陽性的程度。此指標的範圍從 0.0 到 1.0 (越高越好)，且在偽陽性成本高昂時，它就會變得至關重要。

### 取回
<a name="w2aac37c15c25b5b9"></a>

透過測量找到的實際陽性百分比，評估模型捕捉所有陽性案例的程度。其範圍從 0.0 到 1.0 (越高越好)，且在缺少陽性成本高昂時，它就會變得至關重要。

### F1-score
<a name="w2aac37c15c25b5c11"></a>

提供精確度和召回率的調和平均值，將這兩個指標平衡為範圍從 0.0 到 1.0 的單一分數 (越高越好)。

### 馬修斯相關係數 (MCC)
<a name="w2aac37c15c25b5c13"></a>

測量整體二進制分類品質，並做為不平衡資料的最佳指標。它的範圍從 -1.0 到 1.0，其中越高的值表示效能越好，0 代表隨機猜測。

### 曲線下面積接收器操作特性
<a name="w2aac37c15c25b5c15"></a>

評估模型區分類別的程度。它的範圍從 0.0 到 1.0，其中 1.0 代表完美分類，0.5 代表隨機猜測。

### 平均推論時間
<a name="w2aac37c15c25b5c17"></a>

測量預測速度，這對於即時應用程式會變得至關重要。評估此指標時，請同時考慮速度和一致性。

**注意**  
請勿僅依賴準確性進行模型選擇。對於不平衡資料集，精確度、召回率和 MCC，提供更可靠的實際效能指標。

## 比較跨資料集類型的效能
<a name="w2aac37c15c25b7"></a>

**平衡資料集**顯示您模型在理想條件下執行的程度，並相等表示陽性和陰性範例。這裡的強大效能表示模型已了解基本文字分類模式。

**偏斜資料集**顯示模型如何處理真實世界類別不平衡，這在生產案例中很常見。

**具有挑戰性的資料集**會在生產中可能出現的不明確或邊緣案例上測試模型穩健性。

## 模型選擇
<a name="w2aac37c15c25b9"></a>

使用此系統性方法，為您的特定使用案例選取最佳模型。

### 定義您的業務優先順序
<a name="w2aac37c15c25b9b5"></a>

選擇模型之前，請判斷哪些效能因素對您的使用案例最為重要。

1. 識別您的準確性要求和最低可接受的效能閾值。

1. 確定您的延遲限制條件，包括您需要即時 (<100 毫秒) 還是批次處理。

1. 建立推論和擴展的成本考量和預算。

1. 分析您的資料特性，以了解您的生產資料是平衡、偏斜還是高度可變。

### 選擇每個模型的時機
<a name="w2aac37c15c25b9b7"></a>

根據您的評估結果，選擇最適合您使用案例的模型：
+ 當您需要更快速且準確性很好的推論時，請選擇 **DistilBERT**，例如客戶服務聊天機器人中的即時情緒分析、內容審核系統，或回應時間低於 100 毫秒至關重要的應用程式。
+ 當最高準確性比速度更重要時，請選擇 **BERT**，例如法律文件分類、醫療文字分析，或精確度最重要且可接受批次處理的合規應用程式。

### 排定評估資料集的優先順序
<a name="w2aac37c15c25b9b9"></a>

專注於最能代表您實際使用案例的資料集。

1. 將更多權重提供授予實際資料最相似的資料集。

1. 考慮邊緣案例在應用程式中的重要性，並據此排定具有挑戰性資料集效能的優先順序。

1. 平衡跨多個案例的最佳化，而不是只專注於一種資料集類型。

將您的評估結果與這些優先順序進行比較，以選擇最能平衡準確性、速度和成本需求的模型。

現在您已選取偏好的模型，已準備好進行生產部署。繼續進行[大規模部署您的模型](jumpstart-text-classification-scale.md)。