本文為英文版的機器翻譯版本,如內容有任何歧義或不一致之處,概以英文版為準。
解讀您的結果
從您的文字分類模型比較中分析評估指標,為生產部署做出資料驅動的決策。
了解評估指標
評估會為所有資料集的每個模型提供數個關鍵指標:
準確性
測量正確預測的百分比,最適合平衡資料集。不過,它可能會誤導不平衡的資料,並可能在一個類別主導時顯示人為的高結果。
精確度
透過測量正確的陽性預測百分比,評估模型避免偽陽性的程度。此指標的範圍從 0.0 到 1.0 (越高越好),且在偽陽性成本高昂時,它就會變得至關重要。
取回
透過測量找到的實際陽性百分比,評估模型捕捉所有陽性案例的程度。其範圍從 0.0 到 1.0 (越高越好),且在缺少陽性成本高昂時,它就會變得至關重要。
F1-score
提供精確度和召回率的調和平均值,將這兩個指標平衡為範圍從 0.0 到 1.0 的單一分數 (越高越好)。
馬修斯相關係數 (MCC)
測量整體二進制分類品質,並做為不平衡資料的最佳指標。它的範圍從 -1.0 到 1.0,其中越高的值表示效能越好,0 代表隨機猜測。
曲線下面積接收器操作特性
評估模型區分類別的程度。它的範圍從 0.0 到 1.0,其中 1.0 代表完美分類,0.5 代表隨機猜測。
平均推論時間
測量預測速度,這對於即時應用程式會變得至關重要。評估此指標時,請同時考慮速度和一致性。
注意
請勿僅依賴準確性進行模型選擇。對於不平衡資料集,精確度、召回率和 MCC,提供更可靠的實際效能指標。
比較跨資料集類型的效能
平衡資料集顯示您模型在理想條件下執行的程度,並相等表示陽性和陰性範例。這裡的強大效能表示模型已了解基本文字分類模式。
偏斜資料集顯示模型如何處理真實世界類別不平衡,這在生產案例中很常見。
具有挑戰性的資料集會在生產中可能出現的不明確或邊緣案例上測試模型穩健性。
模型選擇
使用此系統性方法,為您的特定使用案例選取最佳模型。
定義您的業務優先順序
選擇模型之前,請判斷哪些效能因素對您的使用案例最為重要。
識別您的準確性要求和最低可接受的效能閾值。
確定您的延遲限制條件,包括您需要即時 (<100 毫秒) 還是批次處理。
建立推論和擴展的成本考量和預算。
分析您的資料特性,以了解您的生產資料是平衡、偏斜還是高度可變。
選擇每個模型的時機
根據您的評估結果,選擇最適合您使用案例的模型:
當您需要更快速且準確性很好的推論時,請選擇 DistilBERT,例如客戶服務聊天機器人中的即時情緒分析、內容審核系統,或回應時間低於 100 毫秒至關重要的應用程式。
當最高準確性比速度更重要時,請選擇 BERT,例如法律文件分類、醫療文字分析,或精確度最重要且可接受批次處理的合規應用程式。
排定評估資料集的優先順序
專注於最能代表您實際使用案例的資料集。
將更多權重提供給與實際資料最相似的資料集。
考慮邊緣案例在應用程式中的重要性,並據此排定具有挑戰性資料集效能的優先順序。
平衡跨多個案例的最佳化,而不是只專注於一種資料集類型。
將您的評估結果與這些優先順序進行比較,以選擇最能平衡準確性、速度和成本需求的模型。
現在您已選取偏好的模型,已準備好進行生產部署。繼續進行大規模部署您的模型。