翻訳は機械翻訳により提供されています。提供された翻訳内容と英語版の間で齟齬、不一致または矛盾がある場合、英語版が優先します。
結果を解釈する
テキスト分類モデルの比較から評価メトリクスを分析し、本番稼働のデプロイのデータ駆動型の決定を行います。
評価メトリクスについて理解する
この評価では、すべてのデータセットのモデルごとにいくつかの主要なメトリクスが提供されます。
正解率
正しい予測の割合を測定し、バランスの取れたデータセットに最適です。ただし、不均衡なデータでは誤解を招く可能性があり、1 つのクラスが優勢になると、人為的に高い結果が表示される可能性があります。
精度
正の予測の何パーセントが正しいかを測定することで、モデルが誤検出をどの程度回避できるかを評価します。このメトリクスの範囲は 0.0~1.0 (高いほど良好) で、誤検出が高コストになる場合に重要になります。
リコール
実際に見つかった陽性の割合を測定することで、モデルがすべての陽性ケースをどの程度把握しているかを評価します。範囲は 0.0~1.0 (高いほど良好) で、誤検出が高コストになる場合に重要になります。
F1 スコア
精度と再現率の調和平均を提供し、両方のメトリクスを 0.0~1.0 (高いほど良好) の範囲の単一のスコアに分散します。
Matthews 相関係数 (MCC)
全体的な二項分類の品質を測定し、不均衡なデータに最適なメトリクスとして機能します。-1.0~1.0 の範囲であり、値が大きいほどパフォーマンスが向上し、0 はランダム推測を表します。
受信者操作特性曲線の下面積
モデルがクラスをどの程度区別しているかを評価します。0.0~1.0 の範囲であり、1.0 は完全な分類を表し、0.5 はランダムな推測を表します。
平均推論時間
リアルタイムアプリケーションにとって重要となる予測速度を測定します。このメトリクスを評価する際は、速度と一貫性の両方を考慮します。
注記
モデルの選択の精度だけに依存しないでください。不均衡なデータセットの場合、精度、再現率、MCC は、実際のパフォーマンスのより信頼性の高い指標を提供します。
データセットタイプ間でパフォーマンスを比較する
バランスの取れたデータセットは、肯定的な例と否定的な例を等しく表現して、理想的な条件下でモデルがどの程度うまく機能するかを示します。ここでのパフォーマンスが優れている場合、モデルが基本的なテキスト分類パターンを学習したことを示しています。
偏ったデータセットは、本番稼働のシナリオで一般的である実際のクラスの不均衡をモデルがどのように処理するかを示します。
困難なデータセットは、本番環境に現れる可能性のある、あいまいなケースやエッジケースでモデルの堅牢性をテストします。
モデルの選択
この体系的なアプローチを使用して、特定のユースケースに最適なモデルを選択します。
ビジネスの優先順位を定義する
モデルを選択する前に、どのパフォーマンス要因がユースケースに最も重要かを判断します。
精度要件と最小許容パフォーマンスしきい値を特定します。
リアルタイム (<100 ミリ秒) またはバッチ処理が必要かどうかなど、レイテンシーの制約を決定します。
推論とスケーリングのコストに関する考慮事項と予算を確立します。
データ特性を分析して、本番稼働用データがバランスが取れているか、偏っているか、または高度に変動しているかを把握します。
各モデルを選択するタイミング
評価結果に基づいて、ユースケースに最適なモデルを選択します。
カスタマーサービスのチャットボット、コンテンツモデレーションシステム、または応答時間が 100 ミリ秒未満のアプリケーションにおけるリアルタイムのセンチメント分析など、精度の高い高速推論が必要な場合は、DistilBERT を選択します。
法的文書分類、医療テキスト分析、精度が最優先されバッチ処理が許容されるコンプライアンスアプリケーションなど、最高精度が速度よりも重要である場合は、BERT を選択します。
評価データセットの優先順位付け
実際のユースケースを最もよく表すデータセットに焦点を当てます。
実際のデータに最も近いデータセットに加重を追加します。
アプリケーションにおけるエッジケースの重要性を考慮し、これに応じて困難なデータセットのパフォーマンスを優先します。
1 つのデータセットタイプのみに焦点を当てるのではなく、複数のシナリオで最適化のバランスを取ります。
これらの優先順位と評価結果を比較して、精度、速度、コスト要件のバランスに最適なモデルを選択します。
優先するモデルを選択したら、本番稼働のデプロイの準備が整います。「モデルを大規模にデプロイする」に進みます。