結果を解釈する

テキスト分類モデルの比較から評価メトリクスを分析し、本番稼働のデプロイのデータ駆動型の決定を行います。

評価メトリクスについて理解する

この評価では、すべてのデータセットのモデルごとにいくつかの主要なメトリクスが提供されます。

正しい予測の割合を測定し、バランスの取れたデータセットに最適です。ただし、不均衡なデータでは誤解を招く可能性があり、1 つのクラスが優勢になると、人為的に高い結果が表示される可能性があります。

正の予測の何パーセントが正しいかを測定することで、モデルが誤検出をどの程度回避できるかを評価します。このメトリクスの範囲は 0.0～1.0 (高いほど良好) で、誤検出が高コストになる場合に重要になります。

実際に見つかった陽性の割合を測定することで、モデルがすべての陽性ケースをどの程度把握しているかを評価します。範囲は 0.0～1.0 (高いほど良好) で、誤検出が高コストになる場合に重要になります。

精度と再現率の調和平均を提供し、両方のメトリクスを 0.0～1.0 (高いほど良好) の範囲の単一のスコアに分散します。

全体的な二項分類の品質を測定し、不均衡なデータに最適なメトリクスとして機能します。-1.0～1.0 の範囲であり、値が大きいほどパフォーマンスが向上し、0 はランダム推測を表します。

モデルがクラスをどの程度区別しているかを評価します。0.0～1.0 の範囲であり、1.0 は完全な分類を表し、0.5 はランダムな推測を表します。

リアルタイムアプリケーションにとって重要となる予測速度を測定します。このメトリクスを評価する際は、速度と一貫性の両方を考慮します。

モデルの選択の精度だけに依存しないでください。不均衡なデータセットの場合、精度、再現率、MCC は、実際のパフォーマンスのより信頼性の高い指標を提供します。

バランスの取れたデータセットは、肯定的な例と否定的な例を等しく表現して、理想的な条件下でモデルがどの程度うまく機能するかを示します。ここでのパフォーマンスが優れている場合、モデルが基本的なテキスト分類パターンを学習したことを示しています。

偏ったデータセットは、本番稼働のシナリオで一般的である実際のクラスの不均衡をモデルがどのように処理するかを示します。

困難なデータセットは、本番環境に現れる可能性のある、あいまいなケースやエッジケースでモデルの堅牢性をテストします。

この体系的なアプローチを使用して、特定のユースケースに最適なモデルを選択します。

モデルを選択する前に、どのパフォーマンス要因がユースケースに最も重要かを判断します。

評価結果に基づいて、ユースケースに最適なモデルを選択します。

カスタマーサービスのチャットボット、コンテンツモデレーションシステム、または応答時間が 100 ミリ秒未満のアプリケーションにおけるリアルタイムのセンチメント分析など、精度の高い高速推論が必要な場合は、DistilBERT を選択します。
法的文書分類、医療テキスト分析、精度が最優先されバッチ処理が許容されるコンプライアンスアプリケーションなど、最高精度が速度よりも重要である場合は、BERT を選択します。

実際のユースケースを最もよく表すデータセットに焦点を当てます。

これらの優先順位と評価結果を比較して、精度、速度、コスト要件のバランスに最適なモデルを選択します。

優先するモデルを選択したら、本番稼働のデプロイの準備が整います。「モデルを大規模にデプロイする」に進みます。

ブラウザで JavaScript が無効になっているか、使用できません。

AWS ドキュメントを使用するには、JavaScript を有効にする必要があります。手順については、使用するブラウザのヘルプページを参照してください。

モデルのパフォーマンスを評価して比較する

モデルを大規模にデプロイする