モデルのパフォーマンスを評価して比較する

評価フレームワークを使用して、デプロイしたテキスト分類モデルを評価します。このフレームワークは、ノートブックベースのアプローチを通じて、教師あり評価モードと教師なし評価モードの両方をサポートします。

組み込みデータセットの使用

このチュートリアルでは、組み込みの教師あり評価データセットを使用することをお勧めします。ほとんどのユーザーは、ラベル付き評価データがすぐには利用できないためです。組み込みデータセットは、さまざまなシナリオにわたって包括的なパフォーマンス分析を提供します。

分散データセット: ベースラインパフォーマンスのクラス分布は同等です。
偏りのあるデータセット: 実際のテストのための不均衡なクラス。
困難なデータセット: エッジケースからストレステストモデルの堅牢性。

この評価では、正確性、精度、再現率、F1 スコア、Matthews 相関係数 (MCC)、曲線下レシーバーの運用特性スコア、モデル比較用のビジュアル曲線などの主要メトリクスが生成されます。

カスタムデータの使用

独自のラベル付きデータセットがある場合は、ノートブックで置き換えることができます。フレームワークはデータ形式に自動的に適応し、同じ包括的なメトリクスを生成します。

サポートされているデータ形式:

CSV 形式: 2 つの列: text と label
ラベル形式: "positive"/"negative"、"LABEL_0"/"LABEL_1"、"True"/"False"、または "0"/"1"
教師なし: 信頼度分析用の単一 text 列

評価環境を設定する

SageMaker Amazon SageMaker Studio で JupyterLab スペースを作成して、評価ノートブックを実行します。

Studio で、ホーム画面から [JupyterLab] を選択します。
スペースがない場合:
1. [スペースを作成] を選択します。
2. TextModelEvaluation) など、わかりやすい名前を入力します。
3. インスタンスタイプはデフォルトのままにします。
4. [実行スペース] を選択します。
5. スペースが作成されたら、[JupyterLab を開く] をクリックします。

評価ノートブックにアクセスする

zip ファイルをダウンロードし、ローカルマシンで解凍します。解凍したフォルダ全体を JupyterLab スペースにアップロードして、モデルのテストを開始します。パッケージには、主要な評価ノートブック、サンプルデータセット、サポートする Python モジュール、完全な評価フレームワークの詳細な手順が含まれています。

注記

パッケージを抽出したら、README ファイルで詳細なセットアップ手順とフレームワークの概要を確認します。

評価出力を分析し、データに基づいてモデル選択を決定する方法を学ぶには、結果を解釈するに進みます。

ブラウザで JavaScript が無効になっているか、使用できません。

AWS ドキュメントを使用するには、JavaScript を有効にする必要があります。手順については、使用するブラウザのヘルプページを参照してください。

ドキュメントの表記規則

テキスト分類モデルを選択してデプロイする

結果を解釈する