Amazon SageMaker AI でモデル評価ジョブを作成する際のエラーを解決する - Amazon SageMaker AI

翻訳は機械翻訳により提供されています。提供された翻訳内容と英語版の間で齟齬、不一致または矛盾がある場合、英語版が優先します。

Amazon SageMaker AI でモデル評価ジョブを作成する際のエラーを解決する

重要

SageMaker Clarify Foundation Model Evaluations (FMEval) を使用するには、新しい Studio エクスペリエンスにアップグレードする必要があります。

2023 年 11 月 30 日以降、従来の Amazon SageMaker Studio のエクスペリエンスは Amazon SageMaker Studio Classic と名前が変更されました。FMEval は、Amazon SageMaker Studio Classic では利用できません。

新しい Studio エクスペリエンスにアップグレードする方法については、「Amazon SageMaker Studio Classic からの移行」を参照してください。Studio Classic アプリケーションを使用する場合は、「Amazon SageMaker Studio Classic」を参照してください。

モデル評価ジョブの作成中にエラーが発生した場合は、次のリストを利用して評価のトラブルシューティングを行います。さらにサポートが必要な場合は、 サポートまたは AWS Amazon SageMaker AI の開発者フォーラムにお問い合わせください。

Amazon S3 バケットへのデータのアップロードエラー

基盤モデル評価を作成する際は、モデルの入出力を保存する S3 バケットに適切なアクセス許可を設定する必要があります。Cross-Origin Resource Sharing (CORS) アクセス許可が正しく設定されていない場合、SageMaker AI は次のエラーを生成します。

エラー: s3 にオブジェクトを配置できませんでした: s3Error へのオブジェクトのアップロード中にエラーが発生しました: S3 へのオブジェクトの配置に失敗しました: リソースの取得時に NetworkError が発生しました

バケットのアクセス許可を適切に設定するには、「Studio で自動モデル評価ジョブを作成する」の「Set up your environment」の手順を実行します。

処理ジョブを完了できませんでした

処理ジョブを完了できない最も一般的な理由は次のとおりです。

各問題の軽減に役立つ以下のセクションを参照してください。

クォータが不十分

デプロイされていない JumpStart モデルの基盤モデル評価を実行すると、SageMaker Clarify はアカウントの SageMaker AI エンドポイントに大規模言語モデル (LLM) をデプロイします。選択した JumpStart モデルを実行するのに十分なクォータがアカウントにない場合、ジョブは失敗して ClientError が発生します。クォータを引き上げるには、次の手順を実行します。

AWS Service Quotas の引き上げをリクエストする
  1. 画面上のエラーメッセージからインスタンス名、現在のクォータ、必要なクォータを取得します。例えば、次のエラーの場合は、以下のとおりです。

    • このインスタンス名は ml.g5.12xlarge です。

    • current utilization の後の現在のクォータは 0 instances インスタンスです。

    • request delta の後の数字の必要となる追加のクォータは 1 instances です。

    サンプルエラーは次のとおりです。

    ClientError: An error occurred (ResourceLimitExceeded) when calling the CreateEndpoint operation: The account-level service limit 'ml.g5.12xlarge for endpoint usage' is 0 Instances, with current utilization of 0 Instances and a request delta of 1 Instances. Please use AWS Service Quotas to request an increase for this quota. If AWS Service Quotas is not available, contact AWS support to request an increase for this quota

  2. にサインイン AWS Management Console し、Service Quotas コンソールを開きます。

  3. ナビゲーションペインの [クォータの管理] で、Amazon SageMaker AI を入力します。

  4. [クォータの表示] をクリックします。

  5. [Service Quotas] の検索バーに、ステップ 1 のインスタンスの名前を入力します。例えば、ステップ 1 のエラーメッセージに含まれる情報を使用して、「ml.g5.12xlarge」と入力します。

  6. インスタンス名の横に表示され、「for endpoint usage」で終わる [クォータの名称] を選択します。例えば、ステップ 1 のエラーメッセージに含まれる情報を使用して、[ml.g5.12xlarge for endpoint usage] を選択します。

  7. [アカウントレベルでの引き上げをリクエスト] をクリックします。

  8. [クォータ値を引き上げる] で、ステップ 1 のエラーメッセージに記載されている情報から必要なクォータを入力します。current utilizationrequest delta合計を入力します。上記のエラー例では、current utilization0 Instances で、request delta1 Instances です。この例では、必要なクォータを指定するには 1 のクォータをリクエストします。

  9. [リクエスト] を選択します。

  10. ナビゲーションペインから [クォータリクエスト履歴] を選択します。

  11. [ステータス][保留中] から [承認済み] に変わったら、ジョブを再実行します。変更を確認するには、ブラウザで更新する必要がある場合があります。

クォータの引き上げリクエストの詳細については、「Requesting a quota increase」を参照してください。

メモリが不十分

評価アルゴリズムを実行するのに十分なメモリがない Amazon EC2 インスタンスで基盤モデル評価を開始すると、ジョブは失敗して次のエラーが発生します。

The actor is dead because its worker process has died. Worker exit type: SYSTEM_ERROR Worker exit detail: Worker unexpectedly exits with a connection error code 2. End of file. There are some potential root causes. (1) The process is killed by SIGKILL by OOM killer due to high memory usage. (2) ray stop --force is called. (3) The worker is crashed unexpectedly due to SIGSEGV or other unexpected errors. The actor never ran - it was cancelled before it started running.

評価ジョブで使用できるメモリを増やすには、インスタンスをメモリ量の多いインスタンスに変更します。ユーザーインターフェイスを使用している場合は、ステップ 2[プロセッサ設定] でインスタンスタイプを選択できます。SageMaker AI コンソール内でジョブを実行している場合は、メモリ容量が増加したインスタンスを使用して新しいスペースを起動します。

Amazon EC2 インスタンスのリストについては、「インスタンスタイプ」を参照してください。

メモリ容量が大きいインスタンスの詳細については、「Memory optimized instances」を参照してください。

ping チェックで合格しませんでした

場合によっては、SageMaker AI がエンドポイントをデプロイしたときに ping チェックに合格しなかったため、基盤モデル評価ジョブが失敗することがあります。ping テストに合格しない場合、次のエラーが表示されます。

ClientError: Error hosting endpoint your_endpoint_name: Failed. Reason: The primary container for production variant AllTraffic did not pass the ping health check. Please check CloudWatch logs for this endpoint..., Job exited for model: your_model_name of model_type: your_model_type

ジョブがこのようなエラーを生成する場合は、数分待ってからジョブを再度実行します。エラーが解決しない場合は、Amazon SageMaker AI AWS のサポートまたは開発者フォーラムにお問い合わせください。 AWS Amazon SageMaker

SageMaker AI コンソールで基盤モデルの評価が見つからない

SageMaker Clarify Foundation Model Evaluations を使用するには、新しい Studio エクスペリエンスにアップグレードする必要があります。2023 年 11 月 30 日以降、従来の Amazon SageMaker Studio のエクスペリエンスは Amazon SageMaker Studio Classic と名前が変更されました。基盤モデルの評価機能は、更新後のエクスペリエンスでのみ使用できます。Studio をアップデートする方法の詳細については、「Amazon SageMaker Studio Classic からの移行」を参照してください。

このモデルはプロンプトのステレオタイプをサポートしていません

JumpStart モデルの一部のみがプロンプトのステレオタイプをサポートしています。サポートしていない JumpStart モデルを選択すると、次のエラーが表示されます。

{"evaluationMetrics":"This model does not support Prompt stereotyping evaluation. Please remove that evaluation metric or select another model that supports it."}

このようなエラーが表示された場合は、選択したモデルは基盤評価で使用することはできません。現時点で、SageMaker Clarify はプロンプトのステレオタイプタスクのすべての JumpStart モデルを更新しているため、基盤モデル評価で使用できます。

データセット検証エラー (ヒューマン)

ヒューマンワーカーによるモデル評価ジョブのカスタムプロンプトデータセットは、.jsonl 拡張子を使用し、JSON 行形式でフォーマットする必要があります。

ジョブを開始すると、プロンプトデータセット内の各 JSON オブジェクトは相互に検証されます。JSON オブジェクトのいずれかが有効でない場合、次のエラーが発生します。

Customer Error: Your input dataset could not be validated. Your dataset can have up to 1000 prompts. The dataset must be a valid jsonl file, and each prompt valid json object.To learn more about troubleshooting dataset validations errors, see Troubleshooting guide. Job executed for models: meta-textgeneration-llama-2-7b-f, pytorch-textgeneration1-alexa20b.

カスタムプロンプトデータセットがすべての検証に合格するには、JSON 行ファイル内のすべての JSON オブジェクトに対して、以下の値が true である必要があります。

  • プロンプトデータセットファイルの各行は、有効な JSON オブジェクトである必要があります。

  • 引用符 (") などの特殊文字は適切にエスケープする必要があります。例えば、プロンプトが「"Claire said to the crowd, "Bananas are the best!""」の場合、引用符は \ を使用してエスケープして、「"Claire said to the crowd, \"Bananas are the best!\""」とする必要があります。

  • 有効な JSON オブジェクトには、少なくともprompt のキーと値のペアが含まれている必要があります。

  • プロンプトデータセットファイルの場合、単一のファイルに 1,000 を超える JSON オブジェクトを含めることはできません。

  • いずれかの JSON オブジェクトで responses キーを指定する場合、すべての JSON オブジェクトに、このキーが含まれている必要があります。

  • responses キーに含められるオブジェクトの最大数は 1 です。比較する複数のモデルからの応答がある場合、それぞれに個別の BYOI データセットが必要です。

  • いずれかの JSON オブジェクトで responses キーを指定する場合、すべてresponses オブジェクトに、modelIdentifier キーと text キーが含まれている必要があります。