翻訳は機械翻訳により提供されています。提供された翻訳内容と英語版の間で齟齬、不一致または矛盾がある場合、英語版が優先します。
人間ベースのモデル評価ジョブを作成
次の例は、人間の作業者を使用するモデル評価ジョブの作成方法を示しています。
コンソール:
ヒューマンワーカーによるモデル評価ジョブを作成するには
-
Amazon Bedrock コンソール
を開きます。 -
ナビゲーションペインの [推論と評価] で、[評価] を選択します。
-
[モデル評価] ペインの [人間] で [作成] を選択し、[人間: 自分の作業チームを使用する] を選択します。
-
[ジョブの詳細の指定] ページに次の情報を入力します。
-
評価名 — モデル評価ジョブを説明する名前を付けます。この名前はモデル評価ジョブリストに表示されます。この名前は、AWS リージョン のアカウントで一意である必要があります。
-
説明 (オプション) — オプションで説明を入力します。
-
[Next] (次へ) を選択します。
-
-
[評価を設定] ページの [推論ソース] で、モデル評価のソースを選択します。プロンプトデータセットで独自の推論レスポンスを指定することで、Amazon Bedrock モデルや他のモデルのパフォーマンスを評価できます。最大 2 つの推論ソースを選択できます。2 つのソースがあるジョブの場合、両方のソースに同じタイプを選択する必要はありません。1 つの Amazon Bedrock モデルを選択し、2 番目のソースに独自の推論レスポンスデータを指定できます。Amazon Bedrock モデルを評価するには、以下を実行します。
-
[ソースを選択] で、[Bedrock モデル] を選択します。
-
[モデルを選択] で、評価するモデルを選択します。
-
2 番目のモデルを選択するには、[モデルの追加] を選択し、前述の手順を繰り返します。
-
-
独自の推論レスポンスデータを使用するには、以下を実行します。
-
[ソースを選択] で、[独自の推論レスポンスを使用] を選択します。
-
[ソース名] に、応答データの作成に使用したモデルの名前を入力します。入力する名前は、プロンプトデータセットの
modelIdentifierパラメータと一致している必要があります。 -
2 番目のソースを追加するには、[モデルの追加] を選択し、前述の手順を繰り返します。
-
-
[タスクタイプ] には、モデル評価ジョブ中にモデルに実行させるタスクのタイプを選択します。モデルに関するすべての指示をプロンプト自体に含める必要があります。タスクタイプはモデルのレスポンスを制御しません。
-
[データセット] ペインで、以下を入力します。
-
[プロンプトデータセットを選択] で、プロンプトデータセットファイルの S3 URI を指定するか、[S3 を参照] を選択して使用可能な S3 バケットを表示します。カスタムプロンプトデータセットには、最大 1000 個のプロンプトを含めることができます。
-
[評価結果の宛先] で、モデル評価ジョブの結果を保存するディレクトリの S3 URI を指定するか、[S3 を参照] を選択して使用可能な S3 バケットを表示します。
-
-
(オプション) [KMS キー - オプション] で、モデル評価ジョブの暗号化に使用するカスタマーマネージドキーの ARN を指定します。
-
[Amazon Bedrock IAM ロール – アクセス許可] ペインで、以下を実行します。モデル評価に必要なアクセス許可の詳細については、「モデル評価ジョブのサービスロール要件」を参照してください。
-
既存の Amazon Bedrock サービスロールを使用するには、[既存のロールを使用] を選択します。使用しない場合は、[新しいロールを作成] を使用して、新しい IAM サービスロールの詳細を指定します。
-
[サービスロール名] で、IAM サービスロールの名前を指定します。
-
準備ができたら、[ロールを作成] を選択して新しい IAM サービスロールを作成します。
-
-
[Next] (次へ) を選択します。
-
[作業チーム] で、[チームを選択] ドロップダウンを使用して既存のチームを選択するか、以下を実行して新しいチームを作成します。
-
[チーム名] に、チームの名前を入力します。
-
[E メールアドレス] に、チームのヒューマンワーカーの E メールアドレスを入力します。
-
(オプション) [プロンプト別ワーカー数] で、各プロンプトを評価するワーカーの数を選択します。選択したワーカー数による各プロンプトのレスポンスのレビューが完了すると、プロンプトとそのレスポンスは作業チームから配布されなくなります。最終結果レポートには、すべてのワーカーの評価が含まれます。
重要
大規模言語モデルでは、ハルシネーションが起きたり、有害または攻撃的なコンテンツが作成されたりすることが知られています。この評価では、ワーカーに有害または攻撃的な内容が表示されることがあります。評価を始める前に、適切な措置を講じてトレーニングを行い、その旨を通知します。評価中は、人間による評価ツールにアクセスしている間、タスクを辞退してタスクをリリースすることや休憩を取ることもできます。
-
-
[ヒューマンワークフロー IAM ロール - アクセス許可] で、既存のロールを選択するか、[新しいロールの作成] を選択します。
-
[Next] (次へ) を選択します。
-
[評価手順] で、タスクを完了するための手順を指定します。作業チームがレスポンスを評価するために使用する評価 UI (メトリクス、評価方法、指示など) をプレビューできます。このプレビューは、このジョブ用に作成した設定に基づいています。
-
[Next] (次へ) を選択します。
-
設定を確認し、[作成] を選択してジョブを作成します。
注記
ジョブが正常に開始されると、ステータスが [進行中] に変わります。ジョブが終了すると、ステータスが [完了] に変わります。モデル評価ジョブがまだ進行中である間、作業チームがすべてのモデルのレスポンスを評価する前に、ジョブを停止できます。これを実行するには、モデル評価のランディングページで、[評価を停止] を選択します。これにより、モデル評価ジョブの状態を [停止中] に変更できます。モデル評価ジョブが正常に停止したら、モデル評価ジョブを削除できます。
API と AWS CLI
Amazon Bedrock コンソールの外部で人間ベースのモデル評価ジョブを作成する際は、Amazon SageMaker AI フロー定義 ARN を作成する必要があります。
フロー定義 ARN では、モデル評価ジョブのワークフローが定義されます。フロー定義は、タスクに割り当てるワーカーインターフェイスと作業チームを定義し、Amazon Bedrock に接続するために使用されます。
Amazon Bedrock API オペレーションを使用して開始されたモデル評価ジョブでは、AWS CLI またはサポートされている AWS SDK を使用してフロー定義 ARN を作成する必要があります。フロー定義作業とプログラムによるフロー定義作業の作成の詳細については、「SageMaker AI デベロッパーガイド」の「Human Review Workflow (API) を作成する」を参照してください。
CreateFlowDefinition では、AwsManagedHumanLoopRequestSource への入力として AWS/Bedrock/Evaluation を指定する必要があります。Amazon Bedrock サービスロールには、フロー定義の出力バケットにアクセスするためのアクセス許可も必要です。
以下は、AWS CLI を使ったリクエストの例です。リクエストでは、HumanTaskUiArn は SageMaker AI 所有 ARN です。ARN では、AWS リージョン のみ変更できます。
aws sagemaker create-flow-definition --cli-input-json ' { "FlowDefinitionName": "human-evaluation-task01", "HumanLoopRequestSource": { "AwsManagedHumanLoopRequestSource": "AWS/Bedrock/Evaluation" }, "HumanLoopConfig": { "WorkteamArn": "arn:aws:sagemaker:AWS リージョン:111122223333:workteam/private-crowd/my-workteam", ## The Task UI ARN is provided by the service team, you can only modify the AWS リージョン. "HumanTaskUiArn":"arn:aws:sagemaker:AWS リージョン:394669845002:human-task-ui/Evaluation" "TaskTitle": "Human review tasks", "TaskDescription": "Provide a real good answer", "TaskCount": 1, "TaskAvailabilityLifetimeInSeconds": 864000, "TaskTimeLimitInSeconds": 3600, "TaskKeywords": [ "foo" ] }, "OutputConfig": { "S3OutputPath": "s3://amzn-s3-demo-destination-bucket" }, "RoleArn": "arn:aws:iam::111122223333:role/SageMakerCustomerRoleArn" }'
フロー定義 ARN を作成したら、次の例を使用して、AWS CLI またはサポートされている AWS SDK を使用して人間ベースのモデル評価ジョブを作成します。