View a markdown version of this page

开始使用 - 亚马逊 SageMaker AI

本文属于机器翻译版本。若本译文内容与英语原文存在差异,则一律以英文原文为准。

开始使用

通过 SageMaker Studio 提交评估任务

第 1 步:从您的模型卡片导航至 “评估”

自定义模型后,从模型卡片导航到评估页面。

有关开放式权重自定义模型训练的信息:https://docs.aws.amazon.com/sagemaker/latest/dg/model-customize-open-weight-job .html

SageMaker 在 “我的模型” 选项卡上可视化您的自定义模型:

注册模特卡页面

选择查看最新版本,然后选择评估:

模型定制页面

第 2 步:提交您的评估 Job

选择 “提交” 按钮并提交您的评估任务。这将提交一个最低限度的 MMLU 基准测试作业。

有关支持的评估任务类型的信息,请参阅评估类型和 Job 提交

评估作业提交页面

第 3 步:跟踪您的评估 Job 进度

您的评估工作进度将在评估步骤选项卡中进行跟踪:

您的评估工作进度

步骤 4:查看您的评估 Job 结果

您的评估任务结果显示在 “评估结果” 选项卡中:

您的评估工作指标

步骤 5:查看已完成的评估

您完成的评估任务将显示在模型卡的评估中:

你已完成的评估工作

通过 SageMaker Python SDK 提交你的评估任务

第 1 步:创建你的 BenchMarkEvaluator

将您注册的训练模型、 AWS S3 输出位置和 MLFlow 资源 ARN 传递给,BenchMarkEvaluator然后对其进行初始化。

from sagemaker.train.evaluate import BenchMarkEvaluator, Benchmark evaluator = BenchMarkEvaluator( benchmark=Benchmark.MMLU, model="arn:aws:sagemaker:<region>:<account-id>:model-package/<model-package-name>/<version>", s3_output_path="s3://<bucket-name>/<prefix>/eval/", mlflow_resource_arn="arn:aws:sagemaker:<region>:<account-id>:mlflow-tracking-server/<tracking-server-name>", evaluate_base_model=False )

第 2 步:提交您的评估 Job

调用evaluate()方法提交评估作业。

execution = evaluator.evaluate()

第 3 步:跟踪您的评估 Job 进度

调用执行wait()方法以获取评估任务进度的实时更新。

execution.wait(target_status="Succeeded", poll=5, timeout=3600)

步骤 4:查看您的评估 Job 结果

调用该show_results()方法以显示您的评估作业结果。

execution.show_results()