本文属于机器翻译版本。若本译文内容与英语原文存在差异，则一律以英文原文为准。 # 开始使用 ## 通过 SageMaker Studio 提交评估任务 ### 第 1 步：从您的模型卡片导航至 “评估” 自定义模型后，从模型卡片导航到评估页面。有关开放式权重自定义模型训练的信息：[https://docs.aws.amazon.com/sagemaker/latest/dg/model-customize-open-weight-job](https://docs.aws.amazon.com/sagemaker/latest/dg/model-customize-open-weight-job.html) .html SageMaker 在 “我的模型” 选项卡上可视化您的自定义模型： ![\[注册模特卡页面\]](http://docs.aws.amazon.com/zh_cn/sagemaker/latest/dg/images/getting-started-registered-model-card.png) 选择查看最新版本，然后选择评估： ![\[模型定制页面\]](http://docs.aws.amazon.com/zh_cn/sagemaker/latest/dg/images/getting-started-evaluate-from-model-card.png) ### 第 2 步：提交您的评估 Job 选择 “提交” 按钮并提交您的评估任务。这将提交一个最低限度的 MMLU 基准测试作业。有关支持的评估任务类型的信息，请参阅[评估类型和 Job 提交](model-customize-evaluation-types.md)。 ![\[评估作业提交页面\]](http://docs.aws.amazon.com/zh_cn/sagemaker/latest/dg/images/getting-started-benchmark-submission.png) ### 第 3 步：跟踪您的评估 Job 进度您的评估工作进度将在评估步骤选项卡中进行跟踪： ![\[您的评估工作进度\]](http://docs.aws.amazon.com/zh_cn/sagemaker/latest/dg/images/getting-started-benchmark-tracking.png) ### 步骤 4：查看您的评估 Job 结果您的评估任务结果显示在 “评估结果” 选项卡中： ![\[您的评估工作指标\]](http://docs.aws.amazon.com/zh_cn/sagemaker/latest/dg/images/getting-started-benchmark-results.png) ### 步骤 5：查看已完成的评估您完成的评估任务将显示在模型卡的评估中： ![\[你已完成的评估工作\]](http://docs.aws.amazon.com/zh_cn/sagemaker/latest/dg/images/getting-started-benchmark-completed-model-card.png) ## 通过 SageMaker Python SDK 提交你的评估任务 ### 第 1 步：创建你的 BenchMarkEvaluator 将您注册的训练模型、 AWS S3 输出位置和 MLFlow 资源 ARN 传递给，`BenchMarkEvaluator`然后对其进行初始化。 ``` from sagemaker.train.evaluate import BenchMarkEvaluator, Benchmark evaluator = BenchMarkEvaluator( benchmark=Benchmark.MMLU, model="arn:aws:sagemaker:::model-package//", s3_output_path="s3:////eval/", mlflow_resource_arn="arn:aws:sagemaker:::mlflow-tracking-server/", evaluate_base_model=False ) ``` ### 第 2 步：提交您的评估 Job 调用`evaluate()`方法提交评估作业。 ``` execution = evaluator.evaluate() ``` ### 第 3 步：跟踪您的评估 Job 进度调用执行`wait()`方法以获取评估任务进度的实时更新。 ``` execution.wait(target_status="Succeeded", poll=5, timeout=3600) ``` ### 步骤 4：查看您的评估 Job 结果调用该`show_results()`方法以显示您的评估作业结果。 ``` execution.show_results() ```