

本文属于机器翻译版本。若本译文内容与英语原文存在差异，则一律以英文原文为准。

# XGBoost 版本 0.72
<a name="xgboost-72"></a>

**重要**  
亚马 SageMaker 逊 AI 已弃用 XGBoost 0.72。您仍然可以通过提取其图像 URI 来使用这个旧版本的 XGBoost （作为内置算法），如以下代码示例所示。对于 XGBoost，以结尾的图片 URI `:1` 适用于旧版本。  

```
import boto3
from sagemaker.amazon.amazon_estimator import get_image_uri

xgb_image_uri = get_image_uri(boto3.Session().region_name, "xgboost", repo_version="1")
```

```
import boto3
from sagemaker import image_uris

xgb_image_uri = image_uris.retrieve("xgboost", boto3.Session().region_name, "1")
```
如果您要使用较新的版本，则必须明确指定图像 URI 标签（请参阅[支持的版本](xgboost.md#xgboost-supported-versions)）。

之前版本的 Amazon SageMaker AI XGBoost 算法基于 0.72 版本。 [XGBoost](https://github.com/dmlc/xgboost)（extreme Gradient Boosting）是梯度提升树算法的一种流行且高效的开源实现。梯度提升是一种监督学习算法，它试图通过组合一组更简单、更弱的模型的估计值来准确预测目标变量。 XGBoost 在机器学习竞赛中表现非常出色，因为它可以可靠地处理各种数据类型、关系和分布，而且有大量的超参数可以调整和调整以提高拟合度。这种灵活性 XGBoost 为回归、分类（二进制和多类）和排名问题提供了一个不错的选择。

客户应考虑使用 [XGBoost 使用 Amazon A SageMaker I 的算法](xgboost.md) 的新版本。他们可以将其用作 A SageMaker I 内置算法，也可以将其用作在本地环境中运行脚本的框架，就像通常使用 Tensorflow 深度学习框架一样。新实施占用内存更少，并且具有更好的日志记录、改进的超参数验证以及一组扩展的指标。如果客户需要推迟迁移到新版本，则 XGBoost 仍可使用较早实施的版本。但是之前的实现仍将与 0.72 版本相关联。 XGBoost

## 0.72 版的输入/输出接 XGBoost 口
<a name="xgboost-72-InputOutput"></a>

梯度提升对表格数据进行操作，其中行表示观察、一个列表示目标变量或标签，其余列表示特征。

 SageMaker 的人工智能实现 XGBoost 支持用于训练和推理的 CSV 和 libsvm 格式：
+ *对于训练 ContentType，有效的输入是*文本/libsvm（默认）或文本/cs* v。*
+ *对于推理 ContentType，有效的输入是*文本/libsvm 或（默认）文本/cs* v。*

**注意**  
对于 CSV 训练，算法假定目标变量在第一列中，而 CSV 没有标头记录。对于 CSV 推理，算法假定 CSV 输入没有标签列。  
对于 libsvm 训练，算法假定标签在第一列中。后续的列包含特征的索引值对（从零开始）。因此，每一行的格式为：<label> <index0>:<value0> <index1>:<value1> ... libsvm 的推理请求可能有也可能没有 libsvm 格式的标签。

这与其他 SageMaker AI 算法不同，后者使用 protobuf 训练输入格式来保持与标准 XGBoost 数据格式的更大一致性。

对于 CSV 训练输入模式，可用于算法的总内存 (实例计数 \$1 `InstanceType` 中的可用内存) 必须能够容纳训练数据集。对于 libsvm 训练输入模式，它不是必需的，但我们建议使用它。

SageMaker AI 在模型中 XGBoost 使用 Python pickle 模块，该模块可用于 saving/loading 模型。 serialize/deserialize 

**在开源中使用通过 A SageMaker I 训练 XGBoost 的模型 XGBoost**
+ 使用以下 Python 代码：

  ```
  import pickle as pkl 
  import tarfile
  import xgboost
  
  t = tarfile.open('model.tar.gz', 'r:gz')
  t.extractall()
  
  model = pkl.load(open(model_file_path, 'rb'))
  
  # prediction with test data
  pred = model.predict(dtest)
  ```

**使用实例权重支持区分标记数据点的重要性**
+ SageMaker AI XGBoost 允许客户通过为每个实例分配权重值来区分已标记数据点的重要性。对于 *text/libsvm* 输入，客户可以通过在标签之后附加权重值，将权重值分配给数据实例。例如 `label:weight idx_0:val_0 idx_1:val_1...`。对于 *text/csv* 输入，客户需要在参数中打开 `csv_weights` 标志，并将权重值附加到标签之后的列中。例如：`label,weight,val_0,val_1,...`。

## 0.72 XGBoost 版本的 EC2 实例建议
<a name="xgboost-72-Instance"></a>

SageMaker 人工智能 XGBoost 目前仅使用训练 CPUs。它是一种内存限制型（而不是计算限制型）算法。因此，一般用途的计算实例 (例如 M4) 是比计算优化的实例 (例如 C4) 更适合的选择。此外，我们建议您在选定的实例中有足够的总内存来保存训练数据。尽管它支持使用磁盘空间来处理不适合主内存的数据（libsvm 输入模式下可用的 out-of-core功能），但将缓存文件写入磁盘会减慢算法处理时间。

## XGBoost 0.72 版本示例笔记本
<a name="xgboost-72-sample-notebooks"></a>

有关演示如何使用最新版本的 SageMaker AI XGBoost 作为内置算法来训练和托管回归模型的示例笔记本，请参阅使用 [Amazon A SageMaker I XGBoost 算法进行回归](https://sagemaker-examples.readthedocs.io/en/latest/introduction_to_amazon_algorithms/xgboost_abalone/xgboost_abalone.html)。要使用 0.72 版本的 XGBoost，您需要将示例代码中的版本更改为 0.72。有关如何创建和访问可用于在 SageMaker AI 中运行示例的 Jupyter 笔记本实例的说明，请参阅。[Amazon SageMaker 笔记本实例](nbi.md)创建并打开笔记本实例后，选择 “**SageMaker AI 示例**” 选项卡以查看所有 SageMaker AI 示例的列表。使用 XGBoost 算法对示例笔记本进行建模的主题位于 **Amazon 算法简介**部分。要打开笔记本，请单击**使用** 选项卡，然后选择**创建副本**。

## XGBoost 0.72 版本超参数
<a name="xgboost-72-hyperparameters"></a>

下表包含 XGBoost 算法的超参数。这些是由用户设置的参数，以便于从数据中评估模型参数。首先，按字母顺序列出必须设置的所需超参数。接下来，也按字母顺序列出可以设置的可选超参数。A SageMaker I XGBoost 算法是开源 XGBoost 软件包的实现。当前 SageMaker AI 支持 0.72 版。有关此版本的超参数配置的更多详细信息 XGBoost，请参阅[ XGBoost参数](https://xgboost.readthedocs.io/en/release_0.72/parameter.html)。


| 参数名称 | 说明 | 
| --- | --- | 
| num\$1class | 类的数量。 在 `objective` 设置为 *multi:softmax* 或 *multi:softprob* 时**必需**。 有效值：整数  | 
| num\$1round | 运行训练的轮数。 **必填** 有效值：整数  | 
| alpha | 权重上的 L1 正则化项。增加此值会使模型更加保守。 **可选** 有效值：浮点值 默认值：0  | 
| base\$1score | 所有实例的初始预测分数，全局偏移。 **可选** 有效值：浮点值 默认值：0.5  | 
| booster | 要使用的助推程序。`gbtree` 和 `dart` 值使用基于树的模型，而 `gblinear` 使用线性函数。 **可选** 有效值：字符串。`gbtree`、`gblinear` 或 `dart`。 默认值：`gbtree`  | 
| colsample\$1bylevel | 每个级别中每个拆分的列的子样本比率。 **可选** 有效值：浮点值。范围：[0,1]。 默认值：1  | 
| colsample\$1bytree | 构造每个树时列的子样本比率。 **可选** 有效值：浮点值。范围：[0,1]。 默认值：1 | 
| csv\$1weights | 启用此标志后，通过 XGBoost 将训练数据中的第二列（标签之后的列）作为实例权重来区分 csv 输入实例的重要性。 **可选** 有效值：0 或 1 默认值：0  | 
| early\$1stopping\$1rounds | 模型会一直训练直到验证分数停止改善。要继续训练，验证错误至少需要在每 `early_stopping_rounds` 轮中有所减少。 SageMaker AI 托管使用最佳模型进行推理。 **可选** 有效值：整数 默认值: -  | 
| eta | 在更新中用于防止过度适合的步骤大小收缩。在每个提升步骤之后，您可以直接获得新特征的权重。`eta` 参数实际上缩小了特征权重，使提升过程更加保守。 **可选** 有效值：浮点值。范围：[0,1]。 默认值：0.3  | 
| eval\$1metric | 验证数据的评估指标。根据目标分配默认指标：[\[See the AWS documentation website for more details\]](http://docs.aws.amazon.com/zh_cn/sagemaker/latest/dg/xgboost-72.html) 有关有效输入的列表，请参阅[XGBoost 参数](https://github.com/dmlc/xgboost/blob/master/doc/parameter.rst#learning-task-parameters)。 **可选** 有效值：字符串 默认值：根据目标默认。  | 
| gamma | 在树的叶节点上进行进一步分区所需的最小损失减少。该值越大，算法越保守。 **可选** 有效值：浮点值。范围：[0,∞)。 默认值：0  | 
| grow\$1policy | 控制将新节点添加到树中的方式。目前，仅在 `tree_method` 设置为 `hist` 时受支持。 **可选** 有效值：字符串。`depthwise` 或 `lossguide`。 默认值：`depthwise`  | 
| lambda | 权重上的 L2 正则化项。增加此值会使模型更加保守。 **可选** 有效值：浮点值 默认值：1  | 
| lambda\$1bias | 偏移上的 L2 正则化项。 **可选** 有效值：浮点值。范围：[0.0, 1.0]。 默认值：0  | 
| max\$1bin | 离散分箱到存储桶连续特征的最大数量。仅在 `tree_method` 设置为 `hist` 时才会使用。 **可选** 有效值：整数 默认值：256  | 
| max\$1delta\$1step | 每个树的权重估计允许的最大增量步骤。当使用正整数时，它有助于使更新更加保守。首选选项是在逻辑回归中使用它。将其设置为 1-10 可帮助控制更新。 **可选** 有效值：整数。范围：[0,∞)。 默认值：0  | 
| max\$1depth | 树的最大深度。增加这个值会使模型更复杂，并可能会过度拟合。0 表示没有限制。当 `grow_policy`=`depth-wise` 时，需要限制。 **可选** 有效值：整数。范围：[0,∞) 默认值：6  | 
| max\$1leaves | 要添加的最大节点数。仅当 `grow_policy` 设为 `lossguide` 时相关。 **可选** 有效值：整数 默认值：0  | 
| min\$1child\$1weight | 子项中所需的最小实例权重总和 (hessian)。如果树分区步骤导致叶节点的实例权重总和小于 `min_child_weight` 的总和，则生成过程会放弃进一步的分区。在线性回归模型中，这只是对应于每个节点中所需的最小实例数。算法越大，就越保守。 **可选** 有效值：浮点值。范围：[0,∞)。 默认值：1  | 
| normalize\$1type | 标准化算法的类型。 **可选** 有效值：*tree* 或 *forest*。 默认值：*tree*  | 
| nthread | 用于运行 *xgboost* 的并行线程数量。 **可选** 有效值：整数 默认值：最大线程数。  | 
| objective | 指定学习任务和相应的学习目标。示例：`reg:logistic`、`reg:softmax`、`multi:squarederror`。有关有效输入的完整列表，请参阅[XGBoost 参数](https://github.com/dmlc/xgboost/blob/master/doc/parameter.rst#learning-task-parameters)。 **可选** 有效值：字符串 默认值：`reg:squarederror`  | 
| one\$1drop | 启用此标记后，在丢弃期间至少会丢弃一个树。 **可选** 有效值：0 或 1 默认值：0  | 
| process\$1type | 要运行的提升过程的类型。 **可选** 有效值：字符串。`default` 或 `update`。 默认值：`default`  | 
| rate\$1drop | 丢弃比率，指定在丢弃期间要丢弃的一小部分以前的树。 **可选** 有效值：浮点值。范围：[0.0, 1.0]。 默认值：0.0  | 
| refresh\$1leaf | 这是“刷新”更新者插件的参数。当设置为 `true` (1) 时，树叶和树节点统计数据会更新。当设置为 `false` (0) 时，只有树节点统计数据会更新。 **可选** 有效值：0/1 默认值：1  | 
| sample\$1type | 采样算法的类型。 **可选** 有效值：`uniform` 或 `weighted`。 默认值：`uniform`  | 
| scale\$1pos\$1weight | 控制正负权重的平衡。它对不平衡的类很有用。可考虑的典型值：`sum(negative cases)` / `sum(positive cases)`。 **可选** 有效值：浮点值 默认值：1  | 
| seed | 随机数种子。 **可选** 有效值：整数 默认值：0  | 
| silent | 0 表示打印运行消息，1 表示静默模式。 有效值：0 或 1 **可选** 默认值：0  | 
| sketch\$1eps | 仅用于近似贪婪算法。这会转换为 O(1 / `sketch_eps`) 分箱数。与直接选择分箱数相比，这附带了具有草图准确率的理论保证。 **可选** 有效值：浮点型，范围：[0, 1]。 默认值：0.03  | 
| skip\$1drop | 在提升迭代期间跳过丢弃过程的概率。 **可选** 有效值：浮点值。范围：[0.0, 1.0]。 默认值：0.0  | 
| subsample | 训练实例的子样本比率。将其设置为 0.5 意味着 XGBoost 随机收集一半的数据实例来种树。这会防止过度适合 **可选** 有效值：浮点值。范围：[0,1]。 默认值：1  | 
| tree\$1method | 中使用的树构造算法 XGBoost。 **可选** 有效值：`auto`、`exact`、`approx` 或 `hist` 之一。 默认值：`auto`  | 
| tweedie\$1variance\$1power | 控制 Tweedie 分布的方差的参数。 **可选** 有效值：浮点值。范围：(1, 2)。 默认值：1.5  | 
| updater | 一个逗号分隔的字符串，它定义要运行的树更新者序列。这提供了构造和修改树的模块化方法。 有关有效输入的完整列表，请参阅[XGBoost 参数](https://github.com/dmlc/xgboost/blob/master/doc/parameter.rst)。 **可选** 有效值：逗号分隔的字符串。 默认值：`grow_colmaker`、prune  | 

## 调整 XGBoost 发行版 0.72 型号
<a name="xgboost-72-tuning"></a>

*自动模型调整*也称作超参数调整，是指通过在您的训练数据集和验证数据集上运行多个作业来测试一系列超参数，从而查找模型的最佳版本。您可以选择三种类型的超参数：
+ 一个学习 `objective` 函数，用于在模型训练期间进行优化
+ `eval_metric`，用于在验证期间评估性能
+ 自动调整模型时要使用的一组超参数和一系列值，供每个参数使用

您可以从算法计算的评估指标集合中选择一个评估指标。自动模型优化将搜索所选超参数，以找到值组合，获得能够对评估指标进行优化的模型。

有关模型优化的更多信息，请参阅[使用 SageMaker AI 自动调整模型](automatic-model-tuning.md)。

### 由 0.72 XGBoost 版本算法计算的指标
<a name="xgboost-72-metrics"></a>

基于版本 0.72 的 XGBoost 算法计算出以下九个指标以用于模型验证。在调整模型时，请从这些指标中选择一个来评估模型。有关有效`eval_metric`值的完整列表，请参阅[XGBoost 学习任务参数](https://github.com/dmlc/xgboost/blob/master/doc/parameter.rst#learning-task-parameters)


| 指标名称 | 说明 | 优化方向 | 
| --- | --- | --- | 
| validation:auc |  曲线下方的区域。  |  最大化  | 
| validation:error |  二元分类错误率，计算方式为错误用例数/所有用例数。  |  最小化  | 
| validation:logloss |  负对数似然。  |  最小化  | 
| validation:mae |  平均绝对误差。  |  最小化  | 
| validation:map |  平均查准率。  |  最大化  | 
| validation:merror |  多元分类错误率，计算方式为错误用例数/所有用例数。  |  最小化  | 
| validation:mlogloss |  多元分类的负对数似然。  |  最小化  | 
| validation:ndcg |  标准化折扣累积收益。  |  最大化  | 
| validation:rmse |  均方根误差。  |  最小化  | 

### 可调 XGBoost 版本 0.72 超参数
<a name="xgboost-72-tunable-hyperparameters"></a>

使用以下超参数调整 XGBoost 模型。对优化 XGBoost 评估指标影响最大的超参数是：`alpha`、、`min_child_weight``subsample``eta`、和`num_round`。


| 参数名称 | 参数类型 | 建议的范围 | 
| --- | --- | --- | 
| alpha |  ContinuousParameterRanges  |  MinValue: 0, MaxValue: 1000  | 
| colsample\$1bylevel |  ContinuousParameterRanges  |  MinValue: 0.1， MaxValue: 1  | 
| colsample\$1bytree |  ContinuousParameterRanges  |  MinValue: 0.5， MaxValue: 1  | 
| eta |  ContinuousParameterRanges  |  MinValue: 0.1， MaxValue: 0.5  | 
| gamma |  ContinuousParameterRanges  |  MinValue: 0, MaxValue: 5  | 
| lambda |  ContinuousParameterRanges  |  MinValue: 0, MaxValue: 1000  | 
| max\$1delta\$1step |  IntegerParameterRanges  |  [0, 10]  | 
| max\$1depth |  IntegerParameterRanges  |  [0, 10]  | 
| min\$1child\$1weight |  ContinuousParameterRanges  |  MinValue: 0, MaxValue: 120  | 
| num\$1round |  IntegerParameterRanges  |  [1, 4000]  | 
| subsample |  ContinuousParameterRanges  |  MinValue: 0.5， MaxValue: 1  | 