自定义模型超参数 - Amazon Bedrock

本文属于机器翻译版本。若本译文内容与英语原文存在差异,则一律以英文原文为准。

自定义模型超参数

以下参考内容包括可用于训练各个 Amazon Bedrock 自定义模型的超参数。

超参数是用于控制训练过程的参数,例如学习率或周期计数。当您使用 Amazon Bedrock 控制台或调用 CreateModelCustomizationJobAPI 操作提交微调任务时,您可以为自定义模型训练设置超参数。

Amazon Nova Lite、Amazon Nova Micro 和 Amazon Nova Pro 模型支持以下三个用于自定义模型的超参数。有关更多信息,请参阅 针对使用案例自定义模型以提高其性能

有关微调 Amazon Nova 模型的信息,请参阅微调 Amazon Nova 模型

您指定的 epoch 数会处理更多词元,因而会增加模型的自定义成本。每个 epoch 对整个训练数据集进行一次处理。有关定价的信息,请参阅 Amazon Bedrock 定价

超参数(控制台) 超参数(API) 定义 Type 最小值 最大值 默认
Epoch epochCount 整个训练数据集的迭代次数 整数 1 5 2
学习率 learningRate 每个批次之后模型参数的更新速率 浮点数 1.00E-6 1.00E-4 1.00E-5
学习率预热步数 learningRateWarmup步骤 学习率逐渐提高到指定速率的迭代次数 整数 0 100 10

默认的 epoch 数为 2,适用于大多数情况。通常,较大的数据集需要较少的 epoch 就能收敛,而较小的数据集则需要较多的 epoch 才能收敛。您也可以通过提高学习率来实现更快的收敛,但这种方法不太令人满意,因为可能会导致收敛时的训练不稳定。建议从默认超参数开始,这些超参数基于我们对各种复杂程度和数据大小的任务的评估。

在预热阶段,学习率将逐渐提高到设定值。因此,在训练样本较小时,建议您避免使用过大的预热值,因为在训练过程中,学习率可能永远无法达到设定值。建议将数据集大小分别除以 640(对于 Amazon Nova Micro)、160(对于 Amazon Nova Lite)和 320(对于 Amazon Nova Pro),以此来设置预热步骤数。

Amazon Nova Canvas 模型支持以下用于自定义模型的超参数。

超参数(控制台) 超参数(API) 定义 最小值 最大值 默认
批次大小 batchSize 更新模型参数之前处理的样本数 8 192 8
步数 stepCount 模型在每个批次中出现的次数 10 20000 500
学习率 learningRate 每个批次之后模型参数的更新速率 1.00E-7 1.00E-4 1.00E-5

Amazon Titan Text 高级版模型支持以下用于自定义模型的超参数。您指定的 epoch 数会处理更多词元,因而会增加模型的自定义成本。每个 epoch 对整个训练数据集进行一次处理。有关定价的信息,请参阅 Amazon Bedrock 定价

超参数(控制台) 超参数(API) 定义 Type 最小值 最大值 默认
Epoch epochCount 整个训练数据集的迭代次数 整数 1 5 2
批次大小(微批次) batchSize 更新模型参数之前处理的样本数 整数 1 1 1
学习率 learningRate 每个批次之后模型参数的更新速率 浮点数 1.00E-07 1.00E-05 1.00E-06
学习率预热步数 learningRateWarmup步骤 学习率逐渐提高到指定速率的迭代次数 整数 0 20 5

Amazon Titan Text 模型(例如简捷版和快捷版)支持以下用于自定义模型的超参数:您指定的 epoch 数会处理更多词元,因而会增加模型的自定义成本。每个 epoch 对整个训练数据集进行一次处理。有关定价的信息,请参阅 Amazon Bedrock 定价

超参数(控制台) 超参数(API) 定义 Type 最小值 最大值 默认
Epoch epochCount 整个训练数据集的迭代次数 整数 1 10 5
批次大小(微批次) batchSize 更新模型参数之前处理的样本数 整数 1 64 1
学习率 learningRate 每个批次之后模型参数的更新速率 浮点数 0.0 1 1.00E-5
学习率预热步数 learningRateWarmup步骤 学习率逐渐提高到指定速率的迭代次数 整数 0 250 5

Amazon Titan 图像生成器 G1 模型支持以下用于自定义模型的超参数。

注意

stepCount 没有默认值,必须为其指定一个值。stepCount 支持值 autoauto 会优先考虑模型性能而非训练成本,方法是根据数据集的大小自动确定一个数值。训练作业成本取决于 auto 确定的数值。要了解作业成本的计算方式并查看示例,请参阅 Amazon Bedrock 定价

超参数(控制台) 超参数(API) 定义 最小值 最大值 默认
批次大小 batchSize 更新模型参数之前处理的样本数 8 192 8
步数 stepCount 模型在每个批次中出现的次数 10 40000 不适用
学习率 learningRate 每个批次之后模型参数的更新速率 1.00E-7 1 1.00E-5

Amazon Titan Multimodal Embeddings G1 模型支持以下用于自定义模型的超参数。您指定的 epoch 数会处理更多词元,因而会增加模型的自定义成本。每个 epoch 对整个训练数据集进行一次处理。有关定价的信息,请参阅 Amazon Bedrock 定价

注意

epochCount 没有默认值,必须为其指定一个值。epochCount 支持值 AutoAuto 会优先考虑模型性能而非训练成本,方法是根据数据集的大小自动确定一个数值。训练作业成本取决于 Auto 确定的数值。要了解作业成本的计算方式并查看示例,请参阅 Amazon Bedrock 定价

超参数(控制台) 超参数(API) 定义 Type 最小值 最大值 默认
Epoch epochCount 整个训练数据集的迭代次数 整数 1 100 不适用
批次大小 batchSize 更新模型参数之前处理的样本数 整数 256 9,216 576
学习率 learningRate 每个批次之后模型参数的更新速率 浮点数 5.00E-8 1 5.00E-5

Anthropic Claude 3 模型支持以下用于自定义模型的超参数。您指定的 epoch 数会处理更多词元,因而会增加模型的自定义成本。每个 epoch 对整个训练数据集进行一次处理。有关定价的信息,请参阅 Amazon Bedrock 定价

控制台名称 API 名称 定义 默认 最小值 最大值
周期计数 epochCount 整个训练数据集的最大迭代次数 2 1 10
批次大小 batchSize 更新模型参数之前处理的样本数 32 4 256
学习率乘数 learningRateMultiplier 该乘数会影响模型参数在每个批次之后更新的学习率 1 0.1 2
提前停止阈值 earlyStoppingThreshold 防止训练过程过早终止所需的最低验证损失改善 0.001 0 0.1
提前停止容忍度 earlyStoppingPatience 停止训练过程之前对验证损失指标停滞的容忍程度 2 1 10

Cohere Command 和 Cohere Command Light 模型支持以下用于自定义模型的超参数。您指定的 epoch 数会处理更多词元,因而会增加模型的自定义成本。每个 epoch 对整个训练数据集进行一次处理。有关定价的信息,请参阅 Amazon Bedrock 定价。有关更多信息,请参阅 针对使用案例自定义模型以提高其性能

有关微调Cohere模型的信息,请参阅https://docs.cohere.com/docs/微调中的Cohere文档。

注意

epochCount 配额可调整。

超参数(控制台) 超参数(API) 定义 Type 最小值 最大值 默认
Epoch epochCount 整个训练数据集的迭代次数 整数 1 100 1
批次大小 batchSize 更新模型参数之前处理的样本数 整数 8 8(Command)

32(Light)

8
学习率 learningRate 每个批次之后模型参数的更新速率。如果使用的是验证数据集,我们建议您不要为 learningRate 提供值。 浮点数 5.00E-6 0.1 1.00E-5
提前停止阈值 earlyStoppingThreshold 防止训练过程过早终止所需的最低损失改善 浮点数 0 0.1 0.01
提前停止容忍度 earlyStoppingPatience 停止训练过程之前对损失指标停滞的容忍程度 整数 1 10 6
评估百分比 evalPercentage

在未提供单独验证数据集的情况下,为模型评测分配的数据集百分比

浮点数 5 50 20

Meta Llama 3.1 8B 和 70B 模型支持以下用于自定义模型的超参数。您指定的 epoch 数会处理更多词元,因而会增加模型的自定义成本。每个 epoch 对整个训练数据集进行一次处理。有关定价的信息,请参阅 Amazon Bedrock 定价。有关更多信息,请参阅 针对使用案例自定义模型以提高其性能

有关微调 Meta Llama 模型的信息,请参阅 https://ai.meta.com/llama/get-started/ #fine-t uning 中的Meta文档。

注意

epochCount 配额可调整。

超参数(控制台) 超参数(API) 定义 最小值 最大值 默认
Epoch epochCount 整个训练数据集的迭代次数 1 10 5
批次大小 batchSize 更新模型参数之前处理的样本数 1 1 1
学习率 learningRate 每个批次之后模型参数的更新速率 5.00E-6 0.1 1.00E-4

Meta Llama 3.2 1B、3B、11B 和 90B 模型支持以下用于自定义模型的超参数。您指定的 epoch 数会处理更多词元,因而会增加模型的自定义成本。每个 epoch 对整个训练数据集进行一次处理。有关定价的信息,请参阅 Amazon Bedrock 定价。有关更多信息,请参阅 针对使用案例自定义模型以提高其性能

有关微调 Meta Llama 模型的信息,请参阅 https://ai.meta.com/llama/get-started/ #fine-t uning 中的Meta文档。

超参数(控制台) 超参数(API) 定义 最小值 最大值 默认
Epoch epochCount 整个训练数据集的迭代次数 1 10 5
批次大小 batchSize 更新模型参数之前处理的样本数 1 1 1
学习率 learningRate 每个批次之后模型参数的更新速率 5.00E-6 0.1 1.00E-4