本文属于机器翻译版本。若本译文内容与英语原文存在差异,则一律以英文原文为准。
训练和验证数据集的模型要求
以下各节列出了模型的训练和验证数据集的要求。有关Amazon Nova模型的数据集约束的信息,请参阅微调Amazon Nova模型。
| 说明 |
最大值(微调) |
| 批次大小为 1 时输入和输出令牌数总和 |
4,096 |
| 批次大小为 2、3 或 4 时输入和输出令牌数总和 |
不适用 |
| 数据集中每个样本的字符配额 |
代币配额 x 6(估计) |
| 训练数据集文件大小 |
1 GB |
| 验证数据集文件大小 |
100 MB |
| 说明 |
最大值(持续预训练) |
最大值(微调) |
| 批次大小为 1 时输入和输出令牌数总和 |
4,096 |
4,096 |
| 批次大小为 2、3 或 4 时输入和输出令牌数总和 |
2,048 |
2,048 |
| 数据集中每个样本的字符配额 |
代币配额 x 6(估计) |
代币配额 x 6(估计) |
| 训练数据集文件大小 |
10 GB |
1 GB |
| 验证数据集文件大小 |
100 MB |
100 MB |
| 说明 |
最大值(持续预训练) |
最大值(微调) |
| 批次大小为 1 或 2 时输入和输出令牌数总和 |
4,096 |
4,096 |
| 批次大小为 3、4、5 或 6 时输入和输出令牌数总和 |
2,048 |
2,048 |
| 数据集中每个样本的字符配额 |
代币配额 x 6(估计) |
代币配额 x 6(估计) |
| 训练数据集文件大小 |
10 GB |
1 GB |
| 验证数据集文件大小 |
100 MB |
100 MB |
| 说明 |
最小值(微调) |
最大值(微调) |
| 训练样本中的文本提示长度,以字符为单位 |
3 |
1024 |
| 训练数据集中的记录数 |
5 |
10000 |
| 输入图像大小 |
0 |
50 MB |
| 输入图像的高度(以像素为单位) |
512 |
4,096 |
| 输入图像的宽度(以像素为单位) |
512 |
4,096 |
| 输入图像总像素数 |
0 |
12,582,912 |
| 输入图像纵横比 |
1:4 |
4:1 |
| 说明 |
最小值(微调) |
最大值(微调) |
| 训练样本中的文本提示长度,以字符为单位 |
0 |
2,560 |
| 训练数据集中的记录数 |
1000 |
500,000 |
| 输入图像大小 |
0 |
5MB |
| 输入图像的高度(以像素为单位) |
128 |
4096 |
| 输入图像的宽度(以像素为单位) |
128 |
4096 |
| 输入图像总像素数 |
0 |
12,528,912 |
| 输入图像纵横比 |
1:4 |
4:1 |
| 说明 |
最小值(微调) |
最大值(微调) |
| 输入令牌数 |
0 |
16000 |
| 输出令牌数 |
0 |
16000 |
| 数据集中每个样本的字符配额 |
0 |
代币配额 x 6(估计) |
| 输入和输出令牌的总和 |
0 |
16000 |
| 训练和验证记录的总和 |
100 |
10,000(可使用服务配额进行调整) |
Meta Llama-3.2 11B Vision Instruct和支持的图像格式Meta
Llama-3.2 90B Vision Instruct包括:gifjpeg、png、和webp。为了估算这些模型微调期间的 image-to-token转化率,你可以使用这个公式作为近似值:。Tokens = min(2,
max(Height // 560, 1)) * min(2, max(Width // 560, 1)) * 1601根据图像的大小,图像会被转换为大约 1,601 到 6,404 个标记。
| 说明 |
最小值(微调) |
最大值(微调) |
| 输入和输出令牌的总和 |
0 |
16,000(10000 为 Meta Llama 3.2 90B) |
| 训练和验证记录的总和 |
100 |
10,000(可使用服务配额进行调整) |
| Meta Llama 11B and 90B instruct模型的输入图像尺寸) |
0 |
10 MB |
| Meta Llama 11B and 90B
instruct模型的输入图像高度(以像素为单位) |
10 |
8192 |
| Meta Llama 11B and 90B90B
instruct模型的输入图像宽度(以像素为单位) |
10 |
8192 |
| 说明 |
最小值(微调) |
最大值(微调) |
| 输入和输出令牌的总和 |
0 |
16000 |
| 训练和验证记录的总和 |
100 |
10,000(使用服务配额进行调整) |
| 说明 |
最大值(微调) |
| 输入令牌数 |
4,096 |
| 输出令牌数 |
2,048 |
| 数据集中每个样本的字符配额 |
代币配额 x 6(估计) |
| 训练数据集中的记录数 |
10000 |
| 验证数据集中的记录数 |
1000 |
| 说明 |
最大值(微调) |
| 最小记录数 |
32 |
| 最大训练记录 |
10000 |
| 最大验证记录 |
1000 |
| 最大记录总数 |
10,000(可使用服务配额进行调整) |
| 最大代币数量 |
32000 |
| 训练数据集的最大大小 |
10 GB |
| 最大验证数据集大小 |
1 GB |