本文属于机器翻译版本。若本译文内容与英语原文存在差异，则一律以英文原文为准。

# 张量并行性
<a name="model-parallel-extended-features-pytorch-tensor-parallelism"></a>

*张量并行性*是模型并行性的一种，它在设备之间拆分特定的模型权重、梯度和优化器状态。管道并行性保持单个权重不变但对权重*集*进行拆分，张量并行性则与之相反，会拆分单个权重。这通常涉及对模型的特定运算、模块或层进行分布式计算。

在单个参数占用大部分 GPU 内存的情况下（例如词汇表很大的大型嵌入表，或者具有大量类的大型 softmax 层），则需要张量并行性。在这种情况下，将这种大张量或运算视为原子单元的效率会很低，并且会阻碍内存负载的平衡。

在仅仅依靠管道并不足以满足要求的超大型模型中，张量并行性也很有用。例如，在 GPT-3 规模的模型中需要对数十个实例进行分区，仅使用微批次管道传输效率低下，因为管道深度会变得过深，开销会变得过大。

**注意**  
张量并行度可在 SageMaker 模型并行度库 v1.6.0 及更高版本 PyTorch 中使用。

**Topics**
+ [张量并行性的工作原理](model-parallel-extended-features-pytorch-tensor-parallelism-how-it-works.md)
+ [使用张量并行度运行 SageMaker 分布式模型并行训练 Job](model-parallel-extended-features-pytorch-tensor-parallelism-examples.md)
+ [支持 Hugging Face 转换器模型](model-parallel-extended-features-pytorch-hugging-face.md)
+ [将管道并行性与张量并行性结合使用时的秩评定机制](model-parallel-extended-features-pytorch-ranking-mechanism.md)