Soporte para FlashAttention

El soporte para FlashAttention es una característica de la biblioteca solo aplicable para el modelo de transformador distribuido, que es un modelo de Transformer encapsulado por smp.DistributedModel() para el modelo de entrenamiento paralelo. Esta característica también es compatible con Paralelismo de tensores.

La biblioteca FlashAttention solo admite modelos cuando attention_head_size se establece en un valor múltiplo de 8 e inferior a 128. Por lo tanto, cuando entrene un transformador distribuido y se asegure de que FlashAttention funciona correctamente, deberá ajustar los parámetros para que el tamaño de head (cabeza) de atención cumpla con los requisitos. Para obtener más información, consulte también Instalación y características en el repositorio GitHub de FlashAttention.

Por ejemplo, supongamos que configura un modelo de Transformer con hidden_width=864 y num_heads=48. El tamaño de head (cabeza) de FlashAttention se calcula como attention_head_size = hidden_width / num_heads = 864 / 48 = 18. Para activar FlashAttention, debe ajustar el parámetro num_heads a 54, de modo que attention_head_size = hidden_width / num_heads = 864 / 54 = 16 sea un múltiplo de 8.

Aviso JavaScript está desactivado o no está disponible en su navegador.

Para utilizar la documentación de AWS, debe estar habilitado JavaScript. Para obtener más información, consulte las páginas de ayuda de su navegador.

Convenciones del documento

Entrenamiento con el FP16 con paralelismo de modelos

Ejecutar un trabajo de entrenamiento distribuido de SageMaker con paralelismo de modelos