Terjemahan disediakan oleh mesin penerjemah. Jika konten terjemahan yang diberikan bertentangan dengan versi bahasa Inggris aslinya, utamakan versi bahasa Inggris.

# Support untuk FlashAttention
<a name="model-parallel-attention-head-size-for-flash-attention"></a>

Support for FlashAttention adalah fitur perpustakaan yang hanya berlaku untuk model *transformator terdistribusi*, yang merupakan model Transformer yang dibungkus oleh [https://sagemaker.readthedocs.io/en/v2.199.0/api/training/smp_versions/latest/smd_model_parallel_pytorch.html#smdistributed-modelparallel-torch-distributedmodel](https://sagemaker.readthedocs.io/en/v2.199.0/api/training/smp_versions/latest/smd_model_parallel_pytorch.html#smdistributed-modelparallel-torch-distributedmodel)untuk pelatihan model-paralel. Fitur ini juga kompatibel dengan[Paralelisme Tensor](model-parallel-extended-features-pytorch-tensor-parallelism.md). 

[FlashAttention](https://github.com/HazyResearch/flash-attention)Pustaka hanya mendukung model ketika `attention_head_size` disetel ke nilai yang kelipatan 8 dan kurang dari 128. Oleh karena itu, ketika Anda melatih transformator terdistribusi dan memastikannya FlashAttention berfungsi dengan baik, Anda harus menyesuaikan parameter untuk membuat ukuran kepala perhatian memenuhi persyaratan. Untuk informasi selengkapnya, lihat juga [Instalasi dan fitur](https://github.com/HazyResearch/flash-attention#installation-and-features) di *FlashAttention GitHubrepositori*.

Misalnya, asumsikan bahwa Anda mengonfigurasi model Transformer dengan `hidden_width=864` dan`num_heads=48`. Ukuran kepala FlashAttention dihitung sebagai`attention_head_size = hidden_width / num_heads = 864 / 48 = 18`. Untuk mengaktifkan FlashAttention, Anda perlu menyesuaikan `num_heads` parameter ke`54`, sehingga`attention_head_size = hidden_width / num_heads = 864 / 54 = 16`, yang merupakan kelipatan dari 8.