本文為英文版的機器翻譯版本,如內容有任何歧義或不一致之處,概以英文版為準。
支援 FlashAttention
支援 FlashAttention 是僅適用分散式轉換器模型程式庫的功能,該模型是以 smp.DistributedModel()
僅當 attention_head_size 所設定的值為 8 的倍數且小於 128 時,FlashAttention
例如,假設您使用 hidden_width=864 與 num_heads=48 設定轉換器模型。FlashAttention 的頭大小計算方式為 attention_head_size = hidden_width / num_heads = 864 / 48 = 18。若要啟用 FlashAttention,您需要調整 num_heads 參數為 54,以便 attention_head_size = hidden_width / num_heads = 864
/ 54 = 16 (這是 8 的倍數)。