Nova pesquisa: FlashAttention-4 O FlashAttention-4 alcança até 1,3x de velocidade sobre cuDNN 9,13 e 2,7x sobre Triton em GPUs B200 com BF16. O FlashAttention-4 co-projeta algoritmos e pipelines de kernel para GPUs Blackwell, onde a taxa de transferência do núcleo tensorial dobra, mas a largura de banda da memória e as unidades exponenciais escalam mais lentamente. As técnicas incluem operações MMA totalmente assíncronas, reescalonamento exponencial emulado por software e aproveitamento da memória tensorial para reduzir o tráfego de memória compartilhada. O FlashAttention-4 alcança até 1,3x de velocidade acima do cuDNN e 2,7x sobre o Triton em GPUs B200, atingindo 1613 TFLOPs/s com 71% de utilização. Implementado inteiramente em Python via CuTe-DSL com tempos de compilação 20-30x mais rápidos em comparação com templates em C++. Papel: Aprenda a construir agentes de IA eficazes em nossa academia: