Nueva investigación: FlashAttention-4 FlashAttention-4 alcanza hasta 1,3x de velocidad respecto a cuDNN 9,13 y 2,7x sobre Triton en GPUs B200 con BF16. FlashAttention-4 co-diseña algoritmos y pipelines de kernel para GPUs Blackwell, donde el rendimiento del núcleo tensorial se duplica pero el ancho de banda de memoria y las unidades exponenciales escalan más lentamente. Las técnicas incluyen operaciones MMA totalmente asíncronas, reescalado exponencial emulado por software y el aprovechamiento de la memoria tensorial para reducir el tráfico de memoria compartida. FlashAttention-4 alcanza hasta 1,3x de velocidad sobre cuDNN y 2,7x sobre Triton en GPUs B200, alcanzando 1613 TFLOPs/s con un 71% de utilización. Implementado completamente en Python vía CuTe-DSL con tiempos de compilación 20-30 veces más rápidos que las plantillas en C++. Papel: Aprende a crear agentes de IA efectivos en nuestra academia: