Nueva investigación: FlashAttention-4 FlashAttention-4 logra hasta 1.3x de aceleración sobre cuDNN 9.13 y 2.7x sobre Triton en GPUs B200 con BF16. FlashAttention-4 co-diseña algoritmos y tuberías de núcleo para GPUs Blackwell, donde el rendimiento de los núcleos tensoriales se duplica, pero el ancho de banda de memoria y las unidades exponenciales escalan más lentamente. Las técnicas incluyen operaciones MMA completamente asíncronas, reescalado exponencial emulado por software y aprovechamiento de la memoria tensorial para reducir el tráfico de memoria compartida. FlashAttention-4 logra hasta 1.3x de aceleración sobre cuDNN y 2.7x sobre Triton en GPUs B200, alcanzando 1613 TFLOPs/s con un 71% de utilización. Implementado completamente en Python a través de CuTe-DSL con tiempos de compilación de 20-30x más rápidos en comparación con plantillas de C++. Documento: Aprende a construir agentes de IA efectivos en nuestra academia: