Нове дослідження: FlashAttention-4 FlashAttention-4 досягає до 1,3x прискорення порівняно з cuDNN 9.13 і 2,7x над Triton на відеокартах B200 з BF16. FlashAttention-4 спільно розробляє алгоритми та конвеєри ядра для GPU Blackwell, де пропускна здатність тензорних ядер подвоюється, але пропускна здатність пам'яті та експоненціальні одиниці масштабуються повільніше. Техніки включають повністю асинхронні операції MMA, програмно емульоване експоненціальне масштабування та використання тензорної пам'яті для зменшення спільного трафіку пам'яті. FlashAttention-4 досягає до 1,3x прискорення порівняно з cuDNN і 2,7x над Triton на графічних картах B200, досягаючи 1613 TFLOP/s при 71% завантаження. Реалізовано повністю на Python через CuTe-DSL з часом компіляції у 20-30 разів швидшим порівняно з шаблонами C++. Стаття: Навчіться створювати ефективних агентів ШІ в нашій академії: