Актуальні теми
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Нове дослідження: FlashAttention-4
FlashAttention-4 досягає до 1,3x прискорення порівняно з cuDNN 9.13 і 2,7x над Triton на відеокартах B200 з BF16.
FlashAttention-4 спільно розробляє алгоритми та конвеєри ядра для GPU Blackwell, де пропускна здатність тензорних ядер подвоюється, але пропускна здатність пам'яті та експоненціальні одиниці масштабуються повільніше.
Техніки включають повністю асинхронні операції MMA, програмно емульоване експоненціальне масштабування та використання тензорної пам'яті для зменшення спільного трафіку пам'яті.
FlashAttention-4 досягає до 1,3x прискорення порівняно з cuDNN і 2,7x над Triton на графічних картах B200, досягаючи 1613 TFLOP/s при 71% завантаження.
Реалізовано повністю на Python через CuTe-DSL з часом компіляції у 20-30 разів швидшим порівняно з шаблонами C++.
Стаття:
Навчіться створювати ефективних агентів ШІ в нашій академії:

Найкращі
Рейтинг
Вибране
