Актуальні теми
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Е-е... Qwen3.5-35B-A3B на llama.cpp повторне заповнення при кожному запиті, ~4 рази повільніше, ніж мало б бути. Хтось це вирішив? Думав, що люди із задоволенням розгорталися і використовували його локально? Але якщо це ще не вирішено, продуктивність досить обмежена.
Корінна причина: шари GDN повторюються → pos_min відстежують повну послідовність →, але llama.cpp перевіряє кеш за порогом SWA, який за замовчуванням становить 1 для не-SWA моделей → pos_min > 1 завжди істинний, → кеш завжди скидається → повне поповнення кожного разу?

Насправді docker image (збірки 2026-03-13) містить виправлення. Ручне патчування не потрібне.

859
Найкращі
Рейтинг
Вибране
