Е-е... Qwen3.5-35B-A3B на llama.cpp повторне заповнення при кожному запиті, ~4 рази повільніше, ніж мало б бути. Хтось це вирішив? Думав, що люди із задоволенням розгорталися і використовували його локально? Але якщо це ще не вирішено, продуктивність досить обмежена. Корінна причина: шари GDN повторюються → pos_min відстежують повну послідовність →, але llama.cpp перевіряє кеш за порогом SWA, який за замовчуванням становить 1 для не-SWA моделей → pos_min > 1 завжди істинний, → кеш завжди скидається → повне поповнення кожного разу?
Насправді docker image (збірки 2026-03-13) містить виправлення. Ручне патчування не потрібне.
859