Populære emner
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Introduserer oppmerksomhetsrester: Tenk nytt om dybde-aggregering.
Residualforbindelser har lenge vært avhengige av fast, jevn akkumulering. Inspirert av dualiteten mellom tid og dybde, introduserer vi oppmerksomhetsresidualer, som erstatter standard dybdevis gjentakelse med lært, inputavhengig oppmerksomhet over foregående lag.
🔹 Gjør det mulig for nettverk å selektivt hente tilbake tidligere representasjoner, og naturlig demper fortynning og vekst i skjulte tilstander.
🔹 Introduserer Block AttnRes, som deler lag inn i komprimerte blokker for å gjøre tverrlagsoppmerksomhet praktisk i stor skala.
🔹 Fungerer som en effektiv drop-in-erstatning, og demonstrerer en 1,25x beregningsfordel med neglisjerbar (<2 %) inferenslatens-overhead.
🔹 Validert på Kimi Linear-arkitekturen (totalt 48 B, 3 B aktiverte parametere), og gir konsistente ytelsesgevinster nedstrøms.
🔗Full rapport:

Skaleringsloveksperimenter viser en konsekvent 1,25× beregningsfordel på tvers av ulike modellstørrelser.

Analyse av treningsdynamikk viser hvordan AttnRes naturlig demper vekst i skjult tilstands størrelse og gir en mer jevn gradientfordeling over dybden.

191
Topp
Rangering
Favoritter
