Huomion jäännösten esittely: Syvyyskokouksen uudelleenarviointi. Jäännösliitännät ovat pitkään perustuneet kiinteään, tasaiseen kertymiseen. Ajan ja syvyyden kaksinaisuudesta inspiroituneena esittelemme Attention Residuals -menetelmän, joka korvaa tavallisen syvyyskohtaisen toistumisen opitulla, syötteeseen perustuvalla huomiolla edeltävien kerrosten yli. 🔹 Mahdollistaa verkkojen valikoivan palauttamisen menneisiin representaatioihin, mikä luonnollisesti vähentää laimenemista ja piilotilakasvua. 🔹 Esittelee Block AttnResin, joka jakaa kerrokset pakattuihin lohkoihin, jotta poikkikerrosten huomio olisi käytännöllistä laajassa mittakaavassa. 🔹 Toimii tehokkaana drop-in-korvaajana, osoittaen 1,25-kertaisen laskentaedun merkityksettömällä (<2 %) päättelyviiveen ylikuormituksella. 🔹 Validoitu Kimi Linear -arkkitehtuurilla (yhteensä 48B parametria, 3B aktivoituja parametreja), mikä tarjoaa johdonmukaiset suorituskyvyn parannukset jälkivirtaan. 🔗Koko raportti:
Skaalauslakikokeet paljastavat johdonmukaisen 1,25 × laskentaedun eri mallikoolla.
Harjoitusdynamiikan analyysi osoittaa, miten AttnRes luonnollisesti hillitsee piilotilaisten suuruuden kasvua ja tuottaa tasaisemman gradienttijakauman syvyydessä.
188