Memperkenalkan Residu Perhatian: Memikirkan kembali agregasi secara mendalam. Sambungan sisa telah lama mengandalkan akumulasi tetap dan seragam. Terinspirasi oleh dualitas waktu dan kedalaman, kami memperkenalkan Residu Perhatian, menggantikan pengulangan kedalaman standar dengan perhatian yang dipelajari dan bergantung pada input pada lapisan sebelumnya. 🔹 Memungkinkan jaringan untuk secara selektif mengambil representasi masa lalu, secara alami mengurangi pengenceran dan pertumbuhan keadaan tersembunyi. 🔹 Memperkenalkan Block AttnRes, mempartisi lapisan menjadi blok terkompresi untuk membuat perhatian lintas lapisan praktis dalam skala besar. 🔹 Berfungsi sebagai pengganti drop-in yang efisien, menunjukkan keunggulan komputasi 1,25x dengan overhead latensi inferensi yang dapat diabaikan (<2%). 🔹 Divalidasi pada arsitektur Kimi Linear (total 48B, parameter aktif 3B), memberikan peningkatan kinerja hilir yang konsisten. 🔗Laporan lengkap:
Eksperimen hukum penskalaan mengungkapkan keunggulan komputasi 1,25× yang konsisten di berbagai ukuran model.
Analisis dinamika pelatihan menunjukkan bagaimana AttnRes secara alami mengurangi pertumbuhan besaran keadaan tersembunyi dan menghasilkan distribusi gradien yang lebih seragam di seluruh kedalaman.
192