Tendencias del momento
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Presentamos 𝑨𝒕𝒕𝒆𝒏𝒕𝒊𝒐𝒏 𝑹𝒆𝒔𝒊𝒅𝒖𝒂𝒍𝒔: Repensando la agregación a nivel de profundidad.
Las conexiones residuales han dependido durante mucho tiempo de una acumulación fija y uniforme. Inspirados por la dualidad del tiempo y la profundidad, introducimos Attention Residuals, reemplazando la recurrencia estándar a nivel de profundidad con atención aprendida, dependiente de la entrada, sobre las capas anteriores.
🔹 Permite a las redes recuperar selectivamente representaciones pasadas, mitigando de forma natural la dilución y el crecimiento del estado oculto.
🔹 Introduce Block AttnRes, particionando las capas en bloques comprimidos para hacer que la atención entre capas sea práctica a gran escala.
🔹 Sirve como un reemplazo eficiente, demostrando una ventaja de computación de 1.25x con una sobrecarga de latencia de inferencia negligible (<2%).
🔹 Validado en la arquitectura Kimi Linear (48B en total, 3B de parámetros activados), ofreciendo ganancias de rendimiento consistentes en downstream.
🔗Informe completo:

Los experimentos de la ley de escalado revelan una ventaja de computación consistente de 1.25× a través de diferentes tamaños de modelo.

El análisis de la dinámica de entrenamiento demuestra cómo AttnRes mitiga de forma natural el crecimiento de la magnitud del estado oculto y produce una distribución de gradientes más uniforme a lo largo de la profundidad.

190
Parte superior
Clasificación
Favoritos
