Trend-Themen
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Sag Hallo zu Exclusive Self Attention (XSA), einer (nahezu) kostenlosen Verbesserung für Transformer in der Sprachmodellierung.
Beobachtung: für y = attn(q, k, v) haben yᵢ und vᵢ tendenziell eine sehr hohe Kosinusähnlichkeit.
Lösung: schließe vᵢ von yᵢ aus über zᵢ = yᵢ - (yᵢᵀvᵢ)vᵢ/‖vᵢ‖²
Ergebnis: bessere Trainings-/Validierungsverluste über verschiedene Modellgrößen; zunehmende Gewinne mit wachsender Sequenzlänge.
Siehe mehr:

Top
Ranking
Favoriten
