Den senaste modellen i Mamba-serien är äntligen här 🐍 Hybridmodeller har blivit allt mer populära, vilket ökar vikten av att designa nästa generation linjära modeller. Vi har introducerat flera SSM-centrerade idéer för att avsevärt öka Mamba-2:s modelleringsmöjligheter utan att kompromissa med hastigheten. Den resulterande Mamba-3-modellen har märkbara prestandaförbättringar jämfört med de mest populära tidigare linjära modellerna (såsom Mamba-2 och Gated DeltaNet) i alla storlekar. Detta är den första Mamba som var elevledd: all heder åt @aakash_lahoti @kevinyli_ @_berlinchen @caitWW9, och självklart @tri_dao!