Найновіша модель серії Mamba нарешті з'явилася 🐍 Гібридні моделі стають дедалі популярнішими, що підкреслює важливість розробки наступного покоління лінійних моделей. Ми впровадили кілька ідей, орієнтованих на SSM, щоб суттєво підвищити можливості моделювання Mamba-2 без компромісу зі швидкістю. Отримана модель Mamba-3 має помітні покращення продуктивності порівняно з найпопулярнішими попередніми лінійними моделями (такими як Mamba-2 та Gated DeltaNet) у всіх розмірах. Це перша Мамба, яку очолювали студенти: вся заслуга на @aakash_lahoti @kevinyli_ @_berlinchen @caitWW9, і, звісно, @tri_dao!