Trend Olan Konular
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Alibaba, 397B modelinden ödünç alınan bir hileyle dört Qwen 3.5 küçük model gönderdi: Gated DeltaNet hibrit dikkat.
Her tam dikkat katmanı için üç katman doğrusal dikkat var.
Doğrusal katmanlar, rutin hesaplamayı sürekli bellek kullanımıyla yönetir. Tam dikkat katmanları ancak hassasiyet önemli olduğunda ateşlenir.
Bu 3:1 oranı belleği düz tutarken kalite yüksek kalıyor, bu yüzden 0.8B modeli bile 262.000 tokenlık bağlam penceresini destekliyor.
Her model metin, görüntü ve videoyu doğal olarak işliyor.
Sonrasında hiç adaptör takılmadı. Vizyon kodlayıcısı, videoda hareketi yakalamak için 3D konvolüsyonlar kullanır, ardından sadece son katmandan değil, birden fazla katmandan özellikleri birleştirir.
9B, çok modlu anlamada GPT-5-Nano'yu 13 puan, görsel matematikte 17 puan ve belge ayrıştırmada 30 puan geride bırakıyor. 0.8B bir telefonda çalışıyor ve videoyu işliyor. 4B, 8GB VRAM'a sığıyor ve çoklu modal bir ajan olarak işlev görüyor. Dördü de Apache 2.0.
Eğer bu mimari geçerliyse, küçük model alanı bir yetenek yarışı haline gelmiş, bir boyut yarışı değil.
Bir yıl önce, yerel olarak multimodal bir model çalıştırmak 13B+ model ve ciddi bir GPU anlamına geliyordu.
Şimdi 262K bağlamlı bir 4B model, tüketici donanımından metin, görüntü ve videoyu işliyor.
Kenar modelleri ile amiral gemisi modelleri arasındaki fark, amiral gemileri ile insan arasındaki farktan daha hızlı kapanıyor.
En İyiler
Sıralama
Takip Listesi
