Argomenti di tendenza
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.

Ramin Hasani
guarda questo 👌🏻

Sanchit monga5 mar, 11:58
In sole 48 ore, presso @RunAnywhereAI, abbiamo costruito MetalRT: battendo @Apple nel loro stesso gioco e offrendo il MOTORE DI INFERENZA LLM PIÙ VELOCE sul mercato per Apple Silicon in questo momento.
- 570 tok/s decodifica @liquidai LFM 2.5-1.2B 4-bit
- 658 tok/s decodifica @Alibaba_Qwen Qwen3-0.6B, 4-bit
- 6.6 ms tempo fino al primo token
- 1.19× più veloce rispetto al MLX di Apple (file modello identici)
- 1.67× più veloce in media rispetto a llama.cpp
Abbiamo schiacciato Apple MLX, llama.cpp, uzu (di TryMirai) e Ollama su quattro diversi modelli 4-bit, incluso l'ottimizzato per il dispositivo LFM2.5-1.2B su un singolo M4 Max.
Entusiasta per questo!

193
Rilascio davvero impressionante di modelli ibridi tiny dal team Qwen, come sempre!
Le persone chiedono come si confrontano in termini di velocità, latenza e memoria con i LFMs di @liquidai per il deployment su dispositivo?
Ecco un rapido profiling su Apple M3 Ultra:
> LFM2.5-1.2B è il 52% più veloce in decodifica rispetto al Qwen3.5-0.8B.
> LFM2-700M è il 71% più veloce del Qwen3.5-0.8B in decodifica
> LFM2-2.6B ha la stessa velocità del Qwen3.5-2B in decodifica
> LFM2-700M utilizza il 46% in meno di memoria di picco rispetto al Qwen3.5-0.8B
> LFM2-2.6B utilizza il 21% in meno di memoria di picco rispetto al Qwen3.5-2B
> gli lfms prefill con la stessa dimensione dei parametri sono generalmente il 12% più veloci del Qwen3.5
Abbiamo progettato la serie LFM2 con il nostro approccio di design meta AI hardware-in-the-loop che ci consente di scoprire l'architettura più efficiente per un dato processore senza sacrificare la qualità.
Questo test è stato eseguito su Apple M3 Ultra, 512 GB di memoria unificata
Configurazione:
> 512 token di prompt, 128 token di generazione,
> 5 prove per configurazione
> Framework: MLX (mlx-lm / mlx-vlm)


Qwen2 mar, 21:18
🚀 Introduzione alla serie di modelli piccoli Qwen 3.5
Qwen3.5-0.8B · Qwen3.5-2B · Qwen3.5-4B · Qwen3.5-9B
✨ Maggiore intelligenza, meno calcolo.
Questi modelli piccoli sono costruiti sulla stessa base Qwen3.5 — multimodale nativa, architettura migliorata, RL scalato:
• 0.8B / 2B → piccoli, veloci, ottimi per dispositivi edge
• 4B → una base multimodale sorprendentemente forte per agenti leggeri
• 9B → compatto, ma già in procinto di colmare il divario con modelli molto più grandi
E sì — stiamo anche rilasciando i modelli Base.
Speriamo che questo supporti meglio la ricerca, la sperimentazione e l'innovazione industriale nel mondo reale.
Hugging Face:
ModelScope:

188
Principali
Ranking
Preferiti
