Populární témata
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.

Ramin Hasani
Podívejte se na 👌🏻 to

Sanchit monga5. 3. 11:58
Za pouhých 48 hodin v @RunAnywhereAI jsme vytvořili MetalRT: porazili jsme @Apple v jejich vlastní hře a dodali NEJRYCHLEJŠÍ LLM inferenční engine na trhu pro Apple Silicon právě teď.
- 570 tok/s dekódování @liquidai LFM 2.5-1.2B 4-bit
- 658 tok/s dekódování @Alibaba_Qwen Qwen3-0.6B, 4-bitový
- 6.6 ms Čas do prvního tokenu
- 1.19× rychlejší než Apple vlastní MLX (identické modelové soubory)
- 1,67× v průměru rychlejší než llama.cpp
Rozdrtili jsme Apple MLX, llama.cpp, Uzu (od TryMirai) a Ollama ve čtyřech různých 4bitových modelech, včetně optimalizovaného LFM2.5-1.2B na jednom M4 Max.
Těším se na tohle!
#ycombinator #runanywhere #ondeviceai #applesilicon #mlx

188
Opravdu působivé vydání hybridních malých modelů od týmu Qwen jako vždy!
Lidé se ptají, jak se srovnávají v rychlosti, latenci a paměti s LFM od @liquidai pro nasazení přímo na zařízení?
Zde je rychlý přehled Apple M3 Ultra:
> LFM2.5-1.2B je v dekódování o 52 % rychlejší než Qwen3.5-0.8B.
> LFM2-700M je při dekódování o 71 % rychlejší než Qwen3.5-0.8B
> LFM2-2.6B má při dekódování stejnou rychlost jako Qwen3.5-2B
> LFM2-700M využívá o 46 % méně špičkové paměť než Qwen3.5-0.8B
> LFM2-2.6B používá o 21 % méně špičkové paměť než Qwen3.5-2B
> předplnění lfms se stejnou velikostí parametru je obecně o 12 % rychlejší než Qwen3.5
Navrhli jsme řadu LFM2 s naším hardwarově integrovaným meta AI přístupem, který nám umožňuje najít nejefektivnější architekturu pro daný procesor bez kompromisů na kvalitě.
Tento test probíhá na Apple M3 Ultra, 512 GB sjednocené paměti
Konfigurace:
> 512 promptových tokenů, 128 generačních tokenů,
> 5 pokusů na konfiguraci
> Framework: MLX (mlx-lm / mlx-vlm)


Qwen2. 3. 21:18
🚀 Představujeme řadu Qwen 3.5 Small Model Series
Qwen3.5-0.8B · Qwen3.5-2B · Qwen3.5-4B · Qwen3.5-9B
✨ Více inteligence, méně výpočetní kapacity.
Tyto malé modely jsou postaveny na stejném základu Qwen3.5 — nativní multimodální, vylepšená architektura, škálované RL:
• 0,8B / 2B → malé, rychlé, skvělé pro edge zařízení
• 4B → překvapivě silná multimodální základna pro lehké látky
• 9B → kompaktní, ale už se tak dotýkal mnohem větších modelů
A ano — vydáváme také základní modely.
Doufáme, že to lépe podporuje výzkum, experimentování a skutečné průmyslové inovace.
Objímající obličej:
ModelScope:

180
Top
Hodnocení
Oblíbené
