DApp Store | Centrum Web3 pro události a hry

Populární témata

#

Bonk Eco continues to show strength amid $USELESS rally

#

Pump.fun to raise $1B token sale, traders speculating on airdrop

#

Boop.Fun leading the way with a new launchpad on Solana.

BOOP-0,33 %

Boopa-2,78 %

PORK0,00 %

Peter Gostev

Peter GostevPřed 16 h

Je obava, že lidé přestanou používat mozek u LLM, ale řízení několika AI agentních vláken paralelně bylo jednou z nejnáročnějších kognitivních prací, které jsem za poslední roky dělal

24

Peter Gostev13. 3. 16:18

Nápad pro tým Codexu 'noční režim'. Teď si zadám pár úkolů a oni to možná zvládnou za 30-60 minut. Ale pořád spím. Takže pokud bych mohl nastavit čas podle toho, kdy by měly být hotové (např. 6 ráno), mohl bych během té doby dát diskontované inference podobně jako v dávkovém režimu.

124

Peter Gostev13. 3. 01:11

Aktualizace BullshitBench v2: Grok 4.2 – obrovský skok v žebříčku – 4.1 byl na 54. a 72. místě (z 84) a teď se dostal na 13.–16. místo.

Peter Gostev2. 3. 23:29

BullshitBench v2 is out! It is one of the few benchmarks where models are generally not getting better (except Claude) and where reasoning isn't helping. What's new: 100 new questions, by domain (coding (40 Q's), medical (15), legal (15), finance (15), physics(15)), 70+ model variants tested. BullshitBench is already at 380 starts on GitHub - all questions, scripts, responses and judgements are there so check it out. TL;DR: - Results replicated - @AnthropicAI latest models are scoring exceptionally well - @Alibaba_Qwen is another very strong performer - OpenAI and Google models are not doing well and are not improving - Domains do not show much difference - rates of BS detection are about the same across all domains - Reasoning, if anything, has negative effect - Newer models don't do that much better than older ones (except Anthropic) Links: - Data explorer: - GitHub: Highly recommend the data explorer where you can study the data and the questions & sample answers.

184

Top

Hodnocení

Oblíbené

Čeština 简体中文繁體中文 English Tiếng Việt Русский Español (Latinoamérica)Bahasa Indonesia Français Deutsch Italiano Polski Română Português (Portugal)Português (Brasil)Українська Español (España)Nederlands العربية 日本語 Norsk (bokmål)Suomi Svenska Türkçe

Více o OKX Peněžence

Stáhnout Akademie Informace o nás Kariéra Kontaktujte nás Podmínky poskytování služeb Zásady ochrany osobních údajů X (dříve Twitter)

Produkt

Tokeny Swap Tržiště Vydělávejte Budujte Průzkumník Zabezpečení

Podpora

Centrum podpory Ověření oficiálního obsahu Oznámení Rozpis poplatků na DEX Propojit s OKX Peněženka sítě Bitcoin Peněženka sítě Ethereum Peněženka sítě Solana