DApp Store | Web3 Hub für Ereignisse und Spiele

Trend-Themen

#

Bonk Eco continues to show strength amid $USELESS rally

#

Pump.fun to raise $1B token sale, traders speculating on airdrop

#

Boop.Fun leading the way with a new launchpad on Solana.

BOOP-3,14 %

Boopa-4,77 %

PORK0,00 %

Peter Gostev

Peter GostevVor 15 Stunden

Es gibt Bedenken, dass die Menschen aufhören werden, ihren Verstand mit LLMs zu nutzen, aber das Management mehrerer KI-Agenten-Threads parallel war einige der kognitiv intensivsten Arbeiten, die ich seit Jahren gemacht habe.

19

Peter Gostev13. März, 16:18

Idee für das Codex-Team "Übernachtmodus". Im Moment setze ich ein paar Aufgaben und sie schaffen es vielleicht in 30-60 Minuten. Aber ich schlafe noch. Wenn ich also eine Zeit festlegen könnte, bis wann sie erledigt sein sollten (z.B. 6 Uhr morgens), dann könntest du mir während dieser Zeit einen rabattierten Inferenzmodus ähnlich dem Batch-Modus anbieten.

123

Peter Gostev13. März, 01:11

BullshitBench v2 Update: Grok 4.2 - massiver Sprung in den Rankings - 4.1 war auf Platz 54 und 72 (von 84) und hat jetzt die Plätze 13-16 eingenommen.

Peter Gostev2. März, 23:29

BullshitBench v2 ist draußen! Es ist einer der wenigen Benchmarks, bei denen die Modelle im Allgemeinen nicht besser werden (außer Claude) und bei denen das Denken nicht hilft. Was ist neu: 100 neue Fragen, nach Bereichen (Programmierung (40 Fragen), Medizin (15), Recht (15), Finanzen (15), Physik (15)), über 70 getestete Modellvarianten. BullshitBench hat bereits 380 Starts auf GitHub - alle Fragen, Skripte, Antworten und Urteile sind dort, also schaut es euch an. TL;DR: - Ergebnisse repliziert - die neuesten Modelle von @AnthropicAI erzielen außergewöhnlich gute Ergebnisse - @Alibaba_Qwen ist ein weiterer sehr starker Performer - OpenAI- und Google-Modelle schneiden schlecht ab und verbessern sich nicht - Die Bereiche zeigen nicht viel Unterschied - die Raten der BS-Erkennung sind in allen Bereichen etwa gleich - Denken hat, wenn überhaupt, einen negativen Effekt - Neuere Modelle schneiden nicht viel besser ab als ältere (außer Anthropic) Links: - Daten-Explorer: - GitHub: Ich empfehle dringend den Daten-Explorer, wo ihr die Daten sowie die Fragen und Musterantworten studieren könnt.

182

Top

Ranking

Favoriten

Deutsch 简体中文繁體中文 English Tiếng Việt Русский Español (Latinoamérica)Bahasa Indonesia Français Italiano Polski Čeština Română Português (Portugal)Português (Brasil)Українська Español (España)Nederlands العربية 日本語 Norsk (bokmål)Suomi Svenska Türkçe

Mehr über OKX Web3

Herunterladen Learn Über uns Karriere Kontakt Nutzungsbedingungen Datenschutzbestimmungen X (ehemals Twitter)

Produkt

Wallet-Dashboard Swap OKX NFT Earn Entwickeln Explorer Sicherheit

Support

Support-Center Offizielle Verifizierung Ankündigungen DEX-Gebührenplan Mit OKX verbinden Bitcoin-Wallet Ethereum-Wallet Solana-Wallet