DApp Store | Piattaforma Web3 per eventi e giochi | OKX Wallet

Argomenti di tendenza

#

Bonk Eco continues to show strength amid $USELESS rally

#

Pump.fun to raise $1B token sale, traders speculating on airdrop

LAUNCHCOIN+2,9%

#

Boop.Fun leading the way with a new launchpad on Solana.

header

Peter Gostev

Peter Gostev

Peter Gostev13 ore fa

C'è preoccupazione che le persone smettano di usare il cervello con gli LLM, ma gestire diversi thread di agenti AI in parallelo è stato uno dei lavori più cognitivamente intensivi che abbia fatto negli ultimi anni

12

Peter Gostev

Peter Gostev13 mar, 16:18

Idea per il team Codex "modalità notturna". In questo momento imposto alcuni compiti e potrebbero completarli in 30-60 minuti. Ma io sto ancora dormendo. Quindi, se potessi impostare un orario entro il quale dovrebbero essere completati (ad esempio, le 6 del mattino), allora potresti darmi un'inferenza scontata durante quel tempo, simile alla modalità batch.

122

Peter Gostev

Peter Gostev13 mar, 01:11

Aggiornamento BullshitBench v2: Grok 4.2 - salto enorme nelle classifiche - 4.1 era classificato 54° e 72° (su 84) e ora ha preso i posti 13-16.

Peter Gostev

Peter Gostev2 mar, 23:29

BullshitBench v2 è uscito! È uno dei pochi benchmark in cui i modelli generalmente non stanno migliorando (eccetto Claude) e dove il ragionamento non aiuta. Cosa c'è di nuovo: 100 nuove domande, per dominio (programmazione (40 Q), medico (15), legale (15), finanza (15), fisica (15)), oltre 70 varianti di modelli testati. BullshitBench ha già raggiunto 380 avvii su GitHub - tutte le domande, script, risposte e giudizi sono lì, quindi dai un'occhiata. TL;DR: - Risultati replicati - i modelli più recenti di @AnthropicAI stanno ottenendo punteggi eccezionali - @Alibaba_Qwen è un altro performer molto forte - I modelli di OpenAI e Google non stanno andando bene e non stanno migliorando - I domini non mostrano molte differenze - i tassi di rilevamento di BS sono più o meno gli stessi in tutti i domini - Il ragionamento, se mai, ha un effetto negativo - I modelli più recenti non fanno molto meglio di quelli più vecchi (eccetto Anthropic) Link: - Esploratore dati: - GitHub: Consiglio vivamente l'esploratore dati dove puoi studiare i dati e le domande & risposte campione.

180

Principali

Ranking

Preferiti

©2017 - 2026 WEB3.OKX.COM

Italiano 简体中文繁體中文 English Tiếng Việt Русский Español (Latinoamérica)Bahasa Indonesia Français Deutsch Polski Čeština Română Português (Portugal)Português (Brasil)Українська Español (España)Nederlands العربية 日本語 Norsk (bokmål)Suomi Svenska Türkçe

Ulteriori informazioni su OKX Web 3

Scarica Academy Chi siamo Lavora con noi Contattaci Termini di servizio Informativa X (ex Twitter)

Prodotto

Dashboard del portafoglio Swap OKX NFT Guadagna Costruisci Explorer Sicurezza

Assistenza

Centro assistenza Verifica ufficiale Comunicazioni Schema commissioni DEX Connettiti con OKX Portafoglio bitcoin Portafoglio Ethereum Portafoglio Solana