DApp Store | Centrum Web3 pro události a hry

Populární témata

Tento graf je už zastaralý a nikdo o něm nemluví. Žebříček ukazuje "Anthropic Opus 4,5" na 76,1 %. Opus 4.6 byl spuštěn 5. února, den poté, co Perplexity zveřejnil tyto výsledky. Poznámky k vydání Anthropic uvádějí, že Opus 4.6 "zlepšuje jak BrowseComp, tak DeepSearchQA." Na BrowseComp bylo toto zlepšení o 16 procentních bodů (z 67,8 % na 84,0 %). Číslo DeepSearchQA zatím nemáme, ale pokud je skok i jen poloviční velikost, Opus 4.6 standalone by byl nad Perplexityho 79,5 %. Tady to začíná být zajímavé. Perplexity's Advanced Deep Research provádí všechny dotazy na Opus 4.5. To potvrdili i sami ve svém oznámení. Opus 4.6 je již dostupný na Perplexity API pro Comet, ale Deep Research zatím nepřešel na jeho platformu. Takže výsledek "špičkového vývoje", který Kobeissi označuje za mimořádnou zprávu, byl porovnán s modelem, který byl o 24 hodin později nahrazen. Rámec "Perplexity poráží Anthropic" také zakrývá fakt, že engine Perplexity JE antropopický. Každý dotaz Advanced Deep Research prochází Opus 4.5 přes agentický vyhledávací nástroj Perplexity. Antropoika je základem. Perplexita je lešení. Rozdíl 3,4 bodu mezi nimi (79,5 % vs 76,1 %) je hodnotou procesu vyhledávání Perplexity nad rámec Anthropicova uvažování. Tři věci se chystají. Anthropic zařazuje Opus 4.6 do žebříčku. Perplexity vylepšuje Deep Research z 4,5 na 4,6. A celý tento graf se během několika týdnů přeskupí. Sdílení momentky z benchmarkového závodu uprostřed kroku a nazvat ho "breaking" je způsob, jak získat 186 tisíc zhlédnutí a nulový vhled.

Top

Hodnocení

Oblíbené