DApp Store | Centrum Web3 pro události a hry

Populární témata

Nová @METR_Evals výzkumná poznámka od @whitfill_parker, @cherylwoooo, Natea Rushe a mě. (hlavně Parker!) zjistili jsme, že *polovina* SWE-bench ověřených řešení z generace AI Sonnet 3.5 až 4.5 *které jsou hodnoceny jako úspěšné* je projektovými správci odmítnuta.

Top

Hodnocení

Oblíbené