Popularne tematy
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Ludzie szybko błędnie interpretują ten wykres jako hype
Oto jasne wyjaśnienie, co się dzieje:
METR buduje benchmark zadań programistycznych (debugowanie złożonych systemów, szkolenie modeli ML lub znajdowanie luk w zabezpieczeniach)
Mierzą, jak długo zajmuje wykwalifikowanemu ekspertowi wykonanie każdego zadania, a następnie testują agentów AI na tych samych zadaniach.
"Horyzont czasowy" to statystyka podsumowująca: długość zadania, przy której dany AI odnosi sukces w 50% przypadków. Model z horyzontem czasowym wynoszącym 2 godziny wykonuje połowę zadań, które zajmują ekspertowi 2 godziny.
METR właśnie poinformował, że Claude Opus 4.6 ma horyzont czasowy wynoszący ~14,5 godziny, co oczywiście byłoby niesamowicie imponujące...
ale METR mówi nam, aby być ostrożnym!
Jest problem statystyczny. Po prostu nie ma wystarczającej liczby trudnych zadań, aby zakotwiczyć górny koniec krzywej, a modele frontier teraz odnoszą sukcesy w prawie wszystkim w zestawie zadań.
Dlatego małe losowe wahania w wynikach dramatycznie zmieniają oszacowanie:
95% przedział ufności rozciąga się od 6 godzin do 98 godzin, co jest wyraźnie niepewnym zakresem, z którego można wyciągać wnioski.
Sami w METR pracują nad nowymi metodami pomiaru na tym poziomie, więc nieco zmniejszcie oczekiwania :)
Najlepsze
Ranking
Ulubione
