Ludzie szybko błędnie interpretują ten wykres jako hype Oto jasne wyjaśnienie, co się dzieje: METR buduje benchmark zadań programistycznych (debugowanie złożonych systemów, szkolenie modeli ML lub znajdowanie luk w zabezpieczeniach) Mierzą, jak długo zajmuje wykwalifikowanemu ekspertowi wykonanie każdego zadania, a następnie testują agentów AI na tych samych zadaniach. "Horyzont czasowy" to statystyka podsumowująca: długość zadania, przy której dany AI odnosi sukces w 50% przypadków. Model z horyzontem czasowym wynoszącym 2 godziny wykonuje połowę zadań, które zajmują ekspertowi 2 godziny. METR właśnie poinformował, że Claude Opus 4.6 ma horyzont czasowy wynoszący ~14,5 godziny, co oczywiście byłoby niesamowicie imponujące... ale METR mówi nam, aby być ostrożnym! Jest problem statystyczny. Po prostu nie ma wystarczającej liczby trudnych zadań, aby zakotwiczyć górny koniec krzywej, a modele frontier teraz odnoszą sukcesy w prawie wszystkim w zestawie zadań. Dlatego małe losowe wahania w wynikach dramatycznie zmieniają oszacowanie: 95% przedział ufności rozciąga się od 6 godzin do 98 godzin, co jest wyraźnie niepewnym zakresem, z którego można wyciągać wnioski. Sami w METR pracują nad nowymi metodami pomiaru na tym poziomie, więc nieco zmniejszcie oczekiwania :)