As pessoas estão rapidamente interpretando esse gráfico como hype Aqui está uma explicação clara do que está acontecendo: O METR cria um benchmark de tarefas de software (depuração de sistemas complexos, treinamento de modelos de ML ou identificação de vulnerabilidades de segurança) Eles medem quanto tempo cada tarefa leva para um especialista humano qualificado para ser concluída e depois testam agentes de IA nessas mesmas tarefas. O "horizonte de tempo" é uma estatística resumida: o comprimento da tarefa em que uma determinada IA tem sucesso em 50% das vezes. Um modelo com horizonte temporal de 2 horas completa metade das tarefas que levariam 2 horas para um especialista humano. O METR acabou de informar que Claude Opus 4.6 tem um horizonte temporal de 50% de ~14,5 horas, o que, claro, seria incrivelmente impressionante... mas o METR está nos dizendo para termos cautela! Há um problema estatístico. Simplesmente não há tarefas difíceis suficientes para ancorar o topo da curva, e os modelos fronteiriços agora estão tendo sucesso em quase tudo no conjunto de tarefas. Portanto, pequenas variações aleatórias nos resultados estão fazendo a estimativa oscilar drasticamente: O intervalo de confiança de 95% vai de 6 a 98 horas, o que é claramente uma faixa pouco confiável para qualquer pessoa tirar conclusões. O próprio METR está trabalhando em novos métodos para medir nesse nível, então reduz um pouco as expectativas :)