As pessoas estão rapidamente a interpretar mal este gráfico como uma exageração. Aqui está uma explicação clara sobre o que está a acontecer: A METR constrói um benchmark de tarefas de software (depuração de sistemas complexos, treino de modelos de ML ou identificação de vulnerabilidades de segurança). Eles medem quanto tempo cada tarefa leva a um especialista humano qualificado para ser concluída e, em seguida, testam agentes de IA nessas mesmas tarefas. O "horizonte de tempo" é uma estatística resumida: o comprimento da tarefa em que uma determinada IA tem sucesso 50% das vezes. Um modelo com um horizonte de tempo de 2 horas completa metade das tarefas que levariam 2 horas a um especialista humano. A METR acabou de relatar que o Claude Opus 4.6 tem um horizonte de tempo de 50% de ~14,5 horas, o que, claro, seria incrivelmente impressionante... mas a METR está a dizer-nos para sermos cautelosos! Há um problema estatístico. Simplesmente não há tarefas difíceis suficientes restantes para ancorar a extremidade superior da curva e os modelos de fronteira estão agora a ter sucesso em quase tudo no conjunto de tarefas. Assim, pequenas variações aleatórias nos resultados estão a fazer a estimativa oscilar dramaticamente: O intervalo de confiança de 95% varia de 6 horas a 98 horas, o que é claramente uma faixa não fiável para qualquer um tirar conclusões. A própria METR está a trabalhar em novos métodos para medir a este nível, então diminua um pouco as expectativas :)