Tópicos populares
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
As pessoas estão rapidamente a interpretar mal este gráfico como uma exageração.
Aqui está uma explicação clara sobre o que está a acontecer:
A METR constrói um benchmark de tarefas de software (depuração de sistemas complexos, treino de modelos de ML ou identificação de vulnerabilidades de segurança).
Eles medem quanto tempo cada tarefa leva a um especialista humano qualificado para ser concluída e, em seguida, testam agentes de IA nessas mesmas tarefas.
O "horizonte de tempo" é uma estatística resumida: o comprimento da tarefa em que uma determinada IA tem sucesso 50% das vezes. Um modelo com um horizonte de tempo de 2 horas completa metade das tarefas que levariam 2 horas a um especialista humano.
A METR acabou de relatar que o Claude Opus 4.6 tem um horizonte de tempo de 50% de ~14,5 horas, o que, claro, seria incrivelmente impressionante...
mas a METR está a dizer-nos para sermos cautelosos!
Há um problema estatístico. Simplesmente não há tarefas difíceis suficientes restantes para ancorar a extremidade superior da curva e os modelos de fronteira estão agora a ter sucesso em quase tudo no conjunto de tarefas.
Assim, pequenas variações aleatórias nos resultados estão a fazer a estimativa oscilar dramaticamente:
O intervalo de confiança de 95% varia de 6 horas a 98 horas, o que é claramente uma faixa não fiável para qualquer um tirar conclusões.
A própria METR está a trabalhar em novos métodos para medir a este nível, então diminua um pouco as expectativas :)
Top
Classificação
Favoritos
