Temas en tendencia
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
La gente está malinterpretando rápidamente este gráfico como algo de bombo
Aquí tienes una explicación clara de lo que está ocurriendo:
METR crea un benchmark de tareas de software (depuración de sistemas complejos, entrenamiento de modelos de aprendizaje automático o detección de vulnerabilidades de seguridad)
Miden cuánto tiempo tarda cada tarea en completarse a un experto humano cualificado y luego prueban a los agentes de IA en esas mismas tareas.
El "horizonte temporal" es una estadística resumida: la duración de la tarea en la que una IA determinada tiene éxito el 50% de las veces. Un modelo con un horizonte temporal de 2 horas completa la mitad de las tareas que a un experto humano le llevarían 2 horas.
METR acaba de informar que Claude Opus 4.6 tiene un horizonte temporal del 50% de ~14,5 horas, lo cual, por supuesto, sería increíblemente impresionante...
¡pero METR nos dice que tengamos cuidado!
Hay un problema estadístico. Simplemente no quedan suficientes tareas difíciles para anclar el extremo superior de la curva y los modelos frontera ahora tienen éxito en casi todo en el conjunto de tareas.
Así que, pequeñas variaciones aleatorias en los resultados están inclinando la estimación de forma drástica:
El intervalo de confianza del 95% abarca entre 6 y 98 horas, lo que claramente es un rango poco fiable para que cualquiera pueda sacar conclusiones.
El propio METR está trabajando en nuevos métodos para medir a este nivel, así que reducir un poco las expectativas :)
Populares
Ranking
Favoritas
