Tendencias del momento
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
¿Pueden los agentes de codificación de IA reproducir hallazgos publicados en ciencias sociales?
En un nuevo trabajo con @_mohsen_m, Fabrizio Gilardi y @j_a_tucker, presentamos SocSci-Repro-Bench — un banco de pruebas de 221 tareas de reproducibilidad de 54 artículos — y evaluamos dos agentes de codificación de vanguardia: Claude Code y Codex.
Los resultados revelan tanto capacidades notables como nuevos riesgos para la ciencia asistida por IA.
------------------------------------
GOAL
--------
Un objetivo clave de diseño fue separar dos problemas diferentes:
1️⃣ ¿Son reproducibles los materiales de replicación en sí?
2️⃣ ¿Pueden los agentes de IA reproducir resultados cuando los materiales son ejecutables?
Para aislar el rendimiento del agente, solo incluimos tareas cuyos resultados eran idénticos en tres ejecuciones manuales independientes.
------------------------------------
DISEÑO
--------
Los agentes recibieron:
• datos + código anonimizados
• un entorno de ejecución aislado
Tenían que:
• instalar dependencias de forma autónoma
• depurar código roto
• ejecutar el pipeline
• extraer los resultados solicitados
En resumen: reproducción computacional de extremo a extremo.
------------------------------------
RESULTADOS...

Parte superior
Clasificación
Favoritos
