¿Pueden los agentes de codificación de IA reproducir hallazgos publicados en ciencias sociales? En un nuevo trabajo con @_mohsen_m, Fabrizio Gilardi y @j_a_tucker, presentamos SocSci-Repro-Bench — un banco de pruebas de 221 tareas de reproducibilidad de 54 artículos — y evaluamos dos agentes de codificación de vanguardia: Claude Code y Codex. Los resultados revelan tanto capacidades notables como nuevos riesgos para la ciencia asistida por IA. ------------------------------------ GOAL -------- Un objetivo clave de diseño fue separar dos problemas diferentes: 1️⃣ ¿Son reproducibles los materiales de replicación en sí? 2️⃣ ¿Pueden los agentes de IA reproducir resultados cuando los materiales son ejecutables? Para aislar el rendimiento del agente, solo incluimos tareas cuyos resultados eran idénticos en tres ejecuciones manuales independientes. ------------------------------------ DISEÑO -------- Los agentes recibieron: • datos + código anonimizados • un entorno de ejecución aislado Tenían que: • instalar dependencias de forma autónoma • depurar código roto • ejecutar el pipeline • extraer los resultados solicitados En resumen: reproducción computacional de extremo a extremo. ------------------------------------ RESULTADOS...