¡Autoresearch para la eficiencia de muestras! Tomé el autoresearch de @karpathy y cambié el objetivo a minimizar la pérdida de validación para un presupuesto fijo de 10 millones de tokens. Lo ejecuté durante la noche y el sistema descubrió ajustes que llevaron a una mejora del 14% sobre la línea base. ¡Es una locura!
Qué funcionó y qué no.
141