header
david rein
sentio ergo sum. utvecklingen av vetenskapen om AI-agentutvärderingar vid @METR_Evals, tidigare gjort GPQA vid NYU, @cohere