Exponentiale verbeteringen* overal voor degenen die de ogen hebben om ze te zien. Dit is een coole benchmark, en was onmogelijk voor vroege niet-redenerende LLM's om überhaupt te doen. * Oké, technisch gezien "logistische verbetering" omdat de maximale score begrensd is op 100 (en logistisch heeft een lagere AIC)