Eerlijk gezegd zou een panel van power users in de stijl van Consumer Reports beter kunnen zijn dan METR enz. voor het meten van AI-vooruitgang, veel robuuster tegen schommelingen. Het is niet bedoeld om sceptisch te klinken, als power user denk ik dat er de afgelopen maanden extreem merkbare vooruitgang is geweest, voor zover dat helpt.