Honestamente, um painel de usuários avançados no estilo Consumer Reports pode ser melhor do que o METR, etc., para medir o progresso da IA, muito mais robusto contra espinhos. Não quero soar cético, como usuário avançado acho que houve um progresso extremamente perceptível nos últimos meses, para constar.