Честно говоря, панель опытных пользователей в стиле Consumer Reports может быть лучше, чем METR и т. д., для измерения прогресса в области ИИ, она гораздо более устойчива к резким изменениям. Не хочу звучать скептически, как опытный пользователь, я думаю, что за последние несколько месяцев был крайне заметный прогресс, если это что-то значит.