Thật lòng mà nói, một hội đồng người dùng mạnh mẽ theo kiểu Consumer Reports có thể tốt hơn METR v.v. trong việc đo lường tiến bộ của AI, vì nó có khả năng chống lại sự biến động tốt hơn nhiều. Không có ý định nghe có vẻ hoài nghi, với tư cách là một người dùng mạnh mẽ, tôi nghĩ rằng đã có sự tiến bộ rất đáng chú ý trong vài tháng qua, nếu có thể nói như vậy.