大型语言模型在下棋方面变得越来越出色。这种事情对我来说比我看到的大多数流行基准有趣得多。