这很不错。为LLMs提供一个玩Magic的工具,带有录制的游戏和排行榜。 他们的表现,正如预期的那样,完全糟糕。但前沿模型确实在排行榜上名列前茅,所以这里有一些信号!