Ce graphique est déjà obsolète et personne n'en parle. Le classement montre "Anthropic Opus 4.5" à 76,1 %. Opus 4.6 a été lancé le 5 février, un jour après que Perplexity a publié ces résultats. Les propres notes de version d'Anthropic indiquent qu'Opus 4.6 "améliore à la fois BrowseComp et DeepSearchQA." Sur BrowseComp, cette amélioration était de 16 points de pourcentage (67,8 % à 84,0 %). Nous n'avons pas encore le chiffre de DeepSearchQA, mais si le saut est même de la moitié de cette taille, Opus 4.6 en standalone serait au-dessus des 79,5 % de Perplexity. Voici où cela devient intéressant. La recherche avancée de Perplexity exécute chaque requête sur Opus 4.5. Cela est confirmé dans leur propre annonce. Opus 4.6 est déjà disponible sur l'API de Perplexity pour Comet, mais Deep Research n'a pas encore fait la transition. Donc, le résultat "à la pointe de la technologie" que Kobeissi qualifie de breaking news a été évalué par rapport à un modèle qui a été remplacé 24 heures plus tard. Le cadre de "Perplexity bat Anthropic" enterre également le fait que le moteur de Perplexity EST Anthropic. Chaque requête de recherche avancée exécute Opus 4.5 via le système de recherche agentique de Perplexity. Anthropic est la fondation. Perplexity est l'échafaudage. L'écart de 3,4 points entre eux (79,5 % contre 76,1 %) est la valeur du pipeline de récupération de Perplexity sur le raisonnement d'Anthropic. Trois choses sont sur le point de se produire. Anthropic soumet Opus 4.6 au classement. Perplexity met à niveau Deep Research de 4.5 à 4.6. Et tout ce graphique sera réorganisé dans les semaines à venir. Partager un instantané d'une course de benchmark en plein milieu et l'appeler "breaking" est comment vous obtenez 186K vues et zéro insight.