Tienda de dapps | Hub de Web3 para eventos y juegos

Temas en tendencia

Este gráfico ya está desactualizado y nadie habla de él. La clasificación muestra "Anthropic Opus 4.5" con un 76,1%. Opus 4.6 se lanzó el 5 de febrero, un día después de que Perplexity publicara estos resultados. Las propias notas de Anthropic dicen que Opus 4.6 "mejora tanto BrowseComp como DeepSearchQA." En BrowseComp, esa mejora fue de 16 puntos porcentuales (67,8% frente a 84,0%). Aún no tenemos la cifra de DeepSearchQA, pero si el salto es siquiera la mitad, el Opus 4.6 independiente estaría por encima del 79,5% de Perplexity. Aquí es donde se pone interesante. Advanced Deep Research de Perplexity ejecuta todas las consultas en Opus 4.5. Eso lo confirma su propio comunicado. Opus 4.6 ya está disponible en la API de Perplexity para Comet, pero Deep Research aún no ha cambiado de servicio. Así que el resultado "de última generación" que Kobeissi califica como noticia de última hora se comparó con un modelo que fue superado 24 horas después. El encuadre de "Perplejidad vence a Anthropic" también oculta el hecho de que el motor de Perplexity SÍ es Anthropic. Cada consulta de Advanced Deep Research ejecuta Opus 4.5 mediante el arnés de búsqueda agente de Perplexity. Anthropic es la base. La perplejidad es el andamio. La diferencia de 3,4 puntos entre ellos (79,5% frente a 76,1%) es el valor de la canalización de recuperación de Perplexity sobre el razonamiento de Anthropic. Tres cosas están a punto de suceder. Anthropic presenta Opus 4.6 a la clasificación. Perplejidad mejora Deep Research de 4.5 a 4.6. Y todo este gráfico se reorganiza en cuestión de semanas. Compartir una instantánea de una carrera de referencia en plena zancada y llamarla "breaking" es la forma en que consigues 186.000 vistas y cero información.

Populares

Ranking

Favoritas