Магазин DApp | Web3-центр мероприятий и игр

Актуальные темы

Этот график уже устарел, и никто о нем не говорит. Таблица лидеров показывает "Anthropic Opus 4.5" на уровне 76.1%. Opus 4.6 был запущен 5 февраля, за день до того, как Perplexity опубликовал эти результаты. В собственных примечаниях к релизу Anthropic говорится, что Opus 4.6 "улучшает как BrowseComp, так и DeepSearchQA." В BrowseComp это улучшение составило 16 процентных пунктов (с 67.8% до 84.0%). У нас еще нет данных по DeepSearchQA, но если скачок будет хотя бы наполовину таким же, то Opus 4.6 в одиночку будет выше 79.5% Perplexity. Вот где становится интересно. Расширенный глубокий поиск Perplexity выполняет каждый запрос на Opus 4.5. Это подтверждено в их собственном объявлении. Opus 4.6 уже доступен в API Perplexity для Comet, но Глубокий Поиск еще не переключился. Таким образом, "современный" результат, который Кобейси называет сенсацией, был оценен по модели, которая была заменена через 24 часа. Формулировка "Perplexity обходит Anthropic" также скрывает тот факт, что движок Perplexity - это и есть Anthropic. Каждый запрос Расширенного Глубокого Поиска проходит через Opus 4.5 с помощью агентного поискового механизма Perplexity. Anthropic - это основа. Perplexity - это каркас. Разница в 3.4 пункта между ними (79.5% против 76.1%) - это ценность системы извлечения Perplexity поверх рассуждений Anthropic. Три вещи вот-вот произойдут. Anthropic отправит Opus 4.6 в таблицу лидеров. Perplexity обновит Глубокий Поиск с 4.5 до 4.6. И весь этот график будет перетасован в течение нескольких недель. Делая снимок бенчмарка в разгар гонки и называя это "сенсацией", вы получаете 186K просмотров и ноль инсайтов.

Топ

Рейтинг

Избранное