Магазин DApp | Web3-центр мероприятий и игр

Актуальные темы

Этот график тихо показывает вам новую стратегию для компаний по разработке ИИ-кода, и никто об этом не говорит. Cognition и Cursor обе начали как обертки, работающие на Claude и GPT. Теперь посмотрите на этот бенчмарк. SWE-1.6 от Cognition на уровне 51.7%. Composer-1.5 от Cursor на уровне 50.8%. Оба находятся в пределах досягаемости Claude Opus 4.6 на уровне 53.6% и GPT-5.3-Codex на уровне 56.8%. Ни одна из компаний не обучала базовую модель с нуля. Обе взяли открытые базовые модели и применили обучение с подкреплением в реальных условиях кодирования. Swyx из Cognition прямо сказал это на Hacker News: "качества базовой модели становятся все менее важными, если она достаточно хороша, потому что затем RL и постобучение берут на себя и являются всей точкой дифференциации." Вот в чем суть. Базовая модель — это товар. Пайплайн RL, обученный на вашем конкретном агенте, ваших паттернах использования инструментов, ваших реальных пользовательских сессиях — это защищаемый слой. Cognition обучила SWE-1.6 на своем Cascade harness с двумя порядками величины большими вычислениями RL, чем SWE-1.5. Cursor обучила Composer в живых IDE-средах с редактированием файлов, семантическим поиском и терминальными командами. Оба совместно разработали модель и продукт. Математика скачка рассказывает историю. SWE-1.5 набрала 40.1%. SWE-1.6 набирает 51.7%. Одна и та же базовая модель. Один и тот же 950 ток/с вывод на Cerebras. Вся 11.6-пунктовая улучшение произошло благодаря лучшим рецептам RL и большему количеству вычислений. Это более высокая скорость улучшения, чем у большинства лабораторий, занимающихся обучением базовых моделей, от масштабирования предобучения. Это две компании стоимостью более 10 миллиардов долларов (Cognition на 10.2 миллиарда долларов, Cursor на 29.3 миллиарда долларов), независимо приходящие к одному и тому же выводу: вам не нужно строить GPT-5, чтобы конкурировать с GPT-5 в кодировании. Вам нужно RL в масштабе на основе достаточно хорошей модели, совместно разработанной с вашей инфраструктурой агента. Слой скорости тоже важен. Cognition работает на 950 ток/с через Cerebras. Composer работает на 250 ток/с. В агентских рабочих процессах, где модель выполняет десятки итераций за задачу, этот разрыв в 4 раза накапливается в значительно разных пользовательских опытах. Cognition ставит на то, что скорость плюс точность превосходит только точность. Вопрос, который должен беспокоить OpenAI и Anthropic: если две стартап-компании могут приблизиться к вашим лучшим моделям на 5 пунктов, используя RL на открытых базах, что произойдет, когда открытые базы станут лучше? Каждое улучшение Llama или Qwen напрямую попадает в пайплайн Cognition и Cursor. Фондовые лаборатории по сути субсидируют свою собственную конкуренцию.

Топ

Рейтинг

Избранное