Актуальные темы
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Этот график тихо показывает вам новую стратегию для компаний по разработке ИИ-кода, и никто об этом не говорит.
Cognition и Cursor обе начали как обертки, работающие на Claude и GPT. Теперь посмотрите на этот бенчмарк. SWE-1.6 от Cognition на уровне 51.7%. Composer-1.5 от Cursor на уровне 50.8%. Оба находятся в пределах досягаемости Claude Opus 4.6 на уровне 53.6% и GPT-5.3-Codex на уровне 56.8%.
Ни одна из компаний не обучала базовую модель с нуля. Обе взяли открытые базовые модели и применили обучение с подкреплением в реальных условиях кодирования. Swyx из Cognition прямо сказал это на Hacker News: "качества базовой модели становятся все менее важными, если она достаточно хороша, потому что затем RL и постобучение берут на себя и являются всей точкой дифференциации."
Вот в чем суть. Базовая модель — это товар. Пайплайн RL, обученный на вашем конкретном агенте, ваших паттернах использования инструментов, ваших реальных пользовательских сессиях — это защищаемый слой. Cognition обучила SWE-1.6 на своем Cascade harness с двумя порядками величины большими вычислениями RL, чем SWE-1.5. Cursor обучила Composer в живых IDE-средах с редактированием файлов, семантическим поиском и терминальными командами. Оба совместно разработали модель и продукт.
Математика скачка рассказывает историю. SWE-1.5 набрала 40.1%. SWE-1.6 набирает 51.7%. Одна и та же базовая модель. Один и тот же 950 ток/с вывод на Cerebras. Вся 11.6-пунктовая улучшение произошло благодаря лучшим рецептам RL и большему количеству вычислений. Это более высокая скорость улучшения, чем у большинства лабораторий, занимающихся обучением базовых моделей, от масштабирования предобучения.
Это две компании стоимостью более 10 миллиардов долларов (Cognition на 10.2 миллиарда долларов, Cursor на 29.3 миллиарда долларов), независимо приходящие к одному и тому же выводу: вам не нужно строить GPT-5, чтобы конкурировать с GPT-5 в кодировании. Вам нужно RL в масштабе на основе достаточно хорошей модели, совместно разработанной с вашей инфраструктурой агента.
Слой скорости тоже важен. Cognition работает на 950 ток/с через Cerebras. Composer работает на 250 ток/с. В агентских рабочих процессах, где модель выполняет десятки итераций за задачу, этот разрыв в 4 раза накапливается в значительно разных пользовательских опытах. Cognition ставит на то, что скорость плюс точность превосходит только точность.
Вопрос, который должен беспокоить OpenAI и Anthropic: если две стартап-компании могут приблизиться к вашим лучшим моделям на 5 пунктов, используя RL на открытых базах, что произойдет, когда открытые базы станут лучше? Каждое улучшение Llama или Qwen напрямую попадает в пайплайн Cognition и Cursor. Фондовые лаборатории по сути субсидируют свою собственную конкуренцию.
Топ
Рейтинг
Избранное
