DApp Store | Sede de Web3 para eventos y juegos

Tendencias del momento

Este gráfico te está mostrando en silencio el nuevo manual para las empresas de codificación de IA y nadie está hablando de ello. Cognition y Cursor comenzaron como envoltorios que funcionaban sobre Claude y GPT. Ahora mira este punto de referencia. SWE-1.6 de Cognition al 51.7%. Composer-1.5 de Cursor al 50.8%. Ambos están a una distancia alcanzable de Claude Opus 4.6 al 53.6% y GPT-5.3-Codex al 56.8%. Ninguna de las dos empresas entrenó un modelo base desde cero. Ambas tomaron modelos base de código abierto y aplicaron aprendizaje por refuerzo en entornos de codificación reales. Swyx de Cognition lo dijo directamente en Hacker News: “cada vez es menos importante la calidad del modelo base siempre que sea lo suficientemente bueno, porque entonces el RL y el post-entrenamiento toman el control y son el punto de diferenciación completo.” Esa es la tesis. El modelo base es una mercancía. La tubería de RL entrenada en tu arnés de agente específico, tus patrones de uso de herramientas, tus sesiones de usuario reales es la capa defensible. Cognition entrenó SWE-1.6 en su arnés Cascade con dos órdenes de magnitud más de computación de RL que SWE-1.5. Cursor entrenó Composer dentro de entornos IDE en vivo con edición de archivos, búsqueda semántica y comandos de terminal. Ambos co-diseñaron el modelo y el producto juntos. Las matemáticas sobre el salto cuentan la historia. SWE-1.5 obtuvo un 40.1%. SWE-1.6 obtiene un 51.7%. Mismo modelo base. Mismo 950 tok/s de inferencia en Cerebras. La mejora total de 11.6 puntos provino de mejores recetas de RL y más computación. Esa es una tasa de mejora más rápida que la que la mayoría de los laboratorios de modelos base están obteniendo de la escalabilidad del pre-entrenamiento. Estas son dos empresas de más de $10B (Cognition a $10.2B, Cursor a $29.3B) convergiendo independientemente en la misma conclusión: no necesitas construir GPT-5 para competir con GPT-5 en codificación. Necesitas RL a gran escala sobre una base lo suficientemente buena, co-diseñada con tu infraestructura de agente. La capa de velocidad también importa. Cognition funciona a 950 tok/s a través de Cerebras. Composer funciona a 250 tok/s. En flujos de trabajo agenciales donde el modelo se repite docenas de veces por tarea, esa brecha de velocidad de 4x se traduce en experiencias de usuario significativamente diferentes. Cognition está apostando a que la velocidad más la precisión supera a la precisión sola. La pregunta que debería preocupar a OpenAI y Anthropic: si dos startups pueden acercarse a 5 puntos de tus mejores modelos usando RL sobre bases de código abierto, ¿qué pasará cuando las bases de código abierto mejoren? Cada mejora a Llama o Qwen fluye directamente hacia la tubería de Cognition y Cursor. Los laboratorios de modelos base están esencialmente subsidiando su propia competencia.

Parte superior

Clasificación

Favoritos