Cửa hàng DApp | Trung tâm Web3 với các sự kiện và trò chơi

Chủ đề thịnh hành

Biểu đồ này đang âm thầm cho bạn thấy sách hướng dẫn mới cho các công ty lập trình AI và không ai đang nói về nó. Cognition và Cursor đều bắt đầu như những lớp bọc chạy trên Claude và GPT. Bây giờ hãy nhìn vào chỉ số này. SWE-1.6 của Cognition đạt 51.7%. Composer-1.5 của Cursor đạt 50.8%. Cả hai đều ở trong tầm với của Claude Opus 4.6 đạt 53.6% và GPT-5.3-Codex đạt 56.8%. Không công ty nào đã đào tạo một mô hình nền từ đầu. Cả hai đều lấy các mô hình cơ sở mã nguồn mở và áp dụng học tăng cường trong các môi trường lập trình thực tế. Swyx của Cognition đã nói rõ điều này trên Hacker News: “các đặc điểm của mô hình cơ sở ngày càng ít quan trọng miễn là nó đủ tốt, vì sau đó RL và đào tạo sau sẽ chiếm ưu thế và là toàn bộ điểm khác biệt.” Đó là luận điểm. Mô hình cơ sở là hàng hóa. Quy trình RL được đào tạo trên dây chuyền cụ thể của bạn, các mẫu sử dụng công cụ của bạn, các phiên người dùng thực tế của bạn là lớp bảo vệ. Cognition đã đào tạo SWE-1.6 trên dây chuyền Cascade của họ với hai bậc độ tính toán RL nhiều hơn SWE-1.5. Cursor đã đào tạo Composer trong các môi trường IDE trực tiếp với chỉnh sửa tệp, tìm kiếm ngữ nghĩa và lệnh terminal. Cả hai đã cùng thiết kế mô hình và sản phẩm. Phép toán về sự nhảy vọt kể câu chuyện. SWE-1.5 đạt 40.1%. SWE-1.6 đạt 51.7%. Cùng một mô hình cơ sở. Cùng 950 tok/s suy diễn trên Cerebras. Toàn bộ sự cải thiện 11.6 điểm đến từ các công thức RL tốt hơn và nhiều tính toán hơn. Đó là tỷ lệ cải thiện nhanh hơn so với hầu hết các phòng thí nghiệm nền tảng đang nhận được từ việc mở rộng đào tạo trước. Đây là hai công ty trị giá trên 10 tỷ đô la (Cognition trị giá 10.2 tỷ đô la, Cursor trị giá 29.3 tỷ đô la) độc lập đi đến cùng một kết luận: bạn không cần phải xây dựng GPT-5 để cạnh tranh với GPT-5 trong lập trình. Bạn cần RL ở quy mô trên một mô hình cơ sở đủ tốt, được thiết kế cùng với cơ sở hạ tầng đại lý của bạn. Lớp tốc độ cũng quan trọng. Cognition chạy ở 950 tok/s qua Cerebras. Composer chạy ở 250 tok/s. Trong các quy trình làm việc đại lý nơi mô hình lặp lại hàng chục lần cho mỗi nhiệm vụ, khoảng cách tốc độ 4x đó tích lũy thành những trải nghiệm người dùng khác biệt có ý nghĩa. Cognition đang đặt cược rằng tốc độ cộng với độ chính xác sẽ vượt trội hơn độ chính xác đơn thuần. Câu hỏi mà OpenAI và Anthropic nên lo lắng: nếu hai công ty khởi nghiệp có thể đạt được trong vòng 5 điểm so với các mô hình tốt nhất của bạn bằng cách sử dụng RL trên các cơ sở mã nguồn mở, điều gì sẽ xảy ra khi các cơ sở mã nguồn mở trở nên tốt hơn? Mọi cải tiến cho Llama hoặc Qwen đều chảy trực tiếp vào quy trình của Cognition và Cursor. Các phòng thí nghiệm nền tảng về cơ bản đang trợ cấp cho chính sự cạnh tranh của họ.

Hàng đầu

Thứ hạng

Yêu thích