Trendande ämnen
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Sele
Meta-benchmarkidé: En samling grundläggande agent-harnesses (AGENTS.md, dokumentation, färdigheter, krokar) som kapslar in icke-triviala applikationer, var och en med en enda prompt för att terraforma applikationen i ett enda försök från början. När nya kodningsagenter eller modeller släpps kan vi köra mot harnessen för att direkt jämföra med tidigare modellversioner. "Denna modell skrev en webbläsare från grunden från standardwebbläsarens smällskap med X% funktionsfullständighet och endast Y rader kod inom Z timmar för $XYZ."
Föreställ dig att se webbläsarens markör utvecklas genom linsen av varje efterföljande modelluppdatering. Hur bra var koden? Hur snabb var renderaren? Hur komplett var funktionsuppsättningen? Hur länge hade agenten på sig att köra? Vad var den totala kostnaden för tokens?
Lite som CSS Zen Garden (som gjorde mycket för att driva webbläsarstandarder framåt) för agentharnesses.
Jag känner att vi alla har upplevt skillnaden i Codex 5.4 Extra High (om inte, sluta läsa det här inlägget och prova direkt), men vi har fortfarande inget sätt att fånga i ett benchmark den kvalitativa upplevelsen av att använda det som utvecklare, särskilt för mått som arkitektur och kodkvalitet.
Topp
Rankning
Favoriter
