Popularne tematy
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Wykorzystanie
Pomysł na meta-benchmark: Kolekcja podstawowych harnessów agentów (AGENTS.md, dokumentacja, umiejętności, haki), które kapsułkują nietrywialne aplikacje, każda z pojedynczym promptem do terraformowania aplikacji w jednym kroku, zaczynając od zera. Gdy pojawią się nowe agenty kodujące lub modele, możemy uruchomić je przeciwko harnessowi, aby bezpośrednio porównać z poprzednimi wersjami modeli. „Ten model napisał przeglądarkę od podstaw z standardowego harnessu przeglądarki z X% kompletnością funkcji i tylko Y liniami kodu w Z godzin za $XYZ.”
Wyobraź sobie, że widzisz tę przeglądarkę, którą rozwijał Cursor, przez pryzmat każdej kolejnej aktualizacji modelu. Jak dobra był kod? Jak szybki był renderer? Jak kompletny był zestaw funkcji? Jak długo agent musiał działać? Jaki był całkowity koszt tokenów?
Rodzaj CSS Zen Garden (który bardzo przyczynił się do rozwoju standardów przeglądarek) dla harnessów agentów.
Czuję, że wszyscy doświadczyliśmy różnicy w Codex 5.4 Extra High (jeśli nie, przestań czytać ten post i spróbuj tego natychmiast), ale wciąż nie mamy sposobu na uchwycenie w benchmarku jakościowego doświadczenia korzystania z tego jako deweloper, szczególnie w odniesieniu do miar takich jak architektura i jakość kodu.
Najlepsze
Ranking
Ulubione
