DApp Store | Web3 Hub tapahtumille ja peleille

Trendaavat aiheet

Valjaat Meta-benchmark-idea: Kokoelma perusagenttivaljakkoja (AGENTS.md, dokumentaatiot, taidot, koukut), jotka kapseloivat ei-triviaalit sovellukset, joista jokaisella on yksi kehotus muokata sovellus kerralla alusta alkaen. Kun uusia koodausagentteja tai malleja tulee markkinoille, voimme käyttää johtoa vastaan ja verrata suoraan aiempiin malliversioihin. "Tämä malli kirjoitti selaimen alusta alkaen tavallisesta selainsarjasta, jossa ominaisuuksien täydellisyys oli X% ja vain Y koodiriviä Z-tunnissa $XYZ." Kuvittele, että näet selaimen Cursorin kehittyvän jokaisen seuraavan mallipäivityksen kautta. Kuinka hyvä koodi oli? Kuinka nopea renderöinti oli? Kuinka kattava ominaisuusvalikoima oli? Kuinka kauan agentin piti toimia? Mikä oli tokenien kokonaiskustannus? Eräänlainen CSS Zen Garden (joka on tehnyt paljon selaimen standardien edistämiseksi) agenttivaljusteille. Minusta tuntuu, että me kaikki olemme kokeneet eron Codex 5.4 Extra Highissa (jos ei, lopeta tämän postauksen lukeminen ja kokeile heti), mutta meillä ei vieläkään ole keinoa tallentaa benchmarkissa laadullista kokemusta sen kehittäjänä, erityisesti arkkitehtuurin ja koodin laadun kaltaisissa mittareissa.

Johtavat

Rankkaus

Suosikit