Trendaavat aiheet
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Valjaat
Meta-benchmark-idea: Kokoelma perusagenttivaljakkoja (AGENTS.md, dokumentaatiot, taidot, koukut), jotka kapseloivat ei-triviaalit sovellukset, joista jokaisella on yksi kehotus muokata sovellus kerralla alusta alkaen. Kun uusia koodausagentteja tai malleja tulee markkinoille, voimme käyttää johtoa vastaan ja verrata suoraan aiempiin malliversioihin. "Tämä malli kirjoitti selaimen alusta alkaen tavallisesta selainsarjasta, jossa ominaisuuksien täydellisyys oli X% ja vain Y koodiriviä Z-tunnissa $XYZ."
Kuvittele, että näet selaimen Cursorin kehittyvän jokaisen seuraavan mallipäivityksen kautta. Kuinka hyvä koodi oli? Kuinka nopea renderöinti oli? Kuinka kattava ominaisuusvalikoima oli? Kuinka kauan agentin piti toimia? Mikä oli tokenien kokonaiskustannus?
Eräänlainen CSS Zen Garden (joka on tehnyt paljon selaimen standardien edistämiseksi) agenttivaljusteille.
Minusta tuntuu, että me kaikki olemme kokeneet eron Codex 5.4 Extra Highissa (jos ei, lopeta tämän postauksen lukeminen ja kokeile heti), mutta meillä ei vieläkään ole keinoa tallentaa benchmarkissa laadullista kokemusta sen kehittäjänä, erityisesti arkkitehtuurin ja koodin laadun kaltaisissa mittareissa.
Johtavat
Rankkaus
Suosikit
