DApp Store | Web3 Hub tapahtumille ja peleille

Trendaavat aiheet

.@AnkythShukla teki selkeän eron, jonka useimmat tekoälyrakentajat jättävät huomaamatta. "Arviointi, se voi olla mitä tahansa, eikö? Jos selittäisimme tämän todella yksinkertaisesti, se voisi olla mikä tahansa testi. Se voisi olla yksikkötesti vanhalla kielellä. Se voi olla vain sanojen laskemista. Tai edistyneimmässä muodossa, kuten olemme osoittaneet, se voi olla LLM-tuomari, joka tavallaan toistaa osan siitä inhimillisestä intuitiosta, jonka olemme koodanneet siihen kehotteeseen, jonka näimme." Tämä muuttaa koko tekoälyn arviointikeskustelua. Useimmat joukkueet kuulevat "arvioinnit" ja ajattelevat monimutkaisia LLM-putkia. He pelästyvät. He ohittavat sen. Ne lähetetään ilman mittauksia. Tämän jakson todellisuus @aakashgupta:n podcastissa: > Arviointi voi olla niin yksinkertainen kuin sanamääräfunktio tai yksikkötesti. Aloituskynnys on matala. Sen ohittaminen maksaa korkealta. > LLM-tuomari on edistynyt muoto – se koodaa ihmisen intuition kehotteeseen, joka arvioi tekoälyn tuloksia laajassa mittakaavassa. > Spektri ulottuu deterministisistä kooditarkistuksista subjektiiviseen laadunarviointiin. Molemmat lasketaan. Molemmilla on merkitystä. > Tämä kuvaa suoraan sitä, miksi prototyypit epäonnistuvat suuressa mittakaavassa. @AnkythShukla tunnisti viisi syytä, mutta kaksi niistä nousee esiin: Data drift: tuote on rakennettu yhtä todellisuutta varten. Käyttäjät asuvat toisessa. Ilman jatkuvaa arviointia et koskaan huomaa poikkeamaa. Kustannus: SaaS:lla on lähes nolla rajakustannus per käyttäjä. Tekoäly ei tee niin. Jokainen puhelu maksaa rahaa. Ilman arviointeja, jotka kertovat, mitkä puhelut toimivat ja mitkä menevät hukkaan, kustannukset paisuvat ilman suhteellista arvoa. Johtopäätös: tekoälyarvioinnit eivät ole laadukas ylellisyys. Ne ovat operatiivinen infrastruktuuri, joka määrittää, muuttuuko prototyyppisi tuotteeksi vai tilastoksi 95 %:n epäonnistumisprosentissa.

Johtavat

Rankkaus

Suosikit