Hadde elsket dette! Jeg prøvde å finansiere en undersøkelse av avanserte brukere i 2024, men prosjektlederen endte opp med å ta en annen rolle, og jeg synes fortsatt det hadde vært flott. En utfordring er at de avanserte brukerne jeg bryr meg mest om nå er ansatte i AI-selskaper, og det kan være vanskelig å få detaljert informasjon fra dem
Honestly a Consumer Reports style panel of power users might be better than METR etc. for measuring AI progress, much more robust to spikiness.
Not meant to sound skeptical, as a power user I think there's been extremely noticeable progress over the past few months fwiw.
Nytt innlegg: 14. januar forutsa jeg at SVE-tidshorisonten ved første slutt ville være ~24 timer. Nå tror jeg det blir >100 timer, og kanskje ubegrenset. For første gang ser jeg ikke solide bevis mot AI FoU-automatisering *i år.* Lenke nedenfor.
Kom og jobb med meg! METR søker ingeniører, forskere og en driftsdirektør. Lenker til åpne innlegg i tråden, og ta gjerne kontakt på DM hvis du har spørsmål!
Teamet vårt er strukket tynnt for øyeblikket!
For å fortsette å oppgrense autonomien til AI-agenter, og utvikle evalueringer for overvåking av AI-systemer og deres tilbøyelighet til å undergrave menneskelig kontroll, trenger vi flere dyktige ingeniør- og forskningsansatte. Søk gjerne nedenfor eller send meg en DM!