To bych moc rád! V roce 2024 jsem se snažil financovat průzkum pro pokročilé uživatele, ale vedoucí projektu nakonec převzal jinou roli, stále si myslím, že by to bylo skvělé. Jednou z výzev je, že nejvíc mi teď záleží na pokročilých uživatelích jsou zaměstnanci AI firem a může být těžké od nich získat podrobné informace
Upřímně, panel pokročilých uživatelů ve stylu Consumer Reports by mohl být lepší než METR atd. pro měření pokroku AI, mnohem odolnější vůči špičkám.
Nechci znít skepticky, jako zkušený uživatel si myslím, že za posledních pár měsíců byl opravdu znatelný pokrok.
Nový příspěvek: 14. ledna jsem předpověděl, že časový horizont SWE do EOY bude ~24 hodin. Teď si myslím, že to bude >100 hodin a možná i neomezené. Poprvé letos nevidím pevné důkazy proti automatizaci výzkumu a vývoje AI. Odkaz níže.
Pojď pracovat se mnou! METR hledá inženýry, vědce a ředitele provozu. Odkazy na otevřené příspěvky ve vlákně, a klidně mi napište do zpráv, pokud máte otázky!
Náš tým je momentálně přetížený!
Abychom mohli nadále rozšiřovat autonomii AI agentů a vyvíjet hodnocení pro monitorování AI systémů a jejich tendence podkopávat lidskou kontrolu, potřebujeme více skvělých inženýrských a výzkumných pracovníků. Prosím, přihlaste se níže nebo mi napište do zpráv!