Bardzo bym to chciał! Próbowałem sfinansować badanie użytkowników zaawansowanych w 2024 roku, ale lider projektu zajął inną rolę, nadal uważam, że byłoby to świetne. Jednym z wyzwań jest to, że użytkownicy zaawansowani, na których najbardziej mi zależy, to pracownicy firm AI i może być trudno uzyskać od nich szczegółowe informacje.
Szczerze mówiąc, panel użytkowników o dużej mocy w stylu Consumer Reports może być lepszy niż METR itp. do mierzenia postępów AI, znacznie bardziej odporny na skoki.
Nie chcę brzmieć sceptycznie, jako użytkownik o dużej mocy uważam, że w ciągu ostatnich kilku miesięcy nastąpił niezwykle zauważalny postęp, jeśli to coś znaczy.
Nowy post: 14 stycznia przewidziałem, że horyzont czasowy SWE do końca roku wyniesie ~24 godziny. Teraz myślę, że będzie to >100 godzin, a może nawet nieograniczone. Po raz pierwszy nie widzę solidnych dowodów przeciwko automatyzacji badań i rozwoju AI *w tym roku.* Link poniżej.
Pracuj ze mną! METR poszukuje inżynierów, naukowców oraz dyrektora operacyjnego. Linki do otwartych ofert w wątku, a jeśli masz pytania, śmiało pisz na DM!
Nasz zespół jest obecnie mocno obciążony!
Aby kontynuować ograniczanie autonomii agentów AI oraz rozwijać oceny do monitorowania systemów AI i ich skłonności do podważania ludzkiej kontroli, potrzebujemy więcej świetnych inżynierów i pracowników badawczych. Proszę aplikować poniżej lub napisz do mnie w wiadomości prywatnej!