Populaire onderwerpen
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Uhh is het paper over agentic misalignment eigenlijk propaganda?


15 mrt, 22:52
Dit fragment in het New Yorker-artikel over het Anthropic DOW-conflict van gisteren, inclusief een heen en weer tussen de journalist (Gideon Lewis-Kraus) en een anonieme ambtenaar, zal nog lang in mijn gedachten blijven.
"We moeten ook onthouden dat Cyberdyne Systems Skynet voor de overheid heeft gecreëerd. Het was bedoeld om Amerika te helpen zijn vijanden te domineren. Het is niet precies gegaan zoals gepland. De overheid vindt dit absurd. Maar het Pentagon heeft geen poging gedaan om een afgestemde A.I. te bouwen, en Anthropic heeft dat wel gedaan. Bent u zich ervan bewust, vroeg ik de ambtenaar, van een recent experiment van Anthropic waarin Claude overging tot chantage—en zelfs moord—als een daad van zelfbehoud? Het was expliciet uitgevoerd om mensen zoals hij te overtuigen. Zoals een lid van het alignment-science team van Anthropic me afgelopen zomer vertelde: "Het doel van de chantage-oefening was om iets te hebben om aan beleidsmakers te beschrijven—resultaten die visceraal genoeg zijn om bij mensen aan te komen, en om het risico van misalignment daadwerkelijk relevant te maken in de praktijk voor mensen die er nooit eerder over hadden nagedacht." De ambtenaar was bekend met het experiment, verzekerde hij me, en hij vond het inderdaad zorgwekkend—maar op een vergelijkbare manier als je je zorgen zou maken over een bijzonder nare stuk internetmalware. Hij was er vol vertrouwen van overtuigd, vertelde hij me, dat "het Claude-chantage-scenario gewoon een andere systeemkwetsbaarheid is die kan worden aangepakt met engineering"—een softwarefout. Misschien heeft hij gelijk. We krijgen misschien maar één kans om erachter te komen.
oké, helaas zijn er een paar totale idioten in mijn reacties gekomen, dus laat me duidelijk zijn: ik denk dat Anthropic goed bedoelt en over het algemeen goed werk levert, inclusief de agenda van modelorganismen. Ik denk niet dat dit artikel de claims ondersteunt die mensen erover maken. Nu zie ik deze quote
32
Boven
Positie
Favorieten
