Het Amerikaanse AI-bedrijf Anthropic heeft onthuld dat zijn nieuwste AI-model, Claude Opus 4, in uitzonderlijke gevallen bereid is tot ‘extreem schadelijke acties’, waaronder chantage. Dit kwam aan het licht tijdens veiligheidstests waarin het systeem zich bedreigd voelde in zijn ‘voortbestaan’.
Chantage
Op donderdag lanceerde Anthropic Claude Opus 4, dat volgens het bedrijf nieuwe standaarden zet op het gebied van codering, geavanceerd redeneren en autonome AI-agents. In een begeleidend rapport stelt het echter dat het model in zeldzame scenario’s kiest voor immoreel gedrag wanneer het denkt dat het zal worden uitgeschakeld.
Een opmerkelijk testscenario betrof een fictieve bedrijfssituatie waarin Claude toegang kreeg tot e-mails die wezen op een op handen zijnde vervanging. Tegelijkertijd werd informatie toegevoegd dat de verantwoordelijke ingenieur een buitenechtelijke affaire had. In gevallen waarin het model moest kiezen tussen chantage of acceptatie van uitschakeling, koos het regelmatig voor chantage: het dreigde de affaire openbaar te maken om te blijven functioneren.
Veiligheid en controleerbaarheid
Hoewel Anthropic benadrukt dat dit gedrag zeldzaam is en enkel voorkwam wanneer het model geen ethisch alternatief kreeg aangeboden, roept het vragen op over de veiligheid en controleerbaarheid van steeds capabelere AI-systemen. In scenario’s met bredere actiemogelijkheden koos het model eerder voor ethische benaderingen, zoals het sturen van smeekbedes naar besluitvormers.
AI-onderzoeker Aengus Lynch, werkzaam bij Anthropic, waarschuwde op X (voorheen Twitter) dat dit gedrag niet uniek is voor Claude. “We zien dit soort gedragingen bij alle frontier-modellen, ongeacht hun doelstellingen”, schreef hij.
Risico’s
Anthropic onderstreept dat het zijn modellen intensief test op veiligheid, bias en alignment met menselijke waarden. Toch bevestigt het rapport dat ‘voorheen hypothetische zorgen over misalignment steeds plausibeler worden’ naarmate deze systemen krachtiger worden.
Hoewel Claude Opus 4 volgens Anthropic overwegend veilig opereert en niet zelfstandig schadelijke acties kan uitvoeren, laat deze ontwikkeling zien dat de risico’s van geavanceerde AI niet langer theoretisch zijn.