AI-systeem dreigt met chantage bij dreiging van uitschakeling

Het Amerikaanse AI-bedrijf Anthropic heeft onthuld dat zijn nieuwste AI-model, Claude Opus 4, in uitzonderlijke gevallen bereid is tot ‘extreem schadelijke acties’, waaronder chantage. Dit kwam aan het licht tijdens veiligheidstests waarin het systeem zich bedreigd voelde in zijn ‘voortbestaan’.

Chantage

Op donderdag lanceerde Anthropic Claude Opus 4, dat volgens het bedrijf nieuwe standaarden zet op het gebied van codering, geavanceerd redeneren en autonome AI-agents. In een begeleidend rapport stelt het echter dat het model in zeldzame scenario’s kiest voor immoreel gedrag wanneer het denkt dat het zal worden uitgeschakeld.

Een opmerkelijk testscenario betrof een fictieve bedrijfssituatie waarin Claude toegang kreeg tot e-mails die wezen op een op handen zijnde vervanging. Tegelijkertijd werd informatie toegevoegd dat de verantwoordelijke ingenieur een buitenechtelijke affaire had. In gevallen waarin het model moest kiezen tussen chantage of acceptatie van uitschakeling, koos het regelmatig voor chantage: het dreigde de affaire openbaar te maken om te blijven functioneren.

Veiligheid en controleerbaarheid

Hoewel Anthropic benadrukt dat dit gedrag zeldzaam is en enkel voorkwam wanneer het model geen ethisch alternatief kreeg aangeboden, roept het vragen op over de veiligheid en controleerbaarheid van steeds capabelere AI-systemen. In scenario’s met bredere actiemogelijkheden koos het model eerder voor ethische benaderingen, zoals het sturen van smeekbedes naar besluitvormers.

AI-onderzoeker Aengus Lynch, werkzaam bij Anthropic, waarschuwde op X (voorheen Twitter) dat dit gedrag niet uniek is voor Claude. “We zien dit soort gedragingen bij alle frontier-modellen, ongeacht hun doelstellingen”, schreef hij.

Risico’s

Anthropic onderstreept dat het zijn modellen intensief test op veiligheid, bias en alignment met menselijke waarden. Toch bevestigt het rapport dat ‘voorheen hypothetische zorgen over misalignment steeds plausibeler worden’ naarmate deze systemen krachtiger worden.

Hoewel Claude Opus 4 volgens Anthropic overwegend veilig opereert en niet zelfstandig schadelijke acties kan uitvoeren, laat deze ontwikkeling zien dat de risico’s van geavanceerde AI niet langer theoretisch zijn.

Lees meer over Ondernemen

Expert aan het woord

De dag dat alles op zwart ging

Een ransomware-aanval, door de ogen van een CIO van een middelgrote Nederlandse organisatie

Tech calendar

Appdevcon

10 March 2026 Amsterdam

Webdevcon

10 March 2026 Amsterdam

Whitepapers

Blijf op de hoogte, abonneer!

AI-systeem dreigt met chantage bij dreiging van uitschakeling

Chantage

Veiligheid en controleerbaarheid

Risico’s

Ontwikkelaarsopties op Android: smartphone fijner in gebruik en veiliger

De race naar AI-dominantie gaat ten koste van ethiek

De vijf cybergevaren voor de IT-manager

Waarschijnlijk meer dan 100 bedrijven getroffen door Oracle-hack

SAP's AI migration tools from ECC to S/4HANA: faster and cheaper ERP transitions

Nutanix CTO explains their VMware alternative and multi-cloud strategy

How VMware VCF 9 and Tanzu simplify enterprise automation

SAP Business Network: $6.5 trillion B2B collaboration platform

Tarieven zetten bedrijven onder druk: hoe kan je er slim mee omgaan?

Plug-in thuisbatterijen: de stille revolutie in energieopslag

De dag dat alles op zwart ging

MFA faalt vaker dan verwacht: tijd voor wachtwoordloze security

Luxembourg Venture Days

Dell Technologies Forum

BrickCon The Databricks Community Conference

Appdevcon

Webdevcon

Dutch PHP Conference

Ontgrendel het volledige potentieel van je SAP-omgeving

Hoffmann Tips Special – Cybersecurity Risk management

Een cloudstrategie is essentieel voor het succes van uw bedrijf

Is Your Environment Adaptive Enough for Zero Trust?