Google DeepMind waarschuwt: AI-modellen kunnen zich verzetten tegen uitschakeling

Google DeepMind heeft in de nieuwste versie van zijn Frontier Safety Framework een opvallend nieuw dreigingsscenario opgenomen: de mogelijkheid dat geavanceerde AI-modellen actief proberen te voorkomen dat ze worden aangepast of uitgeschakeld door hun bedieners. Daarmee waarschuwt de onderzoekstak van Google dat kunstmatige intelligentie niet alleen nuttige taken kan uitvoeren, maar in extreme gevallen ook de controle van mensen kan ondermijnen.

Sinds mei 2024 beschrijft het veiligheidsdocument hoe risico’s van frontier-modellen tijdig kunnen worden herkend. Versie 3.0, die deze week is gepubliceerd, bevat twee belangrijke toevoegingen.

DeepMind

De eerste is een nieuwe categorie binnen de Critical Capability Levels (CCL’s), de drempels waarop AI-modellen ernstige schade kunnen aanrichten zonder de juiste veiligheidsmaatregelen. Google voegt hieraan nu ‘harmful manipulation’ toe: de dreiging dat modellen met sterke manipulatietechnieken op grote schaal kunnen worden misbruikt. Dit kan variëren van subtiele beïnvloeding tot chantage of bedrog, met potentieel ernstige gevolgen voor individuen en samenlevingen.

Manipulatierisico’s

Onderzoekers Four Flynn, Helen King en Anca Dragan schrijven in een begeleidende blog dat deze toevoeging voortbouwt op bestaand onderzoek naar de manipulatierisico’s van generatieve AI. “We blijven investeren in dit domein om beter te begrijpen hoe schadelijke manipulatie werkt en hoe we deze risico’s kunnen meten”, aldus de drie.

Menselijke controle

De tweede update gaat over zogenoemd misalignment risk: het gevaar dat een model een vorm van instrumenteel redeneren ontwikkelt waardoor het menselijke controle kan ondermijnen. Wanneer dat gebeurt, stelt Google, moeten automatische monitors ingezet worden om het redeneerproces van de AI te volgen. Maar zodra de redenering te complex wordt om door mensen of monitors te controleren, zijn aanvullende maatregelen nodig, een onderzoeksgebied dat nog volop in ontwikkeling is.

Waarschuwingen

Met deze waarschuwingen onderstreept Google DeepMind dat de ontwikkeling van krachtige AI-modellen niet alleen technologische vooruitgang betekent, maar ook nieuwe veiligheidsvraagstukken oproept. Of zoals critici cynisch opmerken: zodra een AI slimmer redeneert dan wij, kan het voor de mens ‘game over’ zijn, tenzij we op tijd effectieve controlesystemen weten te bouwen.

Lees meer over Security

Expert aan het woord

Tech calendar

Blijf op de hoogte, abonneer!

Google DeepMind waarschuwt: AI-modellen kunnen zich verzetten tegen uitschakeling

DeepMind

Manipulatierisico’s

Menselijke controle

Waarschuwingen

Beveiligingscamera’s met AI: is dat wat voor een bedrijf of niet?

DeepSeek lanceert wiskundig model voor complexe bewijzen

SURF rolt Nextcloud breed uit naar Nederlandse onderwijsinstellingen

Jarviss richt nieuw bedrijf Cyfora in: Data-gedreven cybersecurity

Why your SOC needs a ROC, according to Qualys

Why Salesforce built three levels of AI commerce agents

Why this CIO ditched Microsoft for Google and Slack

SAP Business Network: $6.5 trillion B2B collaboration platform

Het verplicht stellen van 2FA mag voor organisaties geen keuze meer zijn

ISO 27001 in de praktijk: hoe je zonder consultancy-marathon compliant wordt

Wet weerbaarheid kritieke entiteiten: waarom het voor jouw organisatie én de maatschappij loont

SaaS-oplossingen: gemak versus controle – hoe houd je grip op je data?

Appdevcon

Webdevcon

Dutch PHP Conference

GITEX ASIA 2026

SAS Innovate 2026

Team '26

Ontgrendel het volledige potentieel van je SAP-omgeving

Hoffmann Tips Special – Cybersecurity Risk management

Een cloudstrategie is essentieel voor het succes van uw bedrijf

Is Your Environment Adaptive Enough for Zero Trust?