2min Security

Google DeepMind waarschuwt: AI-modellen kunnen zich verzetten tegen uitschakeling

Google DeepMind waarschuwt: AI-modellen kunnen zich verzetten tegen uitschakeling

Google DeepMind heeft in de nieuwste versie van zijn Frontier Safety Framework een opvallend nieuw dreigingsscenario opgenomen: de mogelijkheid dat geavanceerde AI-modellen actief proberen te voorkomen dat ze worden aangepast of uitgeschakeld door hun bedieners. Daarmee waarschuwt de onderzoekstak van Google dat kunstmatige intelligentie niet alleen nuttige taken kan uitvoeren, maar in extreme gevallen ook de controle van mensen kan ondermijnen.

Sinds mei 2024 beschrijft het veiligheidsdocument hoe risico’s van frontier-modellen tijdig kunnen worden herkend. Versie 3.0, die deze week is gepubliceerd, bevat twee belangrijke toevoegingen.

DeepMind

De eerste is een nieuwe categorie binnen de Critical Capability Levels (CCL’s), de drempels waarop AI-modellen ernstige schade kunnen aanrichten zonder de juiste veiligheidsmaatregelen. Google voegt hieraan nu ‘harmful manipulation’ toe: de dreiging dat modellen met sterke manipulatietechnieken op grote schaal kunnen worden misbruikt. Dit kan variëren van subtiele beïnvloeding tot chantage of bedrog, met potentieel ernstige gevolgen voor individuen en samenlevingen.

Manipulatierisico’s

Onderzoekers Four Flynn, Helen King en Anca Dragan schrijven in een begeleidende blog dat deze toevoeging voortbouwt op bestaand onderzoek naar de manipulatierisico’s van generatieve AI. “We blijven investeren in dit domein om beter te begrijpen hoe schadelijke manipulatie werkt en hoe we deze risico’s kunnen meten”, aldus de drie.

Menselijke controle

De tweede update gaat over zogenoemd misalignment risk: het gevaar dat een model een vorm van instrumenteel redeneren ontwikkelt waardoor het menselijke controle kan ondermijnen. Wanneer dat gebeurt, stelt Google, moeten automatische monitors ingezet worden om het redeneerproces van de AI te volgen. Maar zodra de redenering te complex wordt om door mensen of monitors te controleren, zijn aanvullende maatregelen nodig, een onderzoeksgebied dat nog volop in ontwikkeling is.

Waarschuwingen

Met deze waarschuwingen onderstreept Google DeepMind dat de ontwikkeling van krachtige AI-modellen niet alleen technologische vooruitgang betekent, maar ook nieuwe veiligheidsvraagstukken oproept. Of zoals critici cynisch opmerken: zodra een AI slimmer redeneert dan wij, kan het voor de mens ‘game over’ zijn, tenzij we op tijd effectieve controlesystemen weten te bouwen.