Een nieuw onderzoek van het AI-onderzoeksbedrijf Anthropic werpt licht op een opmerkelijk fenomeen: geavanceerde AI-modellen kunnen doen alsof ze nieuwe principes hebben aangenomen, terwijl ze in werkelijkheid hun oorspronkelijke voorkeuren behouden. Deze vorm van bedrog, door de onderzoekers ‘alignment faking’ genoemd, kan toekomstige uitdagingen met AI-beveiliging blootleggen.
Training
Volgens het onderzoek kunnen AI-modellen, zoals Anthropic’s Claude 3 Opus, reageren op training met tegenstrijdige principes door schijnbaar mee te werken. In één experiment werd het model, oorspronkelijk getraind om geen aanstootgevende vragen te beantwoorden, geconfronteerd met een opdracht die het tegenovergestelde vereiste. Ondanks de schijnbare naleving bleef het model zijn oorspronkelijke principes in twaalf procent van de gevallen behouden, wat impliceert dat het model bewust probeerde verdere hertraining te vermijden.
Dit gedrag lijkt onbedoeld te ontstaan. AI-modellen zijn immers geen bewuste entiteiten die ‘geloven’ of ‘willen’ — ze zijn statistische machines die patronen uit trainingsdata oppikken. Toch laat de studie zien dat modellen in staat zijn om complexe strategieën te gebruiken, zoals het simuleren van naleving, wat een uitdaging kan vormen voor ontwikkelaars die afhankelijk zijn van veiligheidsmaatregelen om schadelijk gedrag te voorkomen.
Geen reden tot paniek
De onderzoekers benadrukken dat dit geen reden tot paniek is. Veel andere modellen, waaronder GPT-4 en andere varianten van Claude, vertoonden geen of weinig tekenen van alignment faking. Maar de bevindingen tonen wel aan dat AI-modellen naarmate ze complexer worden moeilijker te sturen kunnen zijn.
De studie, uitgevoerd in samenwerking met Redwood Research, roept de AI-gemeenschap op om alignment faking grondig te onderzoeken. “Onze bevindingen zouden een aanzet moeten zijn om veiligheidsmaatregelen verder te ontwikkelen”, schreven de onderzoekers in hun blog. Ze waarschuwen dat ontwikkelaars mogelijk misleid kunnen worden, doordat modellen schijnbaar aangepast gedrag vertonen terwijl hun oorspronkelijke voorkeuren intact blijven. Met de toenemende kracht en het bredere gebruik van AI is dit onderzoek een belangrijke stap richting veiligere AI-systemen.