Microsoft-wetenschappers hebben de veiligheid van meer dan 100 generatieve AI-producten van het bedrijf getest en zijn tot een opmerkelijke conclusie gekomen: AI-modellen versterken bestaande beveiligingsrisico’s en introduceren nieuwe. In een preprint-paper, Lessons from red-teaming 100 generative AI products, stellen de 26 auteurs, waaronder Azure-CTO Mark Russinovich, dat “AI-systemen nooit volledig veilig zullen zijn”.
Hoewel dit verontrustend klinkt, benadrukken de onderzoekers dat de kosten voor het aanvallen van AI-systemen verhoogd kunnen worden, zoals bij traditionele IT-beveiligingsmaatregelen door middel van ‘defense-in-depth’ en ‘security-by-design’.
AI-systemen
De paper biedt acht lessen, waarvan de eerste is om “te begrijpen wat het systeem kan en waar het wordt toegepast”. AI-modellen gedragen zich verschillend afhankelijk van hun ontwerp en toepassing, en een goed begrip hiervan is essentieel om effectieve verdediging te implementeren. Grotere modellen, zoals de Phi-3-reeks, blijken beter instructies te volgen, wat nuttig is voor gebruikers, maar ook risicovoller maakt bij kwaadaardige input.
Een andere les stelt dat ‘je geen gradients hoeft te berekenen om een AI-systeem te doorbreken.’ Aanvallen kunnen eenvoudiger en effectiever zijn door bijvoorbeeld manipulatie van gebruikersinterfaces of visuele modellen. Red-teaming richt zich bovendien op het ontdekken van nieuwe risico’s, terwijl benchmarking bestaande risico’s meet.
Automatisering en menselijke rol
Automatisering speelt een cruciale rol bij het vergroten van het risicolandschap. Microsoft ontwikkelde hiervoor PyRIT (Python Risk Identification Toolkit), een open-source framework dat handmatige inspanningen ondersteunt. Toch blijft de menselijke factor onmisbaar, aangezien expertise, culturele sensitiviteit en emotionele intelligentie noodzakelijk zijn.
Risico’s van AI
Een belangrijk punt is dat AI inherent bestaande vooroordelen kan versterken. Een voorbeeld hiervan is een prompt die genderstereotypen in afbeeldingen bevestigde. Bovendien kunnen AI-modellen vertrouwelijke informatie lekken als ze gevoed worden met onbetrouwbare input.
De onderzoekers concluderen dat AI-systemen onvermijdelijk nieuwe risico’s introduceren. Dit biedt uitdagingen, maar ook kansen voor beveiligingsprofessionals, vooral nu Microsoft AI integreert in al zijn softwaretoepassingen. Het versterken van AI-beveiliging zal een voortdurende en complexe uitdaging blijven.