3min Ondernemen

AI-bedrijven slaan alarm over ‘distillation attacks’: concurrenten kopiëren modellen op industriële schaal

AI-bedrijven slaan alarm over ‘distillation attacks’: concurrenten kopiëren modellen op industriële schaal

Kunstmatige intelligentiebedrijven worden geconfronteerd met een nieuwe vorm van digitale spionage: zogenoemde distillation attacks. Volgens AI-ontwikkelaar Anthropic hebben meerdere buitenlandse AI-laboratoria op grote schaal geprobeerd de technologie achter zijn AI-model Claude te kopiëren door systematisch antwoorden van het systeem te verzamelen en te gebruiken om eigen modellen te trainen.

Uit onderzoek van het bedrijf blijkt dat drie AI-labs; DeepSeek, Moonshot en MiniMax, gezamenlijk meer dan zestien miljoen interacties met Claude hebben uitgevoerd via circa 24.000 frauduleuze accounts. Daarmee zouden zij bewust de gebruiksvoorwaarden en regionale toegangsbeperkingen hebben omzeild.

Distillation attacks

Distillation, of modeldistillatie, is op zichzelf een legitieme techniek binnen de AI-wereld. Daarbij wordt een kleiner model getraind op de output van een krachtiger AI-systeem om goedkopere en efficiëntere varianten te ontwikkelen. Grote AI-bedrijven gebruiken deze methode regelmatig voor hun eigen producten.

Het probleem ontstaat wanneer concurrenten deze techniek inzetten zonder toestemming. Door enorme hoeveelheden antwoorden van een geavanceerd model te verzamelen, kunnen zij vergelijkbare capaciteiten ontwikkelen in een fractie van de tijd en tegen aanzienlijk lagere kosten dan wanneer zij het model zelfstandig zouden bouwen.

Veiligheidsrisico

Volgens Anthropic vormt dit niet alleen een commercieel probleem, maar ook een veiligheidsrisico. Illegaal gedistilleerde modellen bevatten vaak niet dezelfde veiligheidsmaatregelen die zijn ingebouwd in originele systemen. Daardoor zouden dergelijke AI-modellen gemakkelijker kunnen worden gebruikt voor cyberaanvallen, desinformatiecampagnes of zelfs de ontwikkeling van biologische dreigingen.

Grootschalige en gecoördineerde operaties

De drie onderzochte campagnes vertoonden opvallend vergelijkbare patronen. Via proxyservers en netwerken van duizenden nepaccounts kregen de labs toegang tot Claude, ondanks regionale beperkingen. Deze infrastructuren, door Anthropic omschreven als ‘hydra clusters’, vervangen automatisch geblokkeerde accounts door nieuwe, waardoor detectie moeilijk wordt.

DeepSeek richtte zich onder meer op redeneervermogen en het genereren van stap-voor-stap uitleg, waarmee trainingsdata voor eigen AI-systemen kon worden opgebouwd. Moonshot voerde meer dan 3,4 miljoen interacties uit gericht op programmeerfuncties, data-analyse en computergebruik. MiniMax ging nog verder met ruim dertien miljoen verzoeken en paste zijn strategie binnen 24 uur aan toen Anthropic een nieuw model lanceerde.

Impact op geopolitiek en regelgeving

Volgens Anthropic ondermijnen deze aanvallen ook exportrestricties op geavanceerde AI-technologie. Wanneer buitenlandse labs via distillatie toegang krijgen tot Amerikaanse AI-capaciteiten, kunnen zij technologische achterstanden sneller inhalen zonder directe toegang tot verboden hardware of modellen.

Het bedrijf waarschuwt dat ogenschijnlijk snelle technologische vooruitgang elders deels gebaseerd kan zijn op geëxtraheerde kennis uit bestaande systemen.

Tegenmaatregelen en samenwerking

Anthropic investeert inmiddels zwaar in detectiesystemen die afwijkende gebruikspatronen herkennen, zoals massaal herhaalde prompts en gecoördineerd accountgebruik. Daarnaast deelt het bedrijf technische informatie met andere AI-ontwikkelaars, cloudproviders en overheden om gezamenlijke verdediging mogelijk te maken.

Volgens Anthropic kan geen enkele organisatie dit probleem alleen oplossen. De schaal en snelheid van distillation attacks vereisen samenwerking tussen industrie, beleidsmakers en internationale partners. De waarschuwing markeert een nieuwe fase in de AI-wedloop, waarin niet alleen innovatie, maar ook bescherming van kennis en veiligheid steeds centraler komt te staan.