AI-modellen lijken soms briljant, maar schijn bedriegt. Onderzoekers van MIT, Harvard en de University of Chicago hebben een nieuwe term geïntroduceerd voor een opvallend probleem bij grote taalmodellen: ‘potemkin understanding’. De term verwijst naar schijninzicht, waarbij een AI-model ogenschijnlijk een concept begrijpt, bijvoorbeeld door een correcte uitleg te geven, maar volledig faalt in het toepassen ervan in de praktijk.
De naam is geïnspireerd op de zogenaamde Potemkin-dorpen, die in de 18e eeuw zouden zijn gebouwd om tsarina Catharina de Grote een illusie van welvaart te geven. In het geval van AI betekent het dat het model een façade van begrip opwerpt, zonder dat er werkelijk inzicht achter zit.
AI-modellen
De onderzoekers, onder wie Keyon Vafa van Harvard, benadrukken dat dit iets anders is dan de bekende AI-fout hallucinatie, waarbij een model simpelweg onjuiste informatie geeft. Waar hallucinaties feitelijke onjuistheden zijn, gaat het bij potemkin understanding om een gebrek aan conceptueel begrip.
Een treffend voorbeeld uit hun onderzoek toont GPT-4o, dat de ABAB-rijmschema correct uitlegt, maar vervolgens een rijmwoord kiest dat niet klopt met het schema. Kortom: het model weet hoe het rijmschema ‘moet klinken’, maar kan het niet toepassen.
Schijninzicht
Het gevaar? Deze vorm van schijninzicht ondermijnt het nut van benchmarks, de standaarden waarmee AI-competentie wordt getest. De onderzoekers waarschuwen dat een model dat een test goed maakt, nog niet per se de onderliggende concepten begrijpt of correct kan toepassen.
Om dit aan te tonen ontwikkelden de onderzoekers eigen tests op gebieden als literaire technieken, speltheorie en psychologische denkfouten. Ze ontdekten dat modellen zoals GPT-4o, Gemini 2.0 en Claude 3.5 wel concepten kunnen uitleggen (94,2 procent), maar vaak falen bij classificatie (55 procent fout), voorbeelden geven (40 procent fout), of concepten bewerken (40 procent fout).
AI-evaluatie
Volgens Vafa dwingen deze resultaten tot nieuwe vormen van AI-evaluatie. “Wat begrip bij mensen aantoont, geldt niet automatisch bij AI”, stelt hij. “We moeten betere manieren vinden om echte kennis in taalmodellen te meten of leren deze schijnvertoning te elimineren.”
De zoektocht naar échte kunstmatige intelligentie, en misschien ooit algemene intelligentie (AGI), blijkt dus nog lang niet voorbij.