ArXiv, een veelgebruikt open platform voor preprint-onderzoek, verscherpt zijn beleid tegen het achteloos gebruik van grote taalmodellen (LLM’s) in wetenschappelijke publicaties. De nieuwe maatregelen moeten de kwaliteit van onderzoek op het platform waarborgen, nu AI steeds vaker als hulpmiddel wordt ingezet bij het schrijven van wetenschappelijke papers.
Thomas Dietterich, voorzitter van de computerwetenschapsectie van ArXiv, kondigt aan dat auteurs die ‘onweerlegbaar bewijs’ leveren dat ze de resultaten van LLM-generatie niet hebben gecontroleerd, een jaar lang van het platform worden geweerd. “Dit betekent dat we niets in de paper kunnen vertrouwen”, aldus Dietterich.
Na de ban moeten daaropvolgende inzendingen eerst geaccepteerd zijn door een gerenommeerd peer-reviewed tijdschrift voordat ze op ArXiv mogen verschijnen.
Wat telt als bewijs?
Een schrijver van een wetenschappelijke paper kan niet zomaar beticht worden van ongecontroleerd AI-gebruik. Er zijn verschillende zaken die ArXiv aanduidt als ‘onweerlegbaar bewijs’. Voorbeelden hiervan zijn gehallucineerde referenties, waarin bronnen door de AI verzonnen zijn.
Verder controleert het platform op zichtbare prompts of AI-commentaar die in de paper zijn achtergebleven. Een ander voorbeeld zijn ongecontroleerde fouten. Hier is in het onderzoek duidelijk te zien dat de schrijver output niet controleerde.
AI niet de volledige controle geven
De maatregelen van ArXiv gaan niet zo ver dat het gebruik van AI in zijn volledigheid wordt geband. De nieuwe regels benadrukken wel nog eens het belang van verantwoordelijk AI-gebruik.
Dit is ook voor de bedrijfscontext een belangrijke les. AI kan zaken zoals repetitief werk namelijk eenvoudig versnellen, maar zonder menselijke controle kunnen er al snel fouten gebeuren die een grote impact kunnen hebben op de continuïteit van het bedrijf of zijn reputatie.
Zo was het Amerikaanse bedrijf PocketOS enkele weken geleden zijn volledige database kwijt, door een fout van AI. De intern gebruikte AI coding agent zou ontspoord zijn door een combinatie van de gebruikte LLM en de cloud infrastructuur. Zowel de database als de back-ups werden gewist in negen seconden.