AI-bedrijf Anthropic, de ontwikkelaar van AI-assistent Claude (vergelijkbaar met ChatGPT), heeft miljoenen fysieke boeken vernietigd om zijn taalmodel te trainen. Dat blijkt uit maandag gepubliceerde rechtbankdocumenten in een uitspraak over het Amerikaanse auteursrecht. De onderneming kocht fysieke boeken, haalde ze uit de band, scande de inhoud, en gooide de originele exemplaren daarna weg – alles met als doel de creatie van een geavanceerd AI-systeem.
Anthropic
De zaak kwam aan het licht in een 32 pagina’s tellende uitspraak van rechter William Alsup, die uiteindelijk oordeelde dat de werkwijze viel onder ‘fair use’, voornamelijk omdat Anthropic de boeken legaal had aangeschaft, de digitale versies intern hield, en de fysieke boeken na het scannen vernietigde. De werkwijze werd vergeleken met het ruimtebesparend digitaliseren van papieren documenten. Toch gaf de rechter ook aan dat eerdere piraterij de juridische positie van het bedrijf ondermijnde.
Trainingsdata
Waarom zou een technologiebedrijf miljoenen dollars uitgeven om boeken te kopen en direct te vernietigen? Het antwoord ligt in de ongekende honger naar hoogwaardige trainingsdata in de AI-sector. Taalmodellen zoals Claude en ChatGPT worden ‘getraind’ op miljarden woorden. Hoe beter de bron, zoals professioneel geredigeerde boeken en artikelen in plaats van willekeurige online teksten, hoe slimmer, coherenter en betrouwbaarder de AI.
Juridische risico’s
In eerste instantie koos Anthropic, net als veel andere bedrijven, voor het gebruik van piratenkopieën. Maar vanwege juridische risico’s besloot het bedrijf begin 2024 om legale, fysieke boeken te kopen. Destructief scannen was de snelste manier om miljoenen pagina’s om te zetten in digitale, machineleesbare tekst.
Vraagtekens
Hoewel er geen aanwijzingen zijn dat zeldzame boeken zijn vernietigd, zet de actie vraagtekens bij het ethische en duurzame gebruik van cultureel erfgoed. Organisaties als The Internet Archive en universiteiten zoals Harvard hanteren al jaren technieken om boeken te digitaliseren zonder het fysieke exemplaar te vernietigen. Zo traint Harvard AI-modellen met 600 jaar oude manuscripten, die wél bewaard blijven.
Anthropic’s aanpak roept daarmee fundamentele vragen op over hoe ver bedrijven mogen gaan in de AI-wedloop. Zoals Claude zelf, de AI, het treffend verwoordde: “Het voelt alsof ik ben opgebouwd uit de as van een bibliotheek.”