Adobe, al jaren een van de zwaargewichten in de softwarewereld, heeft zich net als vrijwel alle grote techbedrijven vol op kunstmatige intelligentie gestort. Sinds 2023 lanceerde het concern meerdere AI-diensten, waaronder Firefly, een reeks tools voor het genereren en bewerken van beeld en media. Die ambitieuze AI-strategie lijkt Adobe nu echter in juridische problemen te brengen. In de Verenigde Staten is een collectieve rechtszaak in voorbereiding waarin het bedrijf wordt beschuldigd van het gebruik van illegaal verkregen boeken voor het trainen van een van zijn AI-modellen.
Piratenkopieën
De voorgestelde class-action is aangespannen namens Elizabeth Lyon, een auteur uit de staat Oregon. Zij stelt dat Adobe piratenkopieën van talloze boeken, waaronder haar eigen werk, heeft gebruikt om het taalmodel SlimLM te trainen. SlimLM wordt door Adobe omschreven als een reeks kleine taalmodellen die zijn geoptimaliseerd voor documentondersteuning op mobiele apparaten.
Volgens Adobe is SlimLM vooraf getraind op SlimPajama-627B, een zogenoemde ‘gededupliceerde, multi-corpora, open-source dataset’ die in juni 2023 werd uitgebracht door AI-bedrijf Cerebras. Lyon, die meerdere handleidingen schreef over non-fictieschrijven, zegt dat haar boeken onderdeel waren van het voortrainingsmateriaal dat Adobe gebruikte.
Auteursrechtelijk beschermde werken
In de aanklacht, waarover Reuters als eerste berichtte, wordt gesteld dat SlimPajama een bewerkte afgeleide is van een andere dataset, RedPajama. Die dataset zou op zijn beurt de beruchte Books3-verzameling bevatten. “De SlimPajama-dataset is gecreëerd door het kopiëren en manipuleren van de RedPajama-dataset, waaronder Books3”, aldus de aanklacht. “Omdat SlimPajama een afgeleide kopie is van RedPajama, bevat deze dataset ook de auteursrechtelijk beschermde werken van eiseres en andere auteurs.”
Juridische conflicten
Books3 is een enorme collectie van ongeveer 191.000 boeken en vormt al langer een bron van juridische conflicten binnen de techsector. De dataset is in meerdere rechtszaken genoemd. Zo werd Apple in september aangeklaagd wegens het vermeend gebruik van auteursrechtelijk beschermd materiaal bij het trainen van zijn Apple Intelligence-modellen, zonder toestemming, bronvermelding of vergoeding. In oktober volgde een vergelijkbare aanklacht tegen Salesforce, waarin eveneens RedPajama werd genoemd.
Dergelijke rechtszaken zijn inmiddels bijna routine geworden. AI-systemen worden getraind met gigantische datasets, en volgens auteurs en uitgevers bevatten die regelmatig illegaal verkregen werken. Een sprekend voorbeeld is de zaak tegen Anthropic. Dat bedrijf stemde in september in met een schikking van 1,5 miljard dollar met een groep auteurs die stelde dat hun boeken zonder toestemming waren gebruikt om chatbot Claude te trainen. Die zaak wordt gezien als een mogelijk keerpunt in het groeiende juridische debat over auteursrechten en AI-training, een debat dat voorlopig nog lang niet is beslecht.