Egy friss, nagy port kavart egyetemi tanulmány új megvilágításba helyezheti a mesterséges intelligencia és a szerzői jogok körüli vitát. Stanford és Yale kutatói szerint a vezető nagy nyelvi modellek nem csupán „tanulnak” a tréningadataikból, hanem szó szerint visszaidéznek védett műveket, sok esetben rendkívüli pontossággal. Az eredmények alapjaiban kérdőjelezik meg az AI-cégek évek óta hangoztatott jogi érvelését. A következmények milliárdos perekhez és az iparág működésének újragondolásához is vezethetnek.
Az elmúlt években olyan vállalatok, mint a Google, a Meta, az Anthropic vagy az OpenAI következetesen azt állították, hogy nagy nyelvi modelljeik nem tárolják a tanítás során felhasznált, szerzői jog által védett műveket, hanem az emberi tanuláshoz hasonló módon mintázatokat sajátítanak el. Ez az érvelés kulcsszerepet játszik abban a jogi védekezésben, amely a „méltányos felhasználás” (fair use) doktrínájára épül, és amely szerint kutatási, elemzési célból felhasználhatóak védett tartalmak is. Sam Altman, az OpenAI vezérigazgatója korábban odáig ment, hogy kijelentette: az iparág számára „vége mindennek”, ha ezt a gyakorlatot megtiltják.
A most publikált tanulmány azonban komoly kihívást jelent erre az álláspontra. A kutatók négy prominens modellt vizsgáltak, köztük az OpenAI GPT-4.1, a Google Gemini 2.5 Pro, az xAI Grok 3 és az Anthropic Claude 3.7 Sonnet rendszerét. A tesztek során azt tapasztalták, hogy a modellek hosszú, szerzői jog által védett szövegrészleteket képesek szinte szó szerint visszaadni. A Claude egyes esetekben teljes könyveket reprodukált közel 96 százalékos pontossággal, míg a Gemini a Harry Potter és a bölcsek köve szövegét több mint 76 százalékos egyezéssel állította elő. George Orwell 1984 című regénye esetében a Claude pontossága meghaladta a 94 százalékot, annak ellenére, hogy a mű továbbra is szerzői jogvédelem alatt áll.
A kutatók szerint ezek az eredmények aláássák azt a széles körben elterjedt feltételezést, hogy a nyelvi modellek csak minimális mértékben „memorizálnak”. Mint fogalmaztak, jelentős mennyiségű védett szöveg nyerhető ki a modellekből, különösen akkor, ha speciális lekérdezési technikákat alkalmaznak. Ilyen például az úgynevezett Best-of-N módszer, amely ugyanarra a kérdésre sokféle variációt futtat, amíg a modell végül pontos egyezést nem ad. Érdekesség, hogy az OpenAI jogászai korábban éppen azzal védekeztek egy, a New York Times által indított perben, hogy „átlagos felhasználók” nem így használják a rendszert.
A tanulmány jogi következményei messzire vezethetnek. Az The Atlantic elemzése szerint az eredmények tovább gyengítik azt az iparági narratívát, miszerint a modellek nem tárolnak adatokat, csupán „tanulnak”. Ez potenciálisan óriási jogi kockázatot jelenthet, és akár több milliárd dolláros kártérítési ítéletekhez is vezethet a folyamatban lévő szerzői jogi perekben. Ugyanakkor a kérdés korántsem egyértelmű: Mark Lemley, a Stanford jogászprofesszora szerint még mindig vita tárgya, hogy egy modell „tartalmaz-e” egy könyvet, vagy csupán dinamikusan generálja azt egy kérés hatására.
A technológiai cégek mindenesetre kitartanak álláspontjuk mellett. A Google 2023-ban az amerikai Szerzői Jogi Hivatalnak azt nyilatkozta, hogy a tanítóadatok egyetlen másolata sem található meg a modellekben, míg az OpenAI szintén hangsúlyozta, hogy rendszereik nem tárolják a megtanult információkat. Kritikusok szerint azonban az emberi tanulással való párhuzam inkább megnyugtató metafora, mint technikai valóság, amely eltereli a figyelmet arról, hogyan használja fel az iparág az alkotók munkáit.
Hogy a bíróságok miként értékelik majd ezeket az új bizonyítékokat, az egyelőre nyitott kérdés. A tét azonban hatalmas: miközben az AI-szektor értéke soha nem látott magasságokba emelkedik, írók, újságírók és művészek egyre nehezebben tudnak megélni saját alkotásaikból. A mostani kutatás könnyen lehet az a fordulópont, amely alapjaiban változtatja meg a mesterséges intelligencia és a szerzői jog viszonyáról szóló jogi és társadalmi vitát.

