26. 1. 2024 | Mladina 4 | Družba

Sodni spor zgodovinskega pomena

Odmevna tožba časnika New York Times proti podjetju OpenAI odpira pomembno vprašanje, ali urjenje modelov generativne umetne inteligence krši avtorske pravice

Théâtre D’opéra Spatial, zmagovalno umetnino umetniškega sejma v Koloradu, je avtor Jason M. Allen želel registrirati kot avtorsko-pravno varovano, vendar mu urad za avtorske pravice tega ni dovolil, češ da si je preveč pomagal z umetno inteligenco.

Sistemi generativne umetne inteligence, pa naj gre za velike jezikovne modele tipa ChatGPT ali za slikarske robote, ki ustvarjajo čedalje bolj impresivne in realistične podobe, že od svojega silovitega vzpona novembra predlani zbujajo hude dileme, povezane z vprašanjem avtorskih pravic. Umetna inteligenca namreč vsebino ustvarja z imitacijo že obstoječega gradiva, ki ga je ustvaril človek, zato se poraja vprašanje, ali gre pri tem pravzaprav za krajo avtorskih pravic. Številni avtorji besedil in podob, s katerih se učijo modeli umetne inteligence, so prepričani, da je tako: počutijo se opeharjene in pravico (ter seveda odškodnine) iščejo na sodiščih. Eden najodmevnejših tovrstnih primerov je nedavna tožba časnika New York Times, ki podjetju OpenAI, vodilnemu akterju v razvoju generativne umetne inteligence, očita, da ChatGPT dokaj dobesedno kopira njegove (avtorsko varovane) članke. Časnik trdi, da je bilo več milijonov člankov, na katerih ima avtorske pravice, uporabljenih za usposabljanje jezikovnega modela, »ki zdaj konkurira novicam kot vir zanesljivih informacij«.

Zakup člankov

Celoten članek je na voljo le naročnikom. Če želite zakupiti članek, je cena 4,5 EUR. S tem nakupom si zagotovite tudi enotedenski dostop do vseh ostalih zaklenjenih vsebin. Kako do tedenskega zakupa?

Gregor Kocijančič

26. 1. 2024 | Mladina 4 | Družba

Visokotehnološka oblika plagiatorstva

Čeprav je New York Times prva velika založniška družba, ki je tožila OpenAI zaradi kršitve avtorskih pravic, to pravzaprav še zdaleč ni osamljen primer tovrstnih tožb. V začetku lanskega leta je na primer Getty Images, velikan med spletnimi arhivi fotografij za komercialno rabo, vložil tožbo proti podjetju Stability AI, ustvarjalcu slikarskega robota Stable Diffusion, saj naj bi ta »nezakonito kopiral in obdelal milijone slik, varovanih z avtorskimi pravicami«. Slikarski roboti so bili tovrstnih očitkov deležni tudi v svetu umetnosti: Jason M. Allen, sicer ustvarjalec družabnih iger, je predlani z umetnino, imenovano Théâtre D’opéra Spatial, ustvarjeno s programom Midjourney, osvojil prvo nagrado na natečaju umetniškega sejma v Koloradu, kar je sprožilo val zgražanja; avtorja so poraženi tekmeci obtožili goljufanja in podobo označili kot »visokotehnološko obliko plagiatorstva«. Jason M. Allen je želel svoje delo registrirati kot avtorskopravno varovano, vendar mu urad za avtorske pravice tega ni dovolil, ker si je preveč pomagal z umetno inteligenco oziroma je bilo v delu premalo njegovega lastnega ustvarjalnega vložka.

Tovrstnih očitkov so pogosteje deležna besedila, ki jih ustvarjajo veliki jezikovni modeli. Pisati so se namreč naučili tako, da so marljivo prebrali zajeten del digitaliziranega tekstovnega opusa celotnega človeštva, od romanov prek člankov do učbenikov in vsega, kar je vmes. Privolitve avtorjev pri tem niso imeli. A branje ni prepovedano. Vprašanje pa je, ali gre pri urjenju strojev za branje ali za nedovoljeno reproduciranje.

Na Japonskem takšna tožba nima pravne podlage. V ZDA pa bo o tem, ali gre za nedovoljeno reproduciranje, odločilo sodišče.

Ureditve glede tega v posameznih državah so različne. V ZDA bo o tem, ali gre za nedovoljeno reproduciranje, odločilo sodišče. Med tistimi, ki menijo, da gre za nedovoljeno reproduciranje, je moštvo sedemnajstih literarnih prvoligašev, združenih v organizacijo Ceh avtorjev (angl. Authors Guild), v kateri najdemo denimo Georgea R. R. Martina, avtorja priljubljene serije fantazijskih romanov Svet ledu in ognja, iz katere je nastala HBO-jeva uspešnica Igra prestolov, in Johna Grishama, avtorja številnih bestselerjev kriminalk. Ko je združenje lani septembra vložilo tožbo proti podjetju OpenAI, je predstavnica ceha povedala, da je »ta primer le začetek naše bitke za obrambo avtorjev pred krajo, kar počnejo podjetje OpenAI in drugi sistemi generativne umetne inteligence. Te tožbe ne vlagamo zlahka: tukaj smo zato, da se borimo.«

Dr. Maja Bogataj Jančič, ustanoviteljica in vodja Inštituta za odprte podatke in intelektualno lastnino, ODIPI, pridružena sodelavka Centra Berkman Klein za splet in družbo na Univerzi Harvard in strokovnjakinja za upravljanje podatkov pri Global Partnership on Artificial Intelligence (GPAI), poudarja, da tožba, ki jo je sprožil New York Times, izstopa, ker sta se newyorški časnik in kalifornijsko podjetje pred tem pogajala za licenco, in predvsem zato, ker je časnik »predložil dokaze o tem, da se nekateri članki oziroma avtorska dela, na katerih ima avtorske pravice, v veliki meri v celoti prikažejo kot rezultati, ki jih na prave ključne pozive objavi ChatGPT«.

OpenAI se je na tožbo odzval z ogorčenjem in razočaranjem. »Podpiramo novinarstvo, sodelujemo z novinarskimi organizacijami in verjamemo, da je tožba New York Timesa neutemeljena,« so pri podjetju zapisali v sporočilu za javnost in poudarili, da časnik »ni povedal celotne zgodbe«. Branijo se z izjavo, da ChatGPT ni dobesedno kopiral člankov, Timesu pa očitajo, da je manipuliral z ukazi (prompti) tako, da je bil ChatGPT prisiljen vključevati nekatere odlomke iz Timesovih člankov. »Naši modeli se ne obnašajo tako, kot namiguje New York Times,« so zapisali.

Maja Bogataj Jančič meni, da ima »ta spor potencial, da spravi razvoj generativne umetne inteligence na kolena, kar ne bi bilo dobro«. Avtorske pravice in generativna umetna inteligenca se prepletajo v več primerih: prvi je ta, da je program, ki poganja ChatGPT, varovan z avtorskimi pravicami. Drugi se tiče vprašanja, ali se veliki jezikovni modeli lahko učijo prek analize vsebin, ki so avtorskopravno varovane. Tretji se vrti okoli vprašanja, »ali imajo imetniki pravic na delih, na katerih se je model učil, kakršnekoli avtorske pravice na rezultatih, ki jih model producira«.

Tu pa je še četrti primer, ki za zdaj sicer še ni aktualen, a je njegova relevantnost le vprašanje časa, in sicer »ali bodo produkti, ki jih bo povsem samostojno sproducirala umetna inteligenca, varovani z avtorskimi pravicami«. V zvezi s tem se zastavlja že zdaj aktualno vprašanje, »koliko si lahko ustvarjalec pomaga z umetno inteligenco, da bi njegova stvaritev še vedno uživala avtorskopravno varstvo«.

Kaj bo tožba razčistila?

Pri sodnem sporu med New York Times in OpenAI se bo razčistilo, »ali se lahko OpenAI v ZDA sklicuje na obrambo tako imenovane poštene rabe, ki je koncept, ki so ga oblikovala ameriška sodišča«. Od česa je to odvisno? »Poštena raba temelji na štirih dejavnikih, ki jih je oblikovala sodna praksa in jih je treba dokazati,« razloži Maja Bogataj Jančič in jih našteje: namen in značaj uporabe (zlasti transformativnost), narava in značaj avtorskega dela, količina oziroma obseg ali bistvenost uporabljenega deleža avtorskega dela ter učinek uporabe na potencialni trg oziroma na vrednost dela.

Kakšno pa je njeno strokovno mnenje v zvezi s tem? Pravi, da je urjenje jezikovnih modelov podobno učenju – »tako kot se lahko ljudje učimo s prebiranjem knjig, se lahko učijo tudi stroji«. In nadaljuje: »Ne gre za avtorskopravne uporabe, vsaj ne v vseh primerih«. Ob tem poudarja, da si »imetniki pravic, zlasti zabavna in založniška industrija, seveda želijo posebna nadomestila in licence«, a v tem prepoznava potencialne negativne posledice za razvoj na področju umetne inteligence, saj bi bilo »katastrofalno, da bi zaradi slabe generativne AI, kar je ChatGPT, upočasnili razvoj sicer pomembne tehnologije, ki lahko prispeva k reševanju pomembnih izzivov planeta in človeštva«.

Po drugi strani prepoznava problem tudi v tem, da so »nekateri leta in leta ’želi’ prav vse, kar je dostopno na spletu, in na teh podatkih, ki so velikokrat osebni podatki ali avtorskopravno varovane vsebine, urili stroje«.

Skratka, zadeva še zdaleč ni črno-bela. Še zlasti ne, ker so ureditve po posameznih državah različne. Odmevni sodni primeri iz ZDA bodo razjasnili predvsem pravno stanje v tej državi, a verjetno bodo »imeli nekatere vplive tudi na druge jurisdikcije«. Svet je namreč glede teh vprašanj izrazito neenoten.

Japonska si na primer prizadeva predvsem za čim hitrejši razvoj in dovoljuje prosto uporabo vseh vsebin za učenje velikih jezikovnih modelov in drugih sistemov generativne umetne inteligence za vse namene. Evropa pa je ubrala srednjo pot. Kot pojasnjuje Maja Bogataj Jančič, imamo v »Evropski uniji to vprašanje urejeno v Direktivi o avtorskih pravicah na enotnem digitalnem trgu v členih, ki urejajo vprašanja podatkovnega in besedilnega rudarjenja«. Sama ocenjuje, da je ta sistem dober, saj »razlikuje med situacijo, ko se stroji urijo za znanstveno-raziskovalne namene, in drugimi primeri, ki vključujejo tudi ’treniranje mašin’ za komercialne namene«. Pri slednjem se lahko imetniki pravic izločijo.

Kako pa je to urejeno v Sloveniji? Maja Bogataj Jančič je prepričana, da je naša ureditev ena bolj progresivnih. Pri nas je namreč »za raziskovalne namene dovoljeno rudariti po vsebinah, do katerih imajo člani knjižnic in drugih ustanov za varstvo kulturne dediščine dostop, tako kot v drugih državah EU, brez kakršnihkoli dodatnih licenc«. Je pa to pri nas okrepljeno s pravilom, da »če imetniki pravic s tehnološkimi ukrepi otežujejo besedilno in podatkovno rudarjenje, lahko upravičenci izjeme zahtevajo od imetnikov pravic, da jim to omogočijo v 72 urah, sicer jih lahko doletijo sankcije«. Tako velja pri znanstvenih in raziskovalnih uporabah sistemov umetne inteligence, drugače pa je s komercialnimi uporabami: pri teh se lahko »imetniki pravic izločijo in prepovejo besedilno in podatkovno rudarjenje. Čudno pa je, da tega ne smejo storiti v pogodbah, ker bi bilo takšno določilo nično,« pojasni.

Novi družbeni dogovor

Maja Bogataj Jančič rešitve za te velike izzive med drugim vidi v obdavčenju prihodkov (in prihrankov) iz naslova generativne umetne inteligence in v sklenitvi novega družbenega dogovora, kako bi bilo treba zbrane dohodke razdeljevati. V teh izzivih prepoznava novo morebitno priložnost za razpravo o globalnem univerzalnem dohodku, »saj bo njegova uvedba prej ali slej potrebna, ker bodo številni ostali brez dela«. Poudarja tudi potrebo po »bolj demokratičnem urejanju možnosti, kdo ima danes sploh dostop do superračunalnikov, ki omogočajo tvorjenje umetne inteligence«. Težavo vidi tudi v tem, da razvoj umetne inteligence poteka na načine, »ki so v nasprotju z obstoječimi pravnimi pravili ali niso v skladu z etičnimi smernicami, to mogočno tehnologijo pa upravljajo in si jo lastijo korporacije, ki so v zasebni lasti in jim je najpomembnejše ustvarjanje dobička, ne pa skupnega dobrega«.

Prepričana je, da bodo sodni primeri, kot je tožba časnika New York Timesa, »razjasnili pravno situacijo glede vprašanja, ali se lahko stroji prosto in brez licence urijo na vsebinah, ki so avtorskopravno varovane – ali pač ne«. Sočasno pa meni, da bodo ponudili odgovor na vprašanje, ali imajo prvotni imetniki avtorskih pravic »morebitna avtorskopravna upravičenja tudi na rezultatih, ki jih izpljune ChatGPT«.

Pisma bralcev pošljite na naslov pisma@mladina.si. Minimalni pogoj za objavo je podpis z imenom in priimkom ter naslov. Slednji ne bo javno objavljen.

Spletna Mladina na Facebooku

@SpletnaMladina na Twitterju