Društvena mreža Reddit podnijela je tužbu protiv američke AI kompanije Anthropic, optužujući je za neovlašteno prikupljanje milijuna korisničkih komentara u svrhu treniranja svojeg jezičnog modela Claude. Tužba je podnesena Višem sudu Kalifornije, a u njoj se tvrdi da je Anthropic koristio automatizirane alate kako bi zaobišao tehnička ograničenja i pristupio sadržaju Reddita, unatoč izričitom protivljenju platforme.
Reddit navodi kako su podaci korišteni bez pristanka korisnika, te tvrdi da je riječ o namjernom kršenju uvjeta korištenja i nelojalnoj tržišnoj praksi. „AI tvrtke ne bi smjele imati slobodu koristiti podatke ljudi bez jasnih pravila i ograničenja“, izjavio je glavni pravni savjetnik Reddita, Ben Lee, u komentaru za Associated Press.
Anthropic je u službenoj izjavi poručio kako osporava sve navode iz tužbe te da će „snažno braniti svoje interese pred sudom“.
Reddit: Legalna monetizacija podataka vs. neovlašteno iskorištavanje
Reddit već ima aktivne komercijalne ugovore s tehnološkim gigantima poput Googlea i OpenAI-ja, koji plaćaju za licencirani pristup javno dostupnim podacima s platforme. Takvi sporazumi omogućuju Redditu postavljanje uvjeta za zaštitu privatnosti korisnika, uključujući pravo na brisanje sadržaja i zabranu zloupotrebe podataka za marketinške svrhe.
Za razliku od tih partnera, Reddit tvrdi da Anthropic nije zatražio dopuštenje niti je ponudio naknadu za korištenje sadržaja, iako je, prema znanstvenom radu iz 2021., sustavno analizirao i identificirao subreddite koji sadrže najvrednije podatke za treniranje AI modela. Među njima su forumi posvećeni vrtlarstvu, povijesti, međuljudskim odnosima i osobnim razmišljanjima korisnika.
AI industrija i pitanje zakonitosti izvora podataka
Ova tužba dolazi u trenutku pojačane regulatorne i javne pozornosti na temu izvora podataka koji se koriste u razvoju umjetne inteligencije. AI modeli poput Claudea zahtijevaju velike količine tekstualnih podataka za treniranje, a kompanije poput Anthropica često se oslanjaju na slobodno dostupne izvore poput Wikipedije i Reddita.
U dopisu upućenom američkom Uredu za autorska prava prošle godine, Anthropic je tvrdio da način na koji trenira Claudea spada u „zakonitu i uobičajenu primjenu podataka“, pozivajući se na pravo izrade kopija u svrhu statističke analize.
No Redditova tužba postavlja opet neizbježno pitanje kada se radi o treniranju AI-ja: gdje je granica između zakonitog uvida u javne informacije i neovlaštenog poslovnog iskorištavanja tuđeg digitalnog vlasništva?