Tehnološki div Nvidia proširuje svoje poslovanje u području umjetne inteligencije preuzimanjem tvrtke Gretel, specijalizirane za sintetičke podatke, piše Wired. Prema izvorima bliskim transakciji, vrijednost akvizicije premašuje 320 milijuna dolara, koliko izosi posljednja procjena vrijednosti startupa. No detalji transakcije nisu poznati.
Gretel, osnovan 2019. godine, razvio je platformu koja omogućuje programerima stvaranje sintetičkih podataka za treniranje AI modela. Tvrtka je prije preuzimanja prikupila više od 67 milijuna dolara rizičnog kapitala i zapošljava oko 80 stručnjaka koji će sada biti integrirani u Nvidijin rastući ekosustav, piše Wired.
Nvidia, naime, intenzivno razvija alate za generiranje sintetičkih podataka kao dio svoje cloud infrastrukture za razvojne programere. Jensen Huang, izvršni direktor Nvidie, nedavno je na godišnjoj konferenciji za programere istaknuo tri ključna izazova s kojima se suočava AI industrija: “Kako riješiti problem podataka? Koja je optimalna arhitektura modela? I koji su zakoni skaliranja?”
Sintetički podaci kao rješenje za nedostatak podataka
Sintetički podaci predstavljaju računalno generirane informacije dizajnirane da oponašaju podatke iz stvarnog svijeta. Njihova primjena omogućava skalabilnije treniranje AI modela uz manje resursa, što je posebno važno za manje tvrtke s ograničenim sredstvima.
Tvrtke koje se bave AI-em suočavaju se s ograničenjem podataka za treniranje koji su im slobodno dostupni, što dovodi do sukoba oko toga mogu li koristiti sadržaj zaštićen autorskim pravima. Stotine glumaca, pisaca i redatelja poslali su otvoreno pismo adminstraciji Donalda Trumpa kako bi izrazili zabrinutost zbog korištenja zaštićenih podataka. Trenutačno, OpenAI traži od vlade veći pristup materijalima zaštićenima autorskim pravima kako bi mogla trenirati AI modele, inače će, tvrde, američke tvrtke zaostati za Kinom, prenosi CNBC.
Dodatna prednost, sintetičkih podataka je i zaštita privatnosti, što ih čini privlačnima u osjetljivim sektorima poput zdravstva, bankarstva i javne uprave. Ana-Maria Cretu, stručnjakinja na švicarskom sveučilištu École Polytechnique Fédérale de Lausanne, objašnjava: “Ako bolnica želi izgraditi AI model za praćenje određene vrste raka s ograničenim skupom od 1000 pacijenata, sintetički podaci mogu popuniti taj skup, eliminirati pristranosti i anonimizirati osjetljive informacije.”
Izazovi i kontroverze
Unatoč obećavajućem potencijalu, sintetički podaci nisu bez izazova. Istraživanje objavljeno u časopisu Nature upozorilo je na mogućnost “kolapsa” jezičnih modela kada se treniraju isključivo na strojno generiranim podacima.
Mnogi stručnjaci, uključujući izvršnog direktora Scale AI-ja Alexandera Wanga, zagovaraju hibridni pristup koji kombinira sintetičke i ljudski generirane podatke.
Unatoč potencijalnim rizicima, tehnološki divovi poput Mete, Amazona, Microsofta i Googlea već implementiraju sintetičke podatke u svoje AI sustave. Meta je koristila sintetičke podatke za treniranje svog najnovijeg modela Llama 3, dok Microsoft upozorava na složenost održavanja kvalitete pri korištenju isključivo sintetičkih podataka.
Alex Bestall, osnivač startupa Rightsify, tvrdi: “Znamo da sve velike tehnološke tvrtke rade na nekom aspektu sintetičkih podataka. No, ljudski podaci često ostaju ugovorni zahtjev u poslovnim suradnjama, s kombinacijom od oko 60 posto ljudskih i 40 posto sintetičkih podataka.”
Preuzimanjem Gretela, Nvidia dodatno učvršćuje svoju poziciju lidera u razvoju AI infrastrukture, posebno u segmentu koji ima potencijal riješiti jedan od temeljnih izazova industrije – dostupnost kvalitetnih podataka za treniranje sve složenijih AI sustava.