Svijet umjetne inteligencije (AI) Storm je prije nekoliko dana uzeo s izdavanjem Deepseek-R1, modela rasuđivanja otvorenog koda koji odgovara performansama vrhunskih modela zaklade, a tvrdi da je izgrađen koristeći izuzetno nizak proračun za obuku i Nove tehnike nakon treninga. Oslobađanje DeepSeek-R1 ne samo da je osporavalo konvencionalnu mudrost oko zakona o skaliranju temeljnih modela-koji tradicionalno favoriziraju ogromne proračune za obuku-već su to učinile i u najaktivnijem području istraživanja na tom području: Rasprava.
Otvorene težine (za razliku od otvorenog koda) prirode izdanja učinile su model lako dostupnim AI zajednici, što je dovelo do naleta klonova u roku od nekoliko sati. Nadalje, DeepSeek-R1 je ostavio svoj trag na tekućoj AI utrci između Kine i Sjedinjenih Država, pojačavajući ono što je sve očiglednije: kineski modeli su izuzetno kvalitetni i u potpunosti sposobni voditi inovacije originalnim idejama.
Za razliku od većine napretka u generativnom AI, koji, čini se, proširuju jaz između Web2 i Web3 u području modela temelja, izdanje DeepSeek-R1 nosi stvarne implikacije i pruža intrigantne mogućnosti za Web3-AI. Da bismo ih procijenili, prvo moramo detaljnije pogledati ključne inovacije i diferencijacije DeepSeek-R1.
Unutar DeepSeek-R1
DeepSeek-R1 bio je rezultat uvođenja inkrementalnih inovacija u dobro uspostavljen okvir za pretvaranje za temeljne modele. U širokom smislu, DeepSeeK-R1 slijedi istu metodologiju treninga kao i najoštriji modeli temelja. Ovaj se pristup sastoji od tri ključna koraka:
- Pretraživanje: Model je u početku treniran za predviđanje sljedeće riječi koristeći ogromne količine neoznačenih podataka.
- Nadzorno fino podešavanje (SFT): Ovaj korak optimizira model u dva kritična područja: slijedeći upute i odgovaranje na pitanja.
- Usklađivanje s ljudskim preferencijama: Provodi se konačna faza finog podešavanja kako bi se uskladila odgovori modela s ljudskim preferencijama.
Većina glavnih modela temelja – uključujući one koje su razvili OpenAI, Google i Antrop – pridržavaju se istog općeg procesa. Na visokoj razini, postupak treninga DeepSeeK-R1 ne čini se značajno drugačijim. Buthower, umjesto da prethodno obrađuje osnovni model od nule, R1 je iskoristio osnovni model svog prethodnika, DeepSeek-V3-baze, koji se može pohvaliti impresivnih 617 milijardi parametara.
U osnovi, DeepSeek-R1 rezultat je primjene SFT-a na DeepSeek-V3-bazu s velikim podacima o rezoluji. Prava inovacija leži u konstrukciji ovih skupova podataka o obrazloženju, koje je notorno teško izgraditi.
Prvi korak: DeepSeek-R1-Zero
Jedan od najvažnijih aspekata DeepSeek-R1 je da postupak nije proizveo samo jedan model, već dva. Možda je najznačajnija inovacija DeepSeek-R1 bila stvaranje intermedijarnog modela zvanog R1-Zero, koji je specijaliziran za zadatke obrazloženja. Ovaj je model gotovo u potpunosti obučen koristeći učenje pojačanja, s minimalnim oslanjanjem na označene podatke.
Učenje pojačanja tehnika je u kojoj je model nagrađen za generiranje ispravnih odgovora, omogućujući mu da s vremenom generalizira znanje.
R1-nula je prilično impresivan, jer je u zadacima obrazloženja mogao uskladiti GPT-O1. Međutim, model se borio s općenitijim zadacima kao što su pitanja i čitljivost. U skladu s tim, svrha R1-nule nikada nije bila stvoriti opći model, već je pokazati da je moguće postići vrhunske mogućnosti rasuđivanja samo koristeći učenje pojačanja-čak i ako model ne djeluje dobro u drugim područjima u drugim područjima .
Drugi korak: DeepSeek-R1
DeepSeek-R1 dizajniran je kao model opće namjene koji se odlikuje u obrazloženju, što znači da je trebalo nadmašiti R1-Zero. Da bi to postigao, DeepSeek je još jednom započeo sa svojim V3 modelom, ali ovaj put ga je precizno prilagodio na malom skupu podataka.
Kao što je ranije spomenuto, skupove podataka o obrazloženju teško je proizvesti. Ovdje je R1-nuro igrao ključnu ulogu. Intermedijarni model korišten je za generiranje skupa podataka sintetičkog rezonovanja, koji je tada korišten za fino podešavanje Deepseeka V3. Ovaj je postupak rezultirao drugim modelom intermedijarnog obrazloženja, koji je nakon toga prošao kroz opsežnu fazu učenja pojačanja koristeći skup podataka od 600 000 uzoraka, koji je također generirao R1-Zero. Konačni ishod ovog procesa bio je DeepSeek-R1.
Iako sam izostavio nekoliko tehničkih detalja o postupku pretvaranja R1, evo dva glavna odstupanja:
- R1-nula pokazao je da je moguće razviti sofisticirane mogućnosti rasuđivanja koristeći osnovno učenje pojačanja. Iako R1-nula nije bio snažan opći model, uspješno je generirao podatke o rasuđivanju potrebnim za R1.
- R1 je proširio tradicionalni cjevovod za pretvaranje koji koristi većina modela temelja ugradnjom R1-nule u postupak. Uz to, iskoristio je značajnu količinu podataka sintetičkog rasuđivanja generiranih R1-nuli.
Kao rezultat toga, DeepSeeK-R1 se pojavio kao model koji je odgovarao mogućnostima rezonovanja GPT-O1, istovremeno izgrađenim korištenjem jednostavnijeg i vjerojatno značajno jeftinijeg postupka pretresa.
Svi se slažu da R1 označava važnu prekretnicu u povijesti generativnog AI -ja, onu koja će vjerojatno preoblikovati način na koji se razvijaju modeli temelja. Kada je u pitanju Web3, bit će zanimljivo istražiti kako R1 utječe na razvijajući se krajolik Web3-AI.
DeepSeek-R1 i Web3-AI
Do sada se web3 borio za uspostavljanje uvjerljivih slučajeva upotrebe koji jasno dodaju vrijednost stvaranju i korištenju modela temelja. U određenoj mjeri, čini se da je tradicionalni tijek rada za modele temelja za pretvaranje antiteza Web3 arhitektura. Međutim, unatoč tome što je u ranoj fazi, izdanje DeepSeek-R1 istaknulo je nekoliko prilika koje bi se prirodno mogle uskladiti s Web3-AI arhitekturama.
1) Učenje za učenje o pojačanju
R1-nula je pokazao da je moguće razviti modele obrazloženja koristeći čisto učenje pojačanja. S računarskog stajališta, učenje ojačanja vrlo je paralelizirajuće, što ga čini prikladnim za decentralizirane mreže. Zamislite mrežu Web3 u kojoj se čvorovi nadoknađuju za precizno prilagođavanje modela o zadacima učenja pojačanja, a svaka primjenjuje različite strategije. Ovaj je pristup daleko izvediviji od ostalih paradigmi za pretvaranje koje zahtijevaju složene topologije GPU -a i centraliziranu infrastrukturu.
2) Generiranje skupa podataka sintetskog rezonovanja
Drugi ključni doprinos DeepSeek-R1 bio je prikaz važnosti sintetički generiranih skupova podataka za kognitivne zadatke. Ovaj je postupak također prikladan za decentraliziranu mrežu, gdje čvorovi izvršavaju poslove generiranja podataka i kompenziraju se jer se ovi skupovi podataka koriste za modele za pretvaranje ili precizno prilagođavanje. Budući da se ti podaci sintetički generiraju, cijela se mreža može u potpunosti automatizirati bez ljudske intervencije, što ga čini idealnim prikladnim za Web3 arhitekture.
3) Decentralizirani zaključak za male modele destiliranog rasuđivanja
DeepSeek-R1 je ogroman model sa 671 milijardi parametara. Međutim, gotovo odmah nakon otpuštanja pojavio se val destiliranih modela rezonovanja, u rasponu od 1,5 do 70 milijardi parametara. Ovi manji modeli značajno su praktičniji za zaključivanje u decentraliziranim mrežama. Na primjer, model R1 destiliranog 1,5B -2B mogao bi se ugraditi u DeFI protokol ili implementirati unutar čvorova mreže Depin. Jednostavnije, vjerojatno ćemo vidjeti porast ekonomičnog zaključivanja krajnjih zaključaka koje pokreću decentralizirane računalne mreže. Obrazloženje je jedna domena u kojoj se sužava razmak performansi između malih i velikih modela, stvarajući jedinstvenu priliku za Web3 da učinkovito iskoristi ove destilirane modele u decentraliziranim postavkama zaključivanja.
4) Obrazloženje podataka o proveniranju podataka
Jedna od najvažnijih značajki modela obrazloženja je njihova sposobnost generiranja tragova obrazloženja za određeni zadatak. DeepSeek-R1 ove su tragove dostupne kao dio svog zaključivanja, pojačavajući važnost provenijencije i sljedivosti za zadatke rasuđivanja. Internet danas prvenstveno djeluje na izlazima, s malo vidljivosti u intermedijarnim koracima koji dovode do tih rezultata. Web3 pruža priliku za praćenje i provjeru svakog koraka obrazloženja, potencijalno stvarajući “novi Internet rezonovanja” gdje transparentnost i provjerljivost postaju norma.
Web3-AI ima priliku u eri obrazloženja nakon R1
Oslobađanje DeepSeek-R1 označilo je prekretnicu u evoluciji generativnog AI. Kombinirajući pametne inovacije s utvrđenim paradigmima pretprertacije, osporio je tradicionalne tijekove rada AI i otvorio novu eru u AI usmjerenom na rasuđivanje. Za razliku od mnogih prethodnih modela temelja, DeepSeek-R1 uvodi elemente koji generativni AI približavaju Web3.
Ključni aspekti R1 – Sintetičko obrazloženje skupova podataka, više paralizirajući trening i rastuća potreba za sljedivošću – usklađuju se prirodno s principima web3. Iako se Web3-AI borio da dobije smislenu vuču, ovo novo razdoblje obrazloženja nakon R1 može pružiti najbolju priliku da Web3 igra značajniju ulogu u budućnosti AI.