Destilacija znanja
Kako "stlačiti" inteligenco superračunalnika v vsak žep in hkrati omogočiti, da bo znala slovensko?
Prihod izjemno zmogljivih odprtih modelov umetne inteligence, kot je na primer DeepSeek R1, omogoča širši dostop do te tehnologije in njeno uporabo v različnih aplikacijah. V zadnjih dneh je kar nekaj računalniških programov začelo omogočati uporabnikom prenos optimiziranih nevronskih mrež neposredno na njihove naprave. To pomeni, da lahko uporabniki urejajo in izboljšujejo besedila ali obdelujejo podatke brez potrebe po dostopu do interneta ali skrbi, da bi občutljive informacije zapustile njihov računalnik ali telefon.
Vendar je uporaba velikih in zmogljivih modelov umetne inteligence v lokalnem okolju zahtevna, tudi kadar so na voljo brezplačno v odprtem dostopu, saj gre za izjemno obsežne datoteke, ki potrebujejo močno strojno opremo za učinkovito delovanje. Zato so ti modeli pogosto omejeni na podatkovne centre in zmogljive računalnike. Da bi omogočili njihovo uporabo tudi na manj zmogljivih napravah, so raziskovalci razvili tehnike za “kompresijo modelov”, med katerimi je ena najbolj obetavnih “destilacija znanja”. Ta postopek omogoča zajem bistvenega znanja iz obstoječih velikih modelov in njegov prenos v kompaktnejšo in učinkovitejšo obliko. Takšna oblika ohranja ključne funkcionalnosti, a je bistveno manj zahtevna za izvajanje.
Proces destilacije znanja lahko primerjamo s tradicionalnim učenjem. Velik model umetne inteligence, imenovan učitelj, je izjemno zmogljiv, a hkrati zahteven za uporabo. Manjši model, imenovan učenec, skuša od učitelja pridobiti ključne vzorce in logiko reševanja problemov, vendar na optimiziran način. Namesto, da bi učenec zgolj posnemal rešitve, se uči razmišljanja, ki je podobno učiteljevemu, kar mu omogoča posnemanje procesa sklepanja. Tako se učenec ne uči le končnih odgovorov, temveč ima vpogled tudi v samozavest učitelja pri posameznih odločitvah ter v njegovo ocenjevanje alternativnih možnosti.
Te dodatne informacije, ki jih imenujejo "mehke oznake," pomagajo učencu razviti globlje razumevanje problemov, izboljšati sposobnost posploševanja ter preprečiti zgolj mehansko ponavljanje naučenih vzorcev. Namesto, da bi učitelj (velik model) pri učenju medicinske diagnostike podal le eno diagnozo ('Gripa'), lahko poda več verjetnih diagnoz glede na pacientove simptome (npr. gripa: 70%, prehlad: 20%, bronhitis: 8%, pljučnica: 2%). To učencu (manjši model) omogoči, da se nauči bistveno več, kot če bi dobil le najbolj verjeten odgovor.
Eden izmed najpomembnejših razlogov za uporabo destilacije je njena izjemna računska učinkovitost. Veliki modeli umetne inteligence zahtevajo ogromno strojne moči, kar prinaša visoke stroške delovanja in pogosto omejuje njihovo dostopnost. Ko se model destilira v manjšo obliko, ne postane le lažji za izvajanje, ampak tudi bistveno bolj primeren za uporabo v različnih aplikacijah. Destilirani modeli imajo manjšo porabo energije, hitrejše odzivne čase in manjši pomnilniški odtis, kar je ključnega pomena za naprave z omejenimi viri, kot so mobilni telefoni in prenosniki.
Destilacija je ključnega pomena za demokratizacijo umetne inteligence, saj omogoča širši dostop do naprednih modelov. Za nas v Sloveniji bi bilo zelo koristno, če bi nastajajoči slovenski model generativne jezikovne umetne inteligence, kot je GaMS-1B-Chat, nadgradili tudi z destilirano različico. Na primer, model DeepSeek-R1-Distill-GaMS-1B bi bil optimiziran za slovenščino, hkrati pa bi izkoristil napredne zmogljivosti večjega globalnega modela DeepSeek-R1. Trenutno je na volje že več DeepSeek-R1-Distill nevronskih mrež, ki pa žal ne znajo dobro slovensko, saj tega znanja niso prenesli v fazi destilacije, sama manjša izvorna mreža pa ga tudi ni imela.
Največji potencial umetne inteligence v slovenskem prostoru je tako prav v povezavi lokalne jezikovne prilagojenosti z zmogljivostmi globalnih modelov. Upam, da je raziskovalna skupina, ki razvija GaMS, že vključila to možnost v svoje načrte, saj bi kompakten in zmogljiv model predstavljal pomemben preboj v digitalizaciji slovenščine. Tak model bi bil ne le zelo koristen za vsakodnevno uporabo, ampak bi lahko postal ključni element razvoja slovenskega jezika v digitalni dobi.
Z napredkom področja odprtih modelov umetne inteligence bo destilacija znanja postala še bolj pomembna, saj omogoča ustvarjanje lahkih, a zmogljivih modelov, ki so prilagojeni različnim jezikovnim in kulturnim okoljem. Pričakujemo lahko še bolj učinkovite metode destilacije, ki bodo omogočile, da bodo lokalni jezikovni modeli še boljši in dostopni širšemu krogu uporabnikov. To bo ključnega pomena za ohranjanje in razvoj jezikovne raznolikosti v digitalnem svetu ter zagotavljanje, da umetna inteligenca deluje v korist celotne družbe.