
GaMS, slovenski ChatGPT
Čeprav mednarodni veliki jezikovni modeli, kot je ChatGPT, vključujejo slovenščino, je priprava slovenske različice nujna za dosego razvojne neodvisnosti, meni dr. Špela Arhar Holdt.

Kaja Kovič
Tudi Slovenci gradimo svojega ....
»GaMS je veliki jezikovni model za slovenščino, ki nastaja na nacionalnem raziskovalnem programu PoVeJMo: Prilagodljiva obdelava naravnega jezika s pomočjo velikih jezikovnih modelov; kateraga vodja je dr. Simon Krek,« nadaljuje raziskovalna sodelavka pri Laboratoriju za strojno učenje in jezikovne tehnologije, ki na projektu PoveJMo vodi zbiranje besedil za jezikovni model GaMS.
Veliki jezikovni model je vrsta umetne inteligence, zasnovana za obdelavo, razumevanje in ustvarjanje besedila, ki je podobno človeškemu. Uči se na ogromnih zbirkah podatkov, ki navadno vsebujejo milijarde besed iz različnih virov. To velikemu jezikovnemu modelu omogoča, da podrobno razume jezik, slovnico in kontekst.
K zbiranju besedila vabijo širšo javnost
Navkljub mednarodnim modelom, kot je ChatGPT, ki že vključujejo slovenščino, je priprava nacionalnega velikega jezikovnega modela nujna za dosego slovenske razvojne neodvisnosti. »Tak model lahko oblikujemo skladno s slovenskim javnim interesom, kar vključuje upoštevanje relevantne zakonodaje, etično zasnovo, varno hrambo podatkov in odprt dostop za nadaljnji razvoj. GaMS bo razvit ciljno za slovenščino in bo zato boljši pri razumevanju in tvorbi slovenskega jezika, upošteval pa bo tudi kulturne specifike. Podobni jezikovni modeli trenutno nastajajo ali bodo nastajali za številne evropske jezike. Za slovenščino, ki ima manjše število govorcev in govork, pa se bo treba posebej potruditi, da zberemo dovolj besedil za dobro delovanje modela.«
Sogovornica pove, da je s prvo različico GaMSa že mogoče poklepetati na spletni strani Povejmo.si, kjer je tudi povezava do odprto dostopnega modela. »GaMS-1B-Chat je približno tisočkrat manjši od največjih modelov (npr. najnovejše verzije ChatGPT), zato se v odgovorih tudi pogosteje moti. Cilj programa »PoVeJMo« je zbrati dodatna besedila, da bo v bodoče deloval bolje. Pri zbiranju besedil lahko na tej spletni strani sodeluje tudi širša javnost.«
Komu je GaMS namenjen?
Jezikovni model GaMS je namenjen celotni skupnosti, saj omogoča različne načine uporabe in nadaljnji razvoj. Na voljo bo za širšo industrijsko rabo in za vsakdanjo rabo posameznikov. »V muzejih ga bodo lahko uporabili za napredne muzejske interaktivne aplikacije; v industriji ga bodo uporabili pri prepoznavanju in sintezi slovenskega govora v industrijskih aplikacijah; lahko ga bodo uporabljali v medicini; koristen pa bo tudi za oglaševalce - naš cilj je, da ga naučimo pravilne rabe slovenske slovnice, v kateri so trenutni veliki jezikovni modeli, kot je ChatGPT še zelo v zaostanku. Vse je odvisno od kakovosti in števila zbranih besedil. Več besedil kot zberemo, bolje bo model deloval.«
Sogovornica zaključi, da v letu 2025 organizirajo nacionalno zbiralno akcijo, v kateri bodo k zbiranju besedil spodbudili širšo javnost, pa tudi osveščali o pomenu nacionalnega jezikovnega modela.