Mašininio vertimo sistemų ir lokalizavimo paslaugų tobulinimas ir plėtra

2012–2014 m. Vilniaus universitetas įvykdė Europos Sąjungos Struktūrinių fondų finansuojamą projektą „Anglų–lietuvių–anglų ir prancūzų–lietuvių–prancūzų kalbų mašininio vertimo, paremto statistiniais metodais, sistemos sukūrimas“. Buvo sukurta mašininio vertimo (MV) sistema ALPMAVIS, ir visuomenei tapo prieinama vieša internetinė statistinio MV paslauga (https://www.versti.eu/), pasiekiama taip pat ir per integruotų lietuvių kalbos ir raštijos išteklių informacinę sistemą „Raštija.lt“ (www.raštija.lt). 2014 m. testų duomenimis, bendro pobūdžio tekstų vertimo kokybė buvo praktiškai tolygi tuometinės Google Translate vertimo sistemos rezultatams (žr. pvz. http://journals.lki.lt/index.php/bendrineKalba/article/download/47/40/).
Mašininio vertimo sistemų kūrimas ir plėtra yra modernus intelektualinis iššūkis, dominantis ne tik akademinius sluoksnius, bet ir visą šiuolaikinėmis informacinėmis technologijomis besinaudojančią visuomenę. 2013 m. mašininiam vertimui (MV) panaudoti dirbtiniai neuroniniai tinklai, idėja neuroninių tinklų skaičiavimui pasitelkti kompiuterių grafinius procesorius atvėrė galimybes spręsti realius uždavinius, tarp jų – atlikti ir mašininį vertimą. Neuroniniam MV realizuoti naudojami milijonai dirbtinių neuronų, mašininis vertimas  vis glaudžiau siejamas su dirbtinio intelekto kūrimu., o vertimo kokybė vis labiau artėja prie žmogiškojo.
Atsivėrusios naujos galimybės paskatino tobulinti Vilniaus universiteto mašininio vertimo sistemą. Šiuo metu projekto komanda, vadovaujama Arūno Samuilio, vykdo naują projektą „Mašininio vertimo sistemų ir lokalizavimo paslaugų tobulinimas ir plėtra“ ir kuria naujos kokybės atvirą ir nemokamą vertimo aplinką. Atliekami arba planuojami atlikti šie darbai:
  1. Kuriamos naujos technologijos ir papildomi lingvistiniai resursai, skirti pagerinti esamų MV sistemų kokybę.
    1. Bus sukurti ir į jau sukurtą Vilniaus universiteto mašininio vertimo infrastruktūrą integruoti sprendimai, kurie suteiks galimybę MV sistemai automatiškai mokytis iš vartotojų redaguojamo vertimo rezultato. Toks funkcionalumas leis gauti geresnį MV rezultatą, kiekvieną kartą atliekant vertimo redakcijas. Ypač svarbu, kad tokio funkcionalumo naudą iš karto galės pajusti vartotojai, verčiantys ir redaguojantys tekstą (nereikės atskirų sistemos apmokymo procesų, kurie trunka labai ilgai).
    2. Kuriami, apdorojami ir tikslinami papildomi lingvistiniai resursai (tekstynai ir žodynai, terminų sąrašai, lietuvių kalbos tezauras bei pirminio redagavimo priemonės, kontroliuojamos kalbos metodais ir kt.), skirti pagerinti esamų MV sistemų kokybę.
    3. Siekiant vertimo sistemos universalumo ir platesnio taikymo (taip pat ir profesionaliam darbui), sklandus teksto vertimas bus papildytas tikslesniu atskirų žodžių/frazių žodyninio vertimo funkcionalumu.
    4. Renkant ir apdorojant lingvistinius resursus, ypatingas dėmesys bus skiriamas medicinos, teisės ir komunikavimo sričių tekstams.
    5. Bus sukurtas MV įskiepis „OpenOffice/LibreOffice“ biuro programų paketui, kuris gebės komunikuoti su www.versti.eu mašininio vertimo sistemomis ir išversti vartotojų tekstus.
    6. Bus panaudotos neuroninių tinklų pagrindu veikiančios technologijos ir sukurtos galimybės jas panaudoti didinant esamų MV sistemų kokybę
  2. Esamoje infrastruktūroje bus įdiegtos papildomos mašininio vertimo kalbų poros. Dabartinės MV sistemos lietuvių-anglų-lietuvių ir lietuvių-prancūzų-lietuvių kalbų poros yra labai svarbios, apima didelę auditorijos dalį ir yra naudingos naudotojams, tačiau atkreiptinas dėmesys, kad tiek didieji pasaulio MV sistemų kūrėjai („Google“, „Microsoft Bing“, „Asia online“, kt.), tiek lokalūs kitų šalių MV sistemų vystytojai neapsiriboja viena ar dviem kalbų poromis. Bus nepamirštos Lietuvos auditorijai tokios svarbios kalbų poros. kaip tautinių mažumų kalbos (lietuvių-lenkų-lietuvių ir lietuvių-rusų-lietuvių) ir vis aktualesnė Lietuvoje lietuvių-vokiečių-lietuvių kalbų pora. Šios kalbų poros buvo atrinktos remiantis realiu visuomenės poreikiu.
  3. Esama MV infrastruktūra pritaikoma elektroninės valdžios paslaugoms teikti, nes MV sprendimai ir įrankiai turi būti ne tik viešai prieinami vartotojams, tačiau ir lengvai adaptuojami e. valdžios paslaugų teikimui. Bus sukurtos kliento kompiuteryje ir/ar serveryje programas veikiančio programos, kurios gebės e. valdžios paslaugas teikiančių institucijų pateiktą informaciją išversti ir pateikti pasirinkta kalba (pvz., „epaslaugos.lt“). Taip pat bus sukurtos ir į teikiamą paslaugą integruotos konkrečiai sričiai pritaikytos MV sistemos. Bus paruošta diegimo infrastruktūra ir atlikti bandomieji diegimai dviem ar daugiau e. paslaugų teikti.
  4. VU projekte „Lietuvių šneka valdomų paslaugų plėtra – LIEPA 2“ sukurti šnekos atpažinimo ir sintezės sprendimai bus įdiegti egzistuojančioje mašininio vertimo platformoje. Tai leis www.versti.eu vartotojams įvesti tekstą balsu, jį koreguoti, išsiversti į norimas kalbas, išgirsti balsu, pakoreguoti išverstą tekstą ir platinti jį kitais komunikacijos kanalais (pvz., perkelti į teksto redagavimo programą, rašyti el. laiškus, platinti socialiniais kanalais). Tekstas taip pat bus redaguojamas bei suteikiama galimybė perklausyti atskirus garsinius fragmentus.
Lokalizavimo paslaugų tobulinimas ir plėtra
Vykdant priemonės „Lietuvių kalba informacinėje visuomenėje“ projektą „Mašininio vertimo sistemų ir lokalizavimo paslaugų tobulinimas ir plėtra” (projekto laikotarpis 2018–2021 m.), tęsiami programinės įrangos lokalizavimo ir priemonių lokalizavimui sukūrimo darbai.
Įgyvendinant šią projekto dalį nuveikti tokie darbai:
  1. Sukurta programų lokalizavimo automatizavimo ekspertinės lietuvinimo kokybės vertinimo el. paslauga.
  2. Sukurta vertimo atmintis (anglų–lietuvių kalbomis, 100 000 įrašų).
  3. Sukurta leksikos bazė (per 8000 frazių).
  4. Lokalizuota programinė įranga:
  • Raštinės paketo „LibreOffice“ programų atnaujinimai ir žinynai;
  • Interneto svetainių interaktyviojo kūrimo priemonė „Joomla!“;
  • Duomenų statistinio apdorojimo paketas „R“;
  • Mobiliųjų įrenginių programėlių kūrimo priemonė „App Inventor“.