Ištekliai programų lokalizavimo automatizavimui
Vertimo atmintis
Vertimo atmintis naudojama programinėje įrangoje, padedančioje žmogui versti tekstus, paprastai kartu su kita kompiuterio įranga bei ištekliais: su mašininio vertimo sistemomis, terminologijos tvarkymo sistemomis, daugiakalbiais žodynais, kokybės užtikrinimo sistemomis.
Vykdant projektą parengtas kompiuterių programose pasikartojančių teksto fragmentų (frazių ir sakinių, sudėtinių terminų) rinkinys anglų ir lietuvių kalbomis. Ši vertimo atmintis skiriama programinės įrangos gamintojams ir lokalizuotojams, verčiantiems kompiuterių programas į lietuvių kalbą.
Teksto fragmentai paimti iš įvairių lokalizuotų programų išteklių ir žodynų. Priklausomai nuo konkrečios programos paskirties bei situacijos konteksto ta pati (ar panaši) angliška frazė gali būti verčiama skirtingai, todėl vertimo atmintyje pateikta įvairių to paties angliško fragmento vertimų į lietuvių kalbą. Dažnai segmento reikšmė gali būti ta pati, bet jo tekstas gali šiek tiek skirtis. Kartais vartojami kiti pagalbiniai žodžiai, sinonimai, todėl vertimo atmintyje pateikiami visi panašūs segmentai, atitinkantys paieškos užklausą. Lokalizuotojas turi patikrinti, kuris vertimas tinkamas konkrečiam atvejui. Variantiškumas naudingas, kai kuriama terminija, vertimo vadovai, lokalizavimo automatizavimo priemonės.
Įvairių sričių kalbos duomenys ir jų rinkiniai yra svarbus dirbtinio intelekto technologijų ir sprendinių šaltinis. Visų rūšių kalbos duomenys turi būti nuolat gausinami ir atnaujinami, kad atspindėtų kuo įvairesnes kalbos vartojimo sritis bei kalbos pokyčius ir atlieptų įvairių tikslinių visuomenės grupių reikmes. Programinės įrangos lokalizavimo srities vertimo atmintis padės tobulinti esamas mašininio vertimo sistemas ir kurti naujos kokybės neuroniniais tinklais paremtą vertimo aplinką.
Projekto metu atliktas vertimo atminties harmonizavimas su kitomis vertimo automatizavimo priemonėmis ir jose sukauptais lokalizavimo ištekliais – mašininio vertimo ir lokalizuotojams skirtais žodynais: Enciklopediniu kompiuterijos žodynu, Anglų–lietuvių kalbų kompiuterijos žodynu, Aiškinamuoju kompiuterijos terminų žodynu.
Vertimo atmintis pateikiama TAB formatu. Supakuotą (ZIP) failą galima atsisiųsti iš čia.
Ištekliai įkelti į mašininio vertimo sistemos lokalizavimo sritį.
Leksikos bazė
Parengta dvikalbė (anglų–lietuvių kalbų) kompiuterijos frazių leksikos bazė (per 8000 įrašų). Kiekvienos frazės aprašas susideda iš dviejų dalių: angliškos ir lietuviškos. Dalis junginių pateikti su paaiškinimais, dažniausiai tai junginių vartojimo kontekstas. Įtraukti dažnai programose vartojami leksikos žodžių junginiai, rodomi kompiuterio ekrane, kitaip tariant, frazės, paimtos iš kompiuterių programų sąsajų, tačiau vengiama traukti pavienius terminus, jau esančius kompiuterijos žodynuose.
Į vertimo atminties vertimo segmentų rinkinį yra įtrauktų ne tik programose sutinkamų tekstų eilučių, bet ir kompiuterijos žodynuose esančių terminų bei kitų dažnai pasikartojančių žodžių junginių (leksikos elementų), kurių nemaža dalis nesudaro viso vertimo segmento, o tik į jį įeina. Tokie žodžių junginiai lokalizacijos metu lieka nepanaudoti dėl didelio Levenšteino atstumo tarp jų ir juos panaudojančių vertimo segmentų. Vertimo atminties programose (pvz., „OmegaT“, „Trados Studio 2015“) yra galimybė pasinaudoti leksikos žodynu, pateikiamu atskiru failu. Tada atskirame nedideliame programos polangyje rodomi į verčiamą segmentą įeinančių leksinių elementų vertimai.
Leksikos bazės TAB formatu pakuotąjį (ZIP) failą galima atsisiųsti iš čia.
Ištekliai įkelti į mašininio vertimo sistemos lokalizavimo sritį.