Kai pradėjome kurti DI balso asistentą Lietuvos verslui, pirmiausia susidūrėme su klausimu, kurį ignoruoja beveik visos pasaulinės DI kompanijos: kaip padaryti, kad dirbtinis intelektas (DI) iš tikrųjų kalbėtų lietuviškai? Ne vertimų kalba, ne su robotišku akcentu, o natūraliai — taip, kad skambinantysis net nesusimąstytų, ar kalba su žmogumi, ar su mašina. Šis straipsnis — apie tai, kodėl lietuvių kalba yra vienas sunkiausių iššūkių DI pasaulyje, ir kaip mes jį išsprendėme.
Kodėl lietuvių kalba yra iššūkis DI ir DI technologijoms
Lietuvių kalba yra unikali. Kalbininkai ją vadina viena archaiškiausių gyvų indoeuropiečių kalbų — ji išsaugojo formas, kurios kitose kalbose išnyko prieš šimtmečius. Tai puiku kultūrai ir lingvistikai. Bet dirbtiniam intelektui tai reiškia košmarą.
Štai kodėl:
- Sudėtinga morfologija. Lietuvių kalboje yra 7 linksniai, daugybė veiksmažodžių formų, priesagų ir galūnių variacijų. Žodis „namas" gali virsti „namo", „namui", „namą", „name", „namu", „namas" — ir kiekviena forma turi skirtingą prasmę priklausomai nuo sakinio. Anglų kalboje žodis „house" lieka „house" beveik visada.
- Tik 3 milijonai kalbėtojų. Pasaulyje lietuviškai kalba apie 3 milijonus žmonių. Palyginimui — angliškai kalba virš 1,5 milijardo. DI modeliai mokosi iš duomenų, ir lietuvių kalbos duomenų yra šimtus kartų mažiau nei anglų ar ispanų.
- Menki ištekliai globaliame DI. Didžiosios DI kompanijos — OpenAI, Google, Meta — investuoja į kalbas, kurios turi didžiausią rinką. Lietuvių kalba niekada nebuvo prioritetas. Ji papuola į „long tail" kategoriją kartu su kitomis mažosiomis kalbomis, kurioms skiriama minimali dėmesio dalis.
- Laisva žodžių tvarka. Lietuvių kalboje galima sakyti „Aš noriu pas dantistą", „Pas dantistą noriu aš" ir „Noriu aš pas dantistą" — visais atvejais prasmė ta pati. DI turi suprasti visus šiuos variantus.
Dėl visų šių priežasčių lietuvių kalba yra viena iš sudėtingiausių kalbų, su kuriomis DI turi dirbti. Ir būtent dėl to pasauliniai sprendimai Lietuvoje veikia prastai.
Kas buvo bandyta anksčiau — ir kodėl neveikė
Prieš kuriant savo sprendimą, mes išbandėme viską, kas buvo rinkoje. Rezultatai buvo nuvyliantys.
Google Assistant ir Siri lietuviškai. Nors šios sistemos formaliai „palaiko" lietuvių kalbą, realybėje jos dažnai nesuprasdavo net paprastų sakinių. „Užregistruok mane rytoj devintą" virsdavo nesąmonėmis. Atpažinimas veikė toleruotinai tik idealiai tariamoje bendrinėje kalboje, tiesiai į mikrofoną, be jokio triukšmo aplinkui. Telefono pokalbio sąlygomis — beviltiška.
IVR sistemos. Tradicinės telefonijos sistemos su meniu „spauskite 1, spauskite 2" lietuvių kalboje veikia techniškai, bet yra nenatūralios. Jos negali suprasti laisvos kalbos, negali pritaikyti atsakymo kontekstui ir erzina klientus. Daugiau apie tai — straipsnyje Dirbtinis intelektas balsu.
Tekstiniai chatbotai. Chatbotai interneto svetainėse dažnai „palaiko" lietuvių kalbą per automatinį vertimą. Rezultatas — gramatiškai netaisyklingi sakiniai, kurie kartais yra tiesiog juokingi. „Dėkojame jums už kreipimąsi, mes atgal skambinsime" — taip verčia mašinos. Lietuviai tai atpažįsta iš karto ir praranda pasitikėjimą.
Supratome, kad reikia kurti DI sprendimą nuo nulio. Ne versti anglišką produktą, o kurti sistemą, kuri gimtąja kalba yra lietuvių.
Kaip mes tai išsprendėme — ATSILIEPSIU.LT DI požiūris
Mūsų požiūris buvo fundamentaliai kitoks nei globalių DI kompanijų. Jos kuria vieną universalų modelį šimtui kalbų ir tikisi, kad kiekviena veiks „pakankamai gerai". Mes nusprendėme kurti specializuotą sistemą, kurioje lietuvių kalba yra pirmoji ir svarbiausia.
Pritaikyti kalbos atpažinimo modeliai
Užuot naudoję standartinius Speech-to-Text modelius, sukūrėme specializuotus lietuvių kalbos atpažinimo modelius. Jie treniruoti su lietuviškos kalbos duomenimis — tikrais pokalbiais, tarmėmis, skirtingo amžiaus kalbėtojais. Standartinis globalus modelis lietuviškai pasiekia apie 80-85% tikslumą. Mūsų modelis — virš 95%.
Lietuviška balso sintezė
Mūsų Text-to-Speech sistema generuoja natūralų lietuvišką balsą su tinkamomis intonacijomis, kirčiais ir ritmu. Tai ne robotiška moters ar vyro imitacija — tai sklandus, gyvas balsas, kuris teisingai taria sudėtingus lietuviškus žodžius ir skiria kirčio vietas.
Kai sakome „natūraliai kalba lietuviškai", turime omenyje būtent tai — DI nepaverčia angliško teksto lietuviškomis raidėmis. Jis generuoja mintis lietuviškai, su taisyklinga gramatika, tinkamais linksniais ir natūraliu sakinių dėliojimu.
Realaus laiko morfologinis apdorojimas
Vienas didžiausių techninių iššūkių buvo lietuvių kalbos morfologija realiu laiku. Kai DI turi atsakyti klientui per 1,5-2 sekundes, jis negali leisti sau suklysti su linksniu ar galūne. Sukūrėme specializuotą morfologinio apdorojimo modulį, kuris užtikrina, kad kiekvienas generuojamas sakinys yra gramatiškai taisyklingas. Daugiau apie tai, kaip veikia visas technologinis procesas — straipsnyje Kaip veikia DI balso technologija.
Ne vertimas, o gimtoji generacija
Tai esminis skirtumas. Daugelis DI sistemų lietuviškai veikia taip: supranta kliento žodžius, išverčia į anglų kalbą, sugalvoja atsakymą angliškai, ir tada verčia atgal į lietuvių. Kiekviename vertimo etape prarandama kokybė ir atsiranda klaidų.
Mūsų sistema mąsto ir generuoja lietuviškai. Nėra tarpinio vertimo. Todėl atsakymai skamba natūraliai, o ne kaip išversti iš kitos kalbos.
Kalbos atpažinimas: tarmės, akcentai, triukšmas
Laboratorijoje DI veikia puikiai. Bet realiame gyvenime žmonės kalba skirtingai. Ir mūsų sistema turi su tuo susidoroti.
Tarmės ir akcentai. Žemaitijos gyventojas ir vilnietis tą patį sakinį ištars labai skirtingai. Aukštaičiai turi savus kirčiavimo ypatumus. Mūsų atpažinimo sistema yra treniruota su regioniniais kalbos pavyzdžiais — ji supranta žemaičius, aukštaičius, dzūkus ir suvalkiečius.
Vyresnio amžiaus kalbėtojai. Vyresni žmonės dažnai kalba lėčiau, su ilgesnėmis pauzėmis, kartais pakartoja žodžius. Mūsų sistema yra optimizuota šiems kalbos ypatumams — ji kantriai laukia, kol kalbėtojas baigia mintį, ir neinterpretuoja pauzės kaip sakinio pabaigos.
Foninis triukšmas. Žmogus skambina iš gatvės, iš automobilio, iš triukšmingos kavinės. Telefoninio pokalbio garso kokybė niekada nėra ideali. Mūsų sistema naudoja triukšmo slopinimo algoritmus, kurie atskiria kalbėtojo balsą nuo aplinkos garsų ir užtikrina tikslų atpažinimą net sudėtingomis sąlygomis.
Daugiakalbystė — automatinis persijungimas
Lietuva yra daugiakalbė šalis. Vilniuje daug kas kalba lenkiškai ir rusiškai. Versle anglų kalba yra būtinybė. Ukrainiečių bendruomenė auga. Mūsų DI asistentas palaiko 5 kalbas: lietuvių, anglų, rusų, lenkų ir ukrainiečių.
Bet svarbiausia — tai, kaip persijungimas veikia. Nėra jokio meniu „pasirinkite kalbą". Nėra mygtuko „press 2 for English". Klientas tiesiog pradeda kalbėti — bet kokia kalba — ir DI automatiškai atpažįsta kalbą ir persijungia.
Dar daugiau: jei pokalbio viduryje klientas persijungia iš lietuvių į anglų kalbą (o tai nutinka dažniau nei galvojate), DI seka paskui. Be pauzės, be klaidos, be „atsiprašau, nesupratau".
Realus pavyzdys: klientas skambina į odontologijos kliniką Vilniuje, pradeda lietuviškai, bet kai reikia paaiškinti sudėtingą procedūrą, persijungia į anglų kalbą. DI sklandžiai tęsia pokalbį angliškai, o paskui vėl grįžta prie lietuvių, kai klientas grįžta prie kasdienių klausimų.
Tokia daugiakalbystė yra ypač svarbi turizmo ir paslaugų sektoriuje — viešbučiams, restoranams, klinikoms, kurios aptarnauja tarptautinius klientus.
Ką tai reiškia verslui
Technologija yra įdomi, bet verslas nori žinoti vieną dalyką: ar tai veikia mano klientams?
Atsakymas — taip, ir štai kodėl tai svarbu:
- Jokio trintis. Kai klientas skambina ir girdi natūralią lietuvišką kalbą, jis jaučiasi patogiai. Nereikia prisitaikyti, kartoti, rinktis kalbos iš meniu. Pokalbis vyksta taip, kaip jis tikisi — sklandžiai ir natūraliai.
- Pasitikėjimas nuo pirmos sekundės. Klientai pasitiki verslais, kurie su jais kalba jų kalba. Prastai kalbantis DI sukuria atvirkštinį efektą — „jei jų technologija tokia prasta, tai ko tikėtis iš paslaugų?"
- Vyresnio amžiaus klientai. Daugelyje sektorių — ypač medicinoje ir odontologijoje — vyresnio amžiaus klientai sudaro didelę dalį. Šie žmonės niekada nenaudos chatboto ir neužsipildys formos internete. Bet jie paskambins. Ir mūsų DI su jais kalbės suprantamai ir kantriai.
- 24/7, be kompromisų. DI kalba taisyklinga lietuvių kalba ir vidurnaktį, ir per šventes, ir sekmadienį. Nėra pavargusio darbuotojo, kuris prastai ištaria klientui informaciją. Kokybė vienoda visada.
- Tarptautiniai klientai jaučiasi laukiami. Kai angliškai arba rusiškai kalbantis klientas paskambina ir iškart gauna atsakymą savo kalba — be laukimo, be persijungimo — tai sukuria profesionalumo įspūdį, kurio daugelis Lietuvos verslų šiandien negali pasiūlyti.
Galiausiai, tai yra apie tai, kad Jūsų klientai kalba su DI savo gimtąja kalba — be jokio trintis. Ne todėl, kad reikia. O todėl, kad taip yra natūraliau, greičiau ir maloniau visiems.
Dažnai užduodami klausimai
Ar DI tikrai skamba natūraliai lietuviškai?
Taip. ATSILIEPSIU.LT naudoja specializuotus lietuvių kalbos modelius su neuronine balso sinteze. Daugelis skambinančiųjų pirmosiomis sekundėmis nesuvokia, kad kalba su DI — balsas skamba natūraliai, su tinkamomis intonacijomis ir taisyklingomis galūnėmis.
Ar DI supranta žemaitišką ar aukštaitišką tarmę?
Taip. Mūsų kalbos atpažinimo sistema yra treniruota su įvairių Lietuvos regionų kalbos pavyzdžiais. Ji supranta žemaitišką, aukštaitišką ir kitas tarmes, taip pat vyresnio amžiaus žmonių kalbą ir negimusių Lietuvoje kalbėtojų lietuvių kalbą.
Kokias kalbas palaiko DI asistentas?
ATSILIEPSIU.LT palaiko 5 kalbas: lietuvių, anglų, rusų, lenkų ir ukrainiečių. DI automatiškai atpažįsta, kokia kalba kalba skambinantysis, ir persijungia be jokių meniu ar mygtukų paspaudimų — net pokalbio viduryje.
Kuo tai skiriasi nuo Google Translate ar Siri lietuviškai?
Google Translate ir Siri naudoja universalius modelius, kurie lietuvių kalbą traktuoja kaip vieną iš šimtų kalbų. Mūsų sistema yra specializuota būtent lietuvių kalbai — su pritaikytais kalbos atpažinimo modeliais, lietuviška balso sinteze ir realaus laiko morfologiniu apdorojimu. Skirtumas yra kaip tarp bendro žodyno ir gimtojo kalbėtojo.
Norite išgirsti, kaip skamba DI lietuviškai?
Paskambinkite ir įsitikinkite patys — Agnė kalba natūralia lietuvių kalba:
+370 5 200 2620 — Agnė (demo)
NEMOKAMA KONSULTACIJA →