Klientas paskambina, DI asistentas pakelia ragelį, išklauso klausimą ir atsako natūraliu balsu. Viskas vyksta per 2 sekundes. Bet kas iš tikrųjų vyksta per tas 2 sekundes? Kaip DI balso technologija paverčia garso bangas prasmingu pokalbiu? Paaiškinsime paprastai — be inžinerinių terminų.
Trumpai: 3 žingsniai per 2 sekundes
DI balso asistentas atlieka tris žingsnius kiekvieną kartą, kai klientas ką nors pasako:
- Žingsnis 1: Klausymas — DI paverčia kliento balsą tekstu (Speech-to-Text)
- Žingsnis 2: Supratimas — DI analizuoja tekstą ir nusprendžia, ką atsakyti (LLM / dirbtinis intelektas)
- Žingsnis 3: Atsakymas — DI paverčia atsakymą natūraliu balsu (Text-to-Speech)
Šie trys žingsniai vyksta per maždaug 1,5-2 sekundes — tiek, kiek trunka natūrali pauzė pokalbyje tarp dviejų žmonių. Klientas to net nepastebi.
Dabar pažvelkime į kiekvieną žingsnį detaliau.
Žingsnis 1: Kalbos atpažinimas (Speech-to-Text)
Kai klientas kalba į telefoną, DI asistentas gauna garso bangą — iš esmės, skaitmeninius duomenis, kurie atspindi balso svyravimus. Pirmas DI uždavinys — paversti šią garso bangą tekstu.
Kaip tai veikia? DI modelis buvo išmokytas klausytis milijonų valandų žmonių kalbos. Jis atpažįsta garsų derinius, žodžius, sakinius — panašiai, kaip jūs atpažįstate žodžius, kai kas nors kalba jums į ausį.
Lietuvių kalbos iššūkiai
Lietuvių kalba yra ypatingai sudėtinga kompiuteriui. Kodėl?
- Galūnės — tas pats žodis gali turėti dešimtis formų. „Dantis", „danties", „dantį", „dančiui" — visa tai reiškia tą patį daiktą, bet skamba visiškai skirtingai.
- Linksniai — lietuvių kalboje yra 7 linksniai, kurie keičia žodžio galūnę priklausomai nuo konteksto.
- Tarmės — žemaitis ir aukštaitis tą patį sakinį ištars skirtingai. DI turi suprasti abu.
- Mažesnis duomenų kiekis — anglų kalba turi šimtus kartų daugiau mokymo duomenų nei lietuvių, todėl lietuviškas atpažinimas reikalauja specializuotų sprendimų.
Nepaisant šių iššūkių, šiuolaikinė DI balso technologija pasiekia 95% ir didesnį tikslumą lietuvių kalba. Tai reiškia, kad iš 20 žodžių DI gali nesuprati vieno — bet vis tiek supras visą sakinio prasmę iš konteksto.
Žingsnis 2: Supratimas ir sprendimas (dirbtinis intelektas)
Dabar DI turi tekstą — tai, ką klientas pasakė. Bet žinoti žodžius dar nereiškia suprasti. Antrame žingsnyje DI turi suprasti, ko klientas iš tikrųjų nori.
Kaip DI supranta prasmę
Įsivaizduokite, kad klientas sako: „Norėčiau užsiregistruoti pas gydytoją rytoj po pietų". DI turi suprasti kelis dalykus vienu metu:
- Veiksmas — klientas nori registruotis (ne atšaukti, ne paklausti kainos)
- Kam — pas gydytoją (ne pas higienistę ar konsultantą)
- Kada — rytoj, po pietų (konkreti data ir laikas)
Tai daro didelis kalbos modelis (LLM) — ta pati technologija, kuri stovi už ChatGPT ir panašių sistemų. Tačiau DI balso asistentas yra specializuotas konkrečiam verslui.
Žinių bazė: Jūsų verslo informacija
DI asistentas nėra bendras pokalbių robotas. Jis žino viską apie Jūsų verslą:
- Paslaugas ir kainas — kokias paslaugas teikiate, kiek jos kainuoja, kiek trunka
- Darbo laiką — kada dirbate, kokios poilsio dienos, švenčių grafikai
- Specialistus — kas dirba, kokią kvalifikaciją turi, kokius laikus turi laisvus
- DUK — dažniausiai klientų užduodami klausimai ir atsakymai į juos
Ši informacija sudaro žinių bazę, kurią paruošiame kartu su jumis prieš paleidžiant asistentą.
Scenarijų valdymas
DI asistentas ne tik atsako į klausimus — jis atlieka veiksmus. Priklausomai nuo to, ko klientas nori, DI gali:
- Užregistruoti vizitą — tikrina laisvą laiką kalendoriuje ir sukuria rezervaciją
- Konsultuoti — paaiškina paslaugas, kainas, procedūras
- Peradresuoti skambutį — jei klausimas per sudėtingas, sujungia su žmogumi
- Priimti informaciją — užfiksuoja kliento vardą, kontaktus, pageidavimus
Žingsnis 3: Natūralus atsakymas (Text-to-Speech)
DI nusprendė, ką atsakyti. Dabar reikia tai pasakyti balsu — taip, kad skambėtų natūraliai ir žmogiškai.
Kaip DI generuoja balsą
Šiuolaikinė Text-to-Speech technologija negali būti palyginta su senomis robotiškomis sistemomis. DI balsas generuojamas naudojant neuroninius tinklus, kurie buvo išmokyti iš tūkstančių valandų žmogaus kalbos.
Rezultatas — balsas, kuris skamba natūraliai: su tinkamomis pauzėmis, kirčiais ir ritmu.
Lietuviško balso kokybė
Lietuviškas DI balsas šiandien yra aukštos kokybės. Jis taisyklingai taria lietuviškus garsus, teisingai deda kirčius dažniausiuose žodžiuose ir kalba sklandžiai, be nenatūralių pauzių.
Daugelis klientų pirmosiomis sekundėmis net nesuvokia, kad kalba su DI — balsas skamba kaip tikro žmogaus.
Intonacija ir emocijos
DI balsas nėra monotoniškas. Jis gali:
- Pakelti intonaciją klausiamuosiuose sakiniuose
- Kalbėti ramiau, kai klientas yra susirūpinęs
- Būti energingas, kai sveikina arba patvirtina rezervaciją
- Pritaikyti tempą — lėčiau, kai diktuojama informacija, greičiau bendram pokalbiui
Kas vyksta už kadro?
Trys žingsniai — klausymas, supratimas, atsakymas — yra tai, ką klientas girdi. Bet už kadro vyksta dar daugiau:
- CRM integracija — DI gali patikrinti, ar klientas jau yra Jūsų sistemoje, ir matyti jo istoriją. „Matau, kad paskutinį kartą buvote pas mus prieš 3 mėnesius" — tokia personalizacija sukuria geresnę patirtį.
- Kalendoriaus sinchronizacija — DI tikrina realų laisvą laiką Jūsų kalendoriuje ir sukuria rezervaciją tiesiogiai. Jokio dvigubo užsakymo ar rankinio pervedimo.
- SMS patvirtinimas — po registracijos DI gali automatiškai išsiųsti SMS su patvirtinimu: data, laikas, adresas, priminimai.
- Pokalbio santrauka — kiekvieno pokalbio pabaigoje sukuriama trumpa santrauka, kurią matote savo paskyroje: ko klientas norėjo, kas buvo padaryta, kokie tolesni veiksmai.
Kuo tai skiriasi nuo IVR?
Tradicinė IVR sistema (spauskite 1, spauskite 2) ir DI balso asistentas yra fundamentaliai skirtingos technologijos:
- IVR — fiksuoti meniu, mygtukai, riboti scenarijai. Klientas prisitaiko prie sistemos.
- DI asistentas — laisva kalba, supratimas, veiksmai. Sistema prisitaiko prie kliento.
IVR nesupranta kalbos — ji tik atpažįsta mygtukų paspaudimus. DI asistentas supranta, ką sakote, ir reaguoja prasmingai. Tai skirtumas tarp kalkuliatoriaus ir žmogaus. Daugiau apie šį skirtumą skaitykite straipsnyje DI balso asistentas vs IVR: kuo skiriasi.
Dažnai užduodami klausimai
Ar DI supranta tarmę?
DI balso asistentas yra treniruotas atpažinti standartinę lietuvių kalbą ir dažniausias tarmes. Žemaitišką ar aukštaitišką tartį jis supras be problemų. Labai retoms ar specifinėms tarmėms tikslumas gali būti šiek tiek mažesnis, bet sistema nuolat tobulėja.
Kas nutinka, kai DI nesupranta?
Kai DI nesupranta kliento, jis mandagiai paprašo pakartoti arba performuluoti klausimą. Jei po 2-3 bandymų vis dar nesuprantama, DI pasiūlo sujungti su žmogumi arba palikti kontaktinę informaciją, kad darbuotojas perskambintų.
Ar pokalbis įrašomas?
Taip, pokalbiai gali būti įrašomi ir transkribuojami. Tai daroma laikantis BDAR (GDPR) reikalavimų. Klientas informuojamas apie įrašymą, o jūs turite pilną prieigą prie įrašų ir transkripcijų savo paskyroje.
Kiek laiko trunka atsakymas?
Visas procesas — nuo kliento žodžių iki DI atsakymo — trunka apie 1,5-2 sekundes. Tai panašu į natūralią pauzę pokalbyje su žmogumi, todėl pokalbis jaučiasi sklandus ir natūralus.
Summary in English
DI voice assistants process calls in three steps that take about 2 seconds total. First, Speech-to-Text converts the caller's voice into text, achieving 95%+ accuracy in Lithuanian despite its complex grammar. Second, a large language model (LLM) interprets the meaning, checks the business knowledge base, and decides on the appropriate action — whether booking an appointment, answering questions, or transferring to a human. Third, Text-to-Speech generates a natural-sounding voice response with proper intonation. Behind the scenes, the DI integrates with CRM systems, calendars, and SMS to complete tasks automatically. ATSILIEPSIU.LT provides this technology for Lithuanian businesses.
Norite pamatyti, kaip tai veikia?
Išbandykite DI balso asistentą savo verslui — nemokama konsultacija ir demonstracija.
NEMOKAMA KONSULTACIJA →