Pradžia / Blogas / Kaip veikia DI balso technologija

Kaip veikia DI balso technologija: nuo garso iki atsakymo

Klientas paskambina, DI asistentas pakelia ragelį, išklauso klausimą ir atsako natūraliu balsu. Viskas vyksta per 2 sekundes. Bet kas iš tikrųjų vyksta per tas 2 sekundes? Kaip DI balso technologija paverčia garso bangas prasmingu pokalbiu? Paaiškinsime paprastai — be inžinerinių terminų.

Trumpai: 3 žingsniai per 2 sekundes

DI balso asistentas atlieka tris žingsnius kiekvieną kartą, kai klientas ką nors pasako:

Šie trys žingsniai vyksta per maždaug 1,5-2 sekundes — tiek, kiek trunka natūrali pauzė pokalbyje tarp dviejų žmonių. Klientas to net nepastebi.

Dabar pažvelkime į kiekvieną žingsnį detaliau.

Žingsnis 1: Kalbos atpažinimas (Speech-to-Text)

Kai klientas kalba į telefoną, DI asistentas gauna garso bangą — iš esmės, skaitmeninius duomenis, kurie atspindi balso svyravimus. Pirmas DI uždavinys — paversti šią garso bangą tekstu.

Kaip tai veikia? DI modelis buvo išmokytas klausytis milijonų valandų žmonių kalbos. Jis atpažįsta garsų derinius, žodžius, sakinius — panašiai, kaip jūs atpažįstate žodžius, kai kas nors kalba jums į ausį.

Lietuvių kalbos iššūkiai

Lietuvių kalba yra ypatingai sudėtinga kompiuteriui. Kodėl?

Nepaisant šių iššūkių, šiuolaikinė DI balso technologija pasiekia 95% ir didesnį tikslumą lietuvių kalba. Tai reiškia, kad iš 20 žodžių DI gali nesuprati vieno — bet vis tiek supras visą sakinio prasmę iš konteksto.

Žingsnis 2: Supratimas ir sprendimas (dirbtinis intelektas)

Dabar DI turi tekstą — tai, ką klientas pasakė. Bet žinoti žodžius dar nereiškia suprasti. Antrame žingsnyje DI turi suprasti, ko klientas iš tikrųjų nori.

Kaip DI supranta prasmę

Įsivaizduokite, kad klientas sako: „Norėčiau užsiregistruoti pas gydytoją rytoj po pietų". DI turi suprasti kelis dalykus vienu metu:

Tai daro didelis kalbos modelis (LLM) — ta pati technologija, kuri stovi už ChatGPT ir panašių sistemų. Tačiau DI balso asistentas yra specializuotas konkrečiam verslui.

Žinių bazė: Jūsų verslo informacija

DI asistentas nėra bendras pokalbių robotas. Jis žino viską apie Jūsų verslą:

Ši informacija sudaro žinių bazę, kurią paruošiame kartu su jumis prieš paleidžiant asistentą.

Scenarijų valdymas

DI asistentas ne tik atsako į klausimus — jis atlieka veiksmus. Priklausomai nuo to, ko klientas nori, DI gali:

Žingsnis 3: Natūralus atsakymas (Text-to-Speech)

DI nusprendė, ką atsakyti. Dabar reikia tai pasakyti balsu — taip, kad skambėtų natūraliai ir žmogiškai.

Kaip DI generuoja balsą

Šiuolaikinė Text-to-Speech technologija negali būti palyginta su senomis robotiškomis sistemomis. DI balsas generuojamas naudojant neuroninius tinklus, kurie buvo išmokyti iš tūkstančių valandų žmogaus kalbos.

Rezultatas — balsas, kuris skamba natūraliai: su tinkamomis pauzėmis, kirčiais ir ritmu.

Lietuviško balso kokybė

Lietuviškas DI balsas šiandien yra aukštos kokybės. Jis taisyklingai taria lietuviškus garsus, teisingai deda kirčius dažniausiuose žodžiuose ir kalba sklandžiai, be nenatūralių pauzių.

Daugelis klientų pirmosiomis sekundėmis net nesuvokia, kad kalba su DI — balsas skamba kaip tikro žmogaus.

Intonacija ir emocijos

DI balsas nėra monotoniškas. Jis gali:

Kas vyksta už kadro?

Trys žingsniai — klausymas, supratimas, atsakymas — yra tai, ką klientas girdi. Bet už kadro vyksta dar daugiau:

Kuo tai skiriasi nuo IVR?

Tradicinė IVR sistema (spauskite 1, spauskite 2) ir DI balso asistentas yra fundamentaliai skirtingos technologijos:

IVR nesupranta kalbos — ji tik atpažįsta mygtukų paspaudimus. DI asistentas supranta, ką sakote, ir reaguoja prasmingai. Tai skirtumas tarp kalkuliatoriaus ir žmogaus. Daugiau apie šį skirtumą skaitykite straipsnyje DI balso asistentas vs IVR: kuo skiriasi.

Dažnai užduodami klausimai

Ar DI supranta tarmę?

DI balso asistentas yra treniruotas atpažinti standartinę lietuvių kalbą ir dažniausias tarmes. Žemaitišką ar aukštaitišką tartį jis supras be problemų. Labai retoms ar specifinėms tarmėms tikslumas gali būti šiek tiek mažesnis, bet sistema nuolat tobulėja.

Kas nutinka, kai DI nesupranta?

Kai DI nesupranta kliento, jis mandagiai paprašo pakartoti arba performuluoti klausimą. Jei po 2-3 bandymų vis dar nesuprantama, DI pasiūlo sujungti su žmogumi arba palikti kontaktinę informaciją, kad darbuotojas perskambintų.

Ar pokalbis įrašomas?

Taip, pokalbiai gali būti įrašomi ir transkribuojami. Tai daroma laikantis BDAR (GDPR) reikalavimų. Klientas informuojamas apie įrašymą, o jūs turite pilną prieigą prie įrašų ir transkripcijų savo paskyroje.

Kiek laiko trunka atsakymas?

Visas procesas — nuo kliento žodžių iki DI atsakymo — trunka apie 1,5-2 sekundes. Tai panašu į natūralią pauzę pokalbyje su žmogumi, todėl pokalbis jaučiasi sklandus ir natūralus.

Summary in English

DI voice assistants process calls in three steps that take about 2 seconds total. First, Speech-to-Text converts the caller's voice into text, achieving 95%+ accuracy in Lithuanian despite its complex grammar. Second, a large language model (LLM) interprets the meaning, checks the business knowledge base, and decides on the appropriate action — whether booking an appointment, answering questions, or transferring to a human. Third, Text-to-Speech generates a natural-sounding voice response with proper intonation. Behind the scenes, the DI integrates with CRM systems, calendars, and SMS to complete tasks automatically. ATSILIEPSIU.LT provides this technology for Lithuanian businesses.

Norite pamatyti, kaip tai veikia?

Išbandykite DI balso asistentą savo verslui — nemokama konsultacija ir demonstracija.

NEMOKAMA KONSULTACIJA →

Susiję straipsniai