MyDictate – praktický program pro diktování do počítače

23.07.2014 14:29

Program MyDictate představili jeho tvůrci Jan Nouza a Petr Červa z Technické univerzity Liberec. Současně byl program uvolněn do prodeje, jeho distribuci zajišťuje liberecká firma Fugasoft.

Petr Červa, Jan Nouza
Laboratoř počítačového zpracování řeči,
 Technická univerzita v Liberci, Hálkova 6, 461 17 Liberec 1
 
 
 
Úvod
MyDictate je další z řady praktických výsledků mnohaletého intenzivního výzkumu v oblasti automatického rozpoznávání řeči na Technické univerzitě v Liberci.
Tento program byl vyvinut jako účinný doplněk a nadstavba již existujícího programu pro hlasové ovládání počítače (MyVoice) s cílem umožnit plnohodnotný hlasový diktát. Při vývoji programu MyDictate byl brán hlavní zřetel opět na handicapované osoby, které nemohou používat ruce. Veškeré činnosti spojené s diktováním i případnými opravami lze totiž vykonávat pouze hlasem. Výhody diktovacího programu však jistě ocení i další, kteří musí často zadávat text do počítače a přitom nejsou příliš zruční v rychlém psaní na klávesnici.

Představovaný program je kompromisem mezi ideálem, který by představovala vzdělaná   a hbitá písařka, a možnostmi současné techniky a vědy. Zatím není možné na stávajících počítačích zvládnout plynulý diktát v češtině na jakékoliv téma - navíc odolný i proti takovým běžným jevům, jako je např. přeřeknutí - s tak vysokou úspěšností, která by vyžadovala minimum oprav. Protože opravy chyb způsobené diktovacím systémem či špatnou výslovností mohou být největším problémem pro handicapované uživatele, byla při vývoji prakticky použitelného programu zvolena taková strategie, která opravy činí snazšími a celou technologii zároveň jednodušší. Zvolená strategie spočívá v tom, že diktování textů se děje po jednotlivých slovech, mezi kterými je třeba vždy udělat krátkou pauzu. Tento způsob, byť na první pohled poněkud méně přirozený, nabízí několik výhod:

1) Umožňuje diktovat s větším rozmyslem, protože pauzy mezi slovy lze využít jak pro okamžitou kontrolu napsaného slova a textu, tak i ke klidnému nadechnutí, odkašlání, či přemýšlení o dalším textu. 

2) Umožňuje okamžitě hlasem provádět opravy v případě chybně rozpoznaných či  stejně znějících slov. Při takovéto okamžité opravě lze využít toho, že program sám nabízí nejpodobnější slova, z nichž lze jedním povelem vybrat to správné a nahradit jím to, které nesprávně zvolil počítač.

3) Umožňuje zvládnout diktování s obrovským slovníkem (který je pro češtinu nutností) i na běžné výpočetní technice.

4) Umožňuje i v průběhu diktování vkládat do slovníku další slova, která v něm dosud nebyla, a ta hned dále používat.
 
1. Princip rozpoznávání diktovaného textu počítačem

Program pro diktování zpracovává zvukový signál snímaný mikrofonem, snaží se detekovat začátek a konec promluvy a najít z existujícího slovníku vždy to konkrétní slovo, slovní spojení, případně řídící povel, jehož akusticko-fonetický model co nejvíce odpovídá zaznamenanému signálu. Ve slovníku jsou primárně jednotlivá slova, ale mohou tam být i některá častá slovní spojení (např. spojení, která umožňují zadat číslovku 2008 – představující rok – najednou), dále frekventované zkratky (např. USA, ČSSD, KDU-ČSL) a v neposlední řadě také speciální řídicí povely, např. pro provádění oprav, formátování textu, pohyb kurzoru, atd.

Současná verze programu má ve svém slovníku více než půl milionu položek, což výrazně snižuje pravděpodobnost, že slovu, které chcete říci, systém nebude rozumět. Na základě rozsáhlých analýz a statistik vychází, že při diktování běžných textů by cca 99 slov ze 100 mělo být nalezeno ve slovníku. Pokud se toto uživateli přece jen stane, že jím požadované slovo není rozpoznáno, protože není ve slovníku, může ho zadat po jednotlivých písmenech   a okamžitě ho zařadit do slovníku.  
 
2. Charakteristiky programu MyDictate
2.1 Hlavní rysy
·       Program je kompletně ovládán hlasem a tudíž nevyžaduje zapojení rukou.
·       Program umožňuje diktování všem osobám, které jsou schopny dobře vyslovovat         a zároveň očima sledovat dění na obrazovce počítače.
·       Diktovat je možné do libovolného programu běžícího pod operačním systémem Windows XP CZ ( Windows 2000 ) do místa, kde je umístěn kurzor.
·       Diktovat je nutné po jednotlivých výrazech, nikoli plynulou řečí. Program je pro tento účel vybaven rozsáhlým slovníkem čítajícím přes 525 000 nejfrekventovanějších českých slov a výrazů (např. zkratek, uživatelských frází, apod.).
·       Slova a výrazy, které nejsou obsaženy ve slovníku, je možné nadiktovat po jednotlivých znacích a následně je hned doplnit do slovníku, a to vše opět za použití hlasových povelů (bez nutnosti dotýkat se klávesnice).
·       Program MyDictate je standardně vybaven mužským a ženským hlasovým profilem. Navíc si může uživatel programu MyDictate vytvořit vlastní hlasový profil na základě namluvení předepsané (nepříliš velké) skupiny slov a výrazů. Použitím tohoto adaptovaného profilu se pak minimalizuje pravděpodobnost nepřesného rozpoznání vyřčených výrazů. Tato možnost může velmi pomoci zejména lidem s mírnou vadou řeči.
·       V případě nepřesného či nejednoznačného rozpoznání vyřčeného výrazu lze jediným povelem provést náhradu vybráním z podobných slov, které program automaticky nabídne.
·       Hlasem lze provádět i složitější editaci nadiktovaného textu s využitím široké skupiny připravených editačních povelů.
 
2.2 Popis programu

Program je vyřešen tak, aby na obrazovce počítače zabíral minimální místo, ale aby zároveň uživateli dával dostatečný přehled o tom, co se při diktování děje a jaké možnosti se v dané chvíli nabízejí. V horní části hlavního okna programu (Obr. 1.) je červenou barvou znázorněno naposledy rozpoznané slovo (zde „funkcí“), které je zároveň zapsáno do používaného textového editoru. Pod tímto slovem je zobrazen seznam deseti slov (nejbližších dalších kandidátů), které rozpoznávač považuje za akusticky a foneticky velmi podobná. Tento seznam slov slouží pro rychlou opravu nadiktovaného textu pomocí povelů typu VEZMI_PRVNÍ až „VEZMI_DESÁTÝ.

 

Pokud skutečně vyslovený výraz v seznamu zobrazených kandidátů není, je možné chybně vytištěný výraz vymazat povelem VYMAŽ_SLOVO, v případě dvou chybných slov za sebou pak příkazem VYMAŽ_DVĚ_SLOVA, a poté zamýšlené slovo znovu nadiktovat. Občas se také stane, že rozpoznané slovo se od slova, které bylo ve skutečnosti řečeno, liší jen v koncovce, respektive v posledním znaku. V tomto případě je možné odstranit poslední znak povelem VYMAŽ_ZNAK a následně dodiktovat správné znaky pomocí povelů ZNAK_ADAM až ZNAK_ŽOFIJE.

Všechny výše zmíněné povely pak dohromady umožňují okamžitou jednoduchou opravu každého špatně rozpoznaného slova. Pro češtinu je toto zvlášť důležité, neboť se jedná o jazyk ohebný, v němž má většina slov více tvarů, které se často od sebe akusticky liší jen velmi málo.
Kromě těchto povelů obsahuje MyDictate i další hlasové povely, které mohou být použity pro:
·            aktivaci a deaktivaci rozpoznávání (v případě, že chce uživatel dočasně zastavit psaní textu, a promluvit s další osobou či telefonovat),
·            modifikaci slovníku,
·            pohyb kurzoru v textu, výběr části textu, mazání či kopírování do schránky,
·            ukončení programu MyDictate a spuštění programu MyVoice,
·            změnu velikosti počátečního písmene naposledy nadiktovaného slova,
·            napsání jednoho konkrétního znaku nebo speciálního symbolu.
Program MyDictate dále obsahuje speciální modul, který umožňuje přidávat nová              a editovat stávající slova. Tento modul je přístupný za běhu programu a může být ovládán hlasem, což usnadňuje situaci zejména handicapovaným uživatelům. Výslovnost každého nového slova je možné nechat vygenerovat automaticky (u slov českého původu), či hlasem případně klávesnicí (u slov cizího původu, kdy slovo jako „George“ je třeba foneticky uvést jako „džorč“). V průběhu fáze editace slovníku je navíc přepnut slovník používaný pro rozpoznávání na redukovanou variantu,obsahující pouze povely pro nadiktování jednotlivých písmen a pohyb v textu, aby se zvýšila přesnost rozpoznávání.
 

2.3 Jak program co nejlépe používat

Zásady pro efektivní používání programu jsou poměrně jednoduché:

1) Přečíst si předem manuál a prohlédnout si instruktivní videa, která bez nutnosti dlouhého vysvětlování demonstrují většinu hlavních možností programu.

2) I když je u většiny osob možné, že po správném zvolení profilu „muž“ nebo „žena“ jim rozpoznávání dobře funguje, určitě se vyplatí projít si fází adaptace, která netrvá déle než 10 – 15 minut a během níž si systém vytvoří specifický profil hlasu daného uživatele.

3) Je důležité vyslovovat přirozeně a srozumitelně, zásadně nekřičet, ale také nešeptat. Mikrofon by měl být umístěn spíše vedle úst než před ústy (kde hrozí ovlivnění činnosti mikrofonu výdechovým proudem vzduchu).

4) Víceslovné výrazy a povely je nutno vyslovovat najednou  (bez pauzy uvnitř), tj. např. povel VYMAŽ_DVĚ_SLOVA musí být vysloven jako „vymaždvěslova“. V opačném případě by byla jednotlivá slova napsána to textu.

5) Délku pauzy mezi jednotlivými diktovanými slovy si volí uživatel právě takovou, aby během ní stačil zkontrolovat, zda poslední slovo bylo zapsáno správně. Postupně se dá takto naučit poměrně rychlé a spolehlivé diktování. Reálná rychlost diktování může být větší než 200 znaků za minutu.

Co se týká přesnosti rozpoznávání, je v systému MyDictate možné dosáhnout úspěšnosti vyšší než 90 %. Nutnost určitého procenta oprav však vždy zůstane, což je dáno tím, že v češtině existuje mnoho slov, která znějí úplně stejně a systém je zatím nedovede rozlišit. Příkladem může být např. následující pětice slov byly – byli – bily – bili – Billy, která mají úplně shodnou fonetickou podobu.

Závěr

Program MyDictate byl navržen speciálně pro potřeby osob, které nemohou při práci s PC používat ruce. Jim dává jedinečnou možnost zadávat do počítače text poměrně snadným a přirozeným způsobem, pomocí hlasu. Program MyDictate lze používat samostatně anebo v součinnosti s programem MyVoice. Pro nové i stávající uživatele programu MyVoice, kteří budou chtít využívat i schopností programu MyDictate, bude dodávána upravená verze MyVoice umožňující součinnost obou programů. Do budoucna se navíc uvažuje i o dalším rozšíření portfolia hlasových programů dostupných pro handicapované osoby o domácí hlasové centrum, jenž by umožňovalo hlasem např. otevřít dveře, spustit rolety, zapnout světla a řídit některá další zařízení vyskytující se v domácnosti.

Poděkování

Vývoj programu trval dlouhou řadu let. V posledních fázích byl podpořen výzkumným grantem Grantové agentury AVČR číslo 1QS108040569 a rozvojovým programem TU v Liberci.