Hlasové technologie na pomoc postiženým

23.07.2014 13:12

Příspěvek do sborníku konference od prof. Jana Nouzy z Laboratoře počítačového zpracování řeči Technické univerzity Liberec.

Moderní hlasové technologie již nezahrnují jen klasickou telefonní komunikaci mezi dvěma lidskými subjekty, ale také komunikaci mezi člověkem a počítačem. Reálným výsledkem mnohaletého intenzivního výzkumu se staly programy umožňující převod textu na mluvenou (syntetickou) řeč a na druhé straně systémy, které rozpoznávají obsah lidské řeči a převádějí ji na text či na konkrétní úkony počítače a jeho periférií. Oba tyto typy aplikací jsou úzce svázány s konkrétním jazykovým prostředím a jejich vývoj se proto více či méně liší v závislosti na specifických problémech toho kterého jazyka. Zatímco pro některé světové jazyky, jako je např. angličtina, francouzština, němčina či japonština, již existují komerčně dostupné produkty - zejména programy pro hlasový diktát - čeština v tomto ohledu zůstává značně pozadu. Je to dáno jak relativně malým trhem, tak především složitostí českého jazyka, který je inflektivní a jeho slovní inventář je tak mnohonásobně větší než třeba v případě angličtiny. V České republice přesto probíhá intenzivní výzkum v obou hlavních směrech hlasové komunikace. V tomto článku jsou představeny výsledky výzkumu a vývoje prováděného na Technické univerzitě v Liberci v oblasti rozpoznávání řeči.

Hlasové ovládání počítače

Z hlediska vývoje a náročnosti implementace lze hlasové ovládání počítače považovat za jednu z jednodušších úloh. Lze u ní totiž vystačit s relativně malým slovníkem, čítajícím – podle typu aplikace – desítky až stovky slovních povelů. Tyto povely mohou sloužit pro ovládání programů, pro spouštění a řízení připojených periférií nebo např. pro vkládání údajů z určité předem dané množiny dat. Specifickým případem jsou programy určené pro osoby, jejichž postižení jim neumožňuje práci s klasickými vstupními zařízeními, jako jsou klávesnice a myš. Příkladem takového softwaru je program MyVoice vyvinutý v roce 2005.

 Program MyVoice si klade za cíl nahradit standardní ovládání klávesami a myší vhodně strukturovanou sadou hlasových povelů. Uživatel říká tyto povely do mikrofonu umístěného v blízkosti jeho úst a program je převádí na virtuální stisky příslušných kláves nebo na pohyb kurzoru. Tímto způsobem je tedy možné simulovat libovolnou sekvenci stisknutých kláves či pohybů myší. Lze tak nejen psát text, ale prostřednictvím klávesových zkratek ovládat všechny programy, které je podporují.

Psaní a editaci textů lze dále usnadnit tím, že frekventovaná slova či dokonce věty je možné zadat jediným řídícím povelem. Pro často užívané programy jako jsou Word nebo Internet Explorer si uživatel může připravit sadu řídících slov, které práci s těmito programy výrazně usnadní. MyVoice totiž umožňuje snadné definování vlastních povelů a jejich spojování s požadovanými úkony. Jedním příkazem tak může být spuštěn konkrétní program, zároveň se nastaví vhodným způsobem virtuální klávesnice, upraví se plocha obrazovky a ovládací program se přepne na tu část slovníku, která je pro danou aplikaci nejvhodnější. Poněkud obtížnější je ovládání těch programů, které vyžadují práci s myší. Nicméně i zde lze sérií několika povelů dovést kurzor na příslušné místo obrazovky a následně simulovat stisk příslušného tlačítka.

Praktické testy prokázaly, že díky programu MyVoice je možné uskutečnit prakticky jakoukoliv akci, která se dá provést klasickými prostředky, tedy klávesnicí a myší. Rozpoznávání hlasových povelů probíhá poměrně spolehlivě, neboť je založeno na osvědčených, mnoho let vyvíjených technologiích. Uživatel nemusí předem nahrávat žádný povel, systém se obejde bez nutnosti předchozí adaptační fáze. Slovník se dá jednoduše modifikovat pouhým přidáním nových slov nebo slovních spojení či odebráním nepotřebných položek. Aby si uživatel nemusel pamatovat příslušné povely, na obrazovce vidí vždy tu část slovníku, která je v dané situaci aktuální. To se děje sdružováním povelů do vhodně sestavených skupin.

Program sám běží v pozadí všech spuštěných aplikací a na obrazovce zabírá jen nejnutnější prostor nutný pro zobrazení slovníku a rozpoznaného slova. Nároky na počítač nejsou velké. Stačí procesor o frekvenci nad 500 MHz, paměť cca 128 MB, běžná zvuková karta a mikrofon, nejlépe náhlavní typ spojený se sluchátky. Vzhledem k tomu, že programem pracuje s Unicodem, je nutný operační systém Windows 2000 a vyšší.

Program MyVoice může postiženým osobám pomoci v mnoha směrech. Především jim dává možnost pracovat s počítačem, psát texty, tyto tisknout nebo dokonce odesílat elektronickou poštou. Díky snadnému ovládání Internetu jim otevírá cestu k novým zdrojům informací, od denního tisku, jehož webovými stránkami mohou snadno listovat, přes stránky různých zájmových sdružení, až třeba po možnost virtuálního cestování po cizích zemích. Řídit hlasem se dají ovšem i taková zařízení, jako jsou například hudební přehrávač, televize či rádio, pokud je počítač vybaven příslušnými přídavnými kartami. Ovládání televizních            a rozhlasových programů již bylo úspěšně vyzkoušeno, uvažuje se i o dalších domácích zařízeních a spotřebičích.
Program MyVoice by měl být dostupný od března 2005 prostřednictvím liberecké firmy Fugasoft.

Hlasové diktování do počítače
V roce 2002 jsme odborné veřejnosti poprvé představili ukázkový prototyp diktovacího systému pro češtinu. Jde o program, který je schopen automaticky zapisovat text vyslovovaný po jednotlivých slovech oddělených krátkou pauzou. Systém je schopen rozpoznávat řeč libovolné osoby, aniž by vyžadoval předchozí fázi adaptace. Nejnovější verze tohoto systému pracuje se slovníkem o velikosti 600 000 lexikálních položek. Jde o nejčastější slovní tvary vybrané na základě frekvenční analýzy novinových i beletristických textů, získaných z různých zdrojů. Systém je navržen pro kompletní hlasové ovládání. Znamená to, že nejen vlastní text, ale i případné opravy je možné provádět pouze hlasem. Uživatel je schopen diktovat tempem asi 40 slov za minutu a systém slova zapisuje s chybovostí asi 10 až 15 procent. Část těchto chyb je dána tím, že řada českých slov zní úplně stejně, např. „byly“, „bili“, „byli“ a „bily“, a nelze je tudíž odlišit akusticky. V takovém případě uživatel hlasem vybere tu formu slova, kterou považuje za správnou. Jistá, byť relativně malá část chyb je také stále ještě způsobena tím, že dané slovo není ve slovníku, např. méně časté vlastní jméno nebo úzce odborný termín. Autoři systému samozřejmě dále pracují na jeho vylepšování. Jednou z možností je např. rychlá adaptace modelů jednotlivých hlásek na řeč konkrétního uživatele, jinou možností je detailnější popis výslovnosti  jednotlivých slov.

Od roku 2003 existuje také prototyp systému pro spojité diktování českých textů. Protože jde však o mnohem složitější úlohu, vyžaduje provoz takového systému nejvýkonnější dostupné počítače. Např. na počítači s procesorem Intel o frekvenci 3 GHz je diktovací systém v reálném čase schopen pracovat se slovníkem o maximální velikosti do 100 000 položek. Uživatel může říci celou (i velmi dlouhou) větu najednou a její přepis se objeví na obrazovce přibližně do jedné sekundy. Úspěšnost tohoto systému se nyní pohybuje kolem 85% správně rozpoznaných slov, což bohužel zatím není tolik, aby se mohlo jednat o praktické nasazení. Řada chyb totiž vzniká právě tím, že některá slova v dané větě nejsou ve slovníku a nemohou být proto rozpoznána.

Přepis mluvených pořadů do textové podoby
Další oblastí výzkumu jsou systémy pro přepis mluvených pořadů, zejména zpravodajství, v budoucnu dále besed, diskusí, apod. V rámci projektu, který je součástí evropského výzkumného programu, vznikl na našem pracovišti systém, který umožňuje téměř automatický přepis rozhlasových a televizních pořadů. V první fázi jsme se zaměřili na televizní zpravodajské pořady.

Systém provádí následující operace: Nejprve rozčlení záznam celého zpravodajského pořadu na části, které obsahují řeč, a na zbytek (zejména hudbu, znělky, delší pauzy, atd.) Následně rozdělí jednotlivé zpravodajské příspěvky podle charakteru akustického signálu, zejména na části mluvené různými osobami. U těchto osob lze provést jejich identifikaci, což přichází       v úvahu především u moderátorů a často se vyskytujících reportérů či významných osob. Jednotlivé příspěvky pak jsou předány do modulu rozpoznávání řeči, na jehož výstupu se postupně objevuje textový přepis.

Současná verze pracuje se slovníkem obsahujícím 300 000 nejfrekventovanějších českých slov, a přepis 10 minut zpráv jí trvá přibližně 50 minut, tedy pětinásobek času. Úspěšnost takového systému se podle světových standardů měří procentem správně rozpoznaných slov. U našeho systému se toto procento pohybuje kolem 80% v rámci celého zpravodajského bloku. Výrazně vyšší (85 - 90 %) je v příspěvcích namluvených ve studiu či v málo rušném prostředí, nízká je naopak u příspěvků, které mají v pozadí hudbu, nebo kde lidé hovoří na rušné ulici, mluví nespisovně atd. Systém tohoto typu je primárně určen pro přepis a následný monitoring médií. Může však rovněž sloužit pro potřeby přípravy titulků u pořadů určených pro neslyšící osoby.

Další oblasti výzkumu s možnými aplikacemi pro handicapované
Neméně zajímavým směrem výzkumu je i oblast audiovizuálního zpracování řeči. Patří sem rozpoznávání řeči s podporou kamery, která snímá mluvící osobu. Tato technologie je zatím ve fázi počátečního vývoje, nicméně ukazuje se, že může pomoci zejména v situacích, kdy je zvukový signál značně rušen například silným hlukem okolí. Zabýváme se též opačnou úlohou, a to audiovizuální syntézou. Takový program nejenže generuje mluvenou řeč, ale zároveň řídí model jakési virtuální hlavy, jejíž obličej, a zejména ústa, se pohybují stejným způsobem jako u skutečné mluvící osoby. Zde se v budoucnu uvažuje i o použití pro komunikaci s neslyšícími lidmi.

Poslední oblastí výzkumu jsou dialogové systémy, tj. systémy, které jsou schopny rozpoznat otázky či požadavky uživatele zadávané hlasem a odpovědět mu opět hlasovou formou. To je výhodné zejména u telefonních služeb, kde si člověk (i handicapovaný) může zajistit příslušnou službu nebo informaci na základě „rozhovoru“ s počítačem, který se nachází na druhém konci linky. Představitelem takovéto aplikace je automatický informační systém InfoCity, který jsme uvedli do veřejného provozu v roce 1999. Je dostupný na lince 48 53 53 100 a dodnes slouží liberecké veřejnosti.
Všechny popsané a případně další aplikace lze najít na stránce našeho týmu na adrese: http://itakura.kes.vslib.cz/kes/index.html

Prof. Ing. Jan Nouza, CSc
Laboratoř počítačového zpracování řeči, Technická univerzita v Liberci
e-mail: jan.nouza@vslib.cz,
www: http://itakura.kes.vslib.cz/kes/index.html