Převod mluvené řeči do textu v reálném čase: vize nebo skutečnost?

23.07.2014 14:48

V úvodním vystoupení Jaroslav Winter z BMI sdružení, hlavní organizátor konference, shrnul pokrok ve vývoji technologií převodu mluvené řeči do textu za uplynulý rok.

Vývoj technologií rozpoznávání řeči sledují s velkým očekáváním zejména lidé se sluchovým postižením. Jejich snem je stav, kdy bude možné automaticky převádět s vysokou přesností a v reálném čase mluvenou řeč do textu, takže například v televizi poběží u všech pořadů skryté titulky, anebo oni sami budou moci nosit s sebou malý přístroj, na jehož displeji si přečtou, co jim kdo do tohoto přístroje (či notebooku) říká.

Uplatnění najdou (a již nacházejí) tyto technologie také u lidí s pohybovým omezením, kterým činí problémy psaní na klávesnici a potřebovali by ovládat klávesnici hlasem.

Účastníci minulého 8. ročníku konference INSPO měli možnost seznámit se s tím, v jakém stádiu je vývoj řečových technologií na dvou pracovištích, kde v České republice dospěl nejdále. Jsou to Technická univerzita Liberec a Západočeská univerzita v Plzni. Profesor Jan Nouza a Petr Červa z Liberce představili program MyDictate pro diktování počítače, který společnost Fugasoft dnem konání konference současně uvedla do prodeje. Docent Luděk Müller s Jakubem Kanisem předvedli hned několik ukázek, jak řečové technologie mohou pomáhat lidem se sluchovým a zrakovým postižením. Co se událo na tomto poli vývoje za uplynulý rok?
 
Výzkum a vývoj rozhodně neustrnul a hlavně - do praktického uplatnění se dostaly komerční produkty, které jsou založeny na výsledcích výzkumu těchto dvou pracovišť a které při převodu mluvené řeči do textu dosahují už velmi zajímavých výsledků.
 

NovaVoice a firmě Consulting Company Novasoft (www.ccnovasoft.cz ) za něj vloni na podzim udělila porota jeden ze šesti Křišťálových disků na veletrhu Invex 2008 v Brně. Je založen na řešení, které vzniklo na Katedře kybernetiky Západočeské univerzity v Plzni. Aby nemusely být kladeny neúměrné nároky na výkon počítače, vyvíjí se pro každou profesní oblast speciální slovník. Vytváří se podle specifické odborné terminologie používané v daném prostředí. Zatím jsou k dispozici řešení pro justici, zdravotnictví a nejnověji pro krajské, městské a obecní úřady a další obdobné instituce.

 
 
Specifickou oblastí je problematika zdravotnictví, kde je další oborové členění a kde je již velké množství instalací podle potřeby jednotlivých zdravotnických zařízení. Pro každé prostředí může vzniknout individuální řešení na zakázku. Například pro pitevnu je z hygienických důvodů vhodné, aby aplikaci bylo možné ovládat kompletně hlasem. Pokud řečník disponuje dikcí výrazně odlišnou od běžného standardu, například cizinec se silným přízvukem mateřštiny, nebo mluvčí s vadou řeči, je možno vytvořit na přání individuální akustický model, který bere ohled na tato specifika.
 
Druhý program se jmenuje NewtonDictate (www.v2t.cz) , vychází z libereckého řešení  a nabízí jej společnost Newton Technologies. Newton Media vlastní největší komerční archiv plných textů v ČR. Měsíčně zpracovává 8000 hodin záznamu, 600 hodin doslovně přepisuje. Bylo proto logické, že firma hledala řešení, které by jí tuto práci usnadnilo. Díky spolupráci vývojového týmu Newton TechnologiesTechnickou univerzitou Liberec, propojení vývojových týmů a spolufinancování vývoje vznikla technologie Voice to Text (V2T), která vyústila v komerční produkt NewtonDictate.
Obecný slovník aplikace vznikl s využitím zhruba 20 GB textů z různých oblastí, které má Newton Media ve svém archivu. Bylo do něho zahrnuto kolem 330 000 slov, což zajišťuje pokrytí běžných textů z 98 procent. K obecnému slovníku lze ale přidat oborové slovníky. Například právnický obsahuje 300 000 slov, lékařský kolem 100 000 slov. 
 
Program NewtonDictate používají lékaři, novináři, překladatelé, úředníci i uživatelé v dalších profesích, největšího rozšíření se zatím dočkal v justici, kde Ministerstvo spravedlnosti  rozhodlo o jeho testování v celém resortu a firma Newton Technologies k tomu poskytla pro všechny soudy, státní zastupitelství a Ministerstvo spravedlnosti bezplatně 2000 licencí.
 
Oba programy – NovaVoice i NewtonDictate – mohou bez problémů najít uplatnění u lidí s tělesným postižením. V květnu 2008 byla dokonce na brněnské Právnické fakultě  Masarykovy univerzity obhájena první diplomová práce, která byla kompletně nadiktována hlasem a automaticky převedena do digitálního písma. Autorem stopadesátistránkové práce nazvané „Přistoupení k EU a nutnost provádění ústavních změn“ je Jiří Zeman, pracovník Nejvyššího správního soudu, jemuž tělesné postižení brání v používání klávesnice a myši. K převodu diktátu do písma použil program MyDictate, vyvinutý Technickou univerzitou Liberec a dodávaný firmou Fugosat, který byl předchůdcem programu NewtonDictate.
 
Tam, kde je možné výsledek automatického převodu mluvené řeči následně ještě revidovat, opravit vzniklé chyby, lze oba programy s výhodou využít, uživatelům ušetří hodně času. Zatím problematické je ovšem využití těchto programů k převodu mluvené řeči do textu pro potřeby neslyšících lidí. Ti totiž potřebují, aby se mluvená řeč převáděla v reálném čase, ihned, aby na ni mohli reagovat. Úspěšnost převodu závisí na více faktorech, které ne vždy lze ovlivnit, jako je například srozumitelnost projevu mluvčího či zvukové pozadí. Probíhají však již první testování těchto programů neslyšícími uživateli     a lze očekávat, že i zde se dočkáme dalších vylepšení.
 
Nicméně minulý rok přinesl dobré zprávy i lidem se sluchovým postižením. Zasloužil se  o to zejména projekt „Eliminace jazykových bariér diváků České televize“, který usiluje    o podporu sluchově handicapovaných občanů při jejich sledování programů České televize. Cílem je postupně titulkovat většinu nejsledovanějších „živých“ pořadů (zpravodajské, diskusní, sportovní apod.).
 
Dne 26. listopadu 2008 proběhl první test s on-line skrytým titulkováním „živého“ pořadu, který vysílala Česká televize na programu ČT24. Od února 2009 pak výzkumníci ze Západočeské univerzity v Plzni zahájili ve spolupráci s Českou televizí a společností SpeechTech zkušební vysílání automaticky titulkovaných televizních pořadů, v prvé fázi jde o automatické titulkování vystoupení řečníků ze zasedání Poslanecké sněmovny České republiky, které probíhá vždy ze záznamu v noci od 01:05 do 4:00 na kanálu ČT24. Vysílání probíhá jen ve dnech, kdy zasedá Parlament ČR. Při nočním vysílání v Plzni automaticky on-line (tj. v noci) v reálném čase generují text, který je průběžně odesílán do ČT a na Kavčích horách zpracováván do SKRYTÝCH TITULKŮ. Procedura zpracování skrytých titulků zabírá nějaký čas, takže titulky jsou opožděny za obrazem  o zhruba 5 sekund. Zájemcům lze doporučit, aby se na toto vysílání podívali – mne osobně úspěšnost převodu velmi mile překvapila, chyby se objevují  poměrně zřídka a nemají vliv na pochopení celkového obsahu.
 
Problematice řečových technologií se věnujeme na konferenci INSPO systematicky a daří se nám představit vždy ty nejaktuálnější novinky. Bylo tomu tak v minulých letech v případě programu MyVoice pro ovládání počítače hlasem i programu MyDictate pro diktování textu do počítače. Letos je do programu konference zařazeno kromě této prezentace ještě v odpolední sekci představení hlasového ovládání programu MyVoice  v integraci s vyčítáním obrazovky. Tato aplikace umožní ovládání počítače nevidomým a slabozrakým  lidem, kterým navíc jejich zdravotní stav nedovoluje ovládat počítač z klávesnice.
 
Na základě sledování vývoje v uplynulých letech lze odpovědět na otázku položenou v názvu této prezentace, že převod mluvené řeči do textu v reálném čase se postupně mění z vize ve skutečnost a že většina z nás se jí s velkou pravděpodobností dožije.