Na INSPO 2010 měla přednášku Ing. Magdaléna Nekolná z Newton Technologies o mobilním diktování, laskavě poskytla podklady pro tento článek a zodpověděla několik všetečných dotazu ohledně „kouzelné krabičky“, jak mezi osobami se sluchovým postižením mobilnímu diktování mazlivě říkáme.
Přednáška Ing. Nekolné na INSPO 2010
Anotace: Pomocí programu Newton Dictate Mobile se řeč diktujícího přenese přes internet na vzdálený server, který v reálném čase mluvené slovo převede do textu a pošle zpět na mobilní telefon. Uživatel tak má k dispozici mobilní zařízení pro rozpoznávání mluvené řeči. Podmínkou využívání této technologie je mobilní připojení na internet a osvojení si základních principů diktování.
Rozvoj moderních hlasových technologií založených na počítačovém
zpracování signálů a metodách umělé inteligence umožnil vznik
softwarových nástrojů, které jsou schopny automaticky přepisovat mluvenou
řeč. První programy umožňující spojité diktování do počítače
v češtině, byly vyvinuty na Technické univerzitě v Liberci mezi lety
2003 až 2005. Trvalo však ještě několik let, než mohly být dovedeny do
podoby komerčně dostupného softwaru.
Čeština patří mezi jazyky s velkou mírou ohebnosti. Podstatná jména,
přídavná jména, zájmena a číslovky se skloňují, slovesa se časují.
Při tomto procesu vznikají nové slovní tvary, jejichž existenci je třeba
brát v úvahu při procesu rozpoznávání řeči. Pokud jsou obsaženy ve
slovníku rozpoznávacího systému, je šance, že budou správně rozpoznány.
V opačném případě, tedy když některý slovní tvar ve slovníku není,
nemůže být nikdy správně rozpoznán a systém se při přepisu dopustí
chyby. (Kvůli kontextu může tato chyba zasáhnout i okolní slova.)
Rozdíl mezi lexikálním inventářem angličtiny a češtiny si můžeme
demonstrovat na příkladu v tabulce 1. Zatímco anglické slovo „driver“
se může vyskytnout pouze ve třech různých tvarech, v češtině stejnému
slovu odpovídá několik desítek různých forem podstatného jména
v mužském i ženském rodu, a dále přídavného jména, včetně
přivlastňovacích tvarů.
Angličtina | Čeština |
driver, drivers, driver’s |
řidič, řidiče, řidiči, řidičem, řidičů, řidičům, řidičích
…. |
Tab. 1 – Porovnání angličtiny a češtiny z pohledu ohebnosti slov
Morfologie češtiny je natolik bohatá, že počet slovních tvarů
vyskytujících se v psané a mluvené podobě dosahuje několika milionů,
zatímco v angličtině se jedná spíše o desítky tisíc. Systém pro
rozpoznávání češtiny musí proto pracovat s několikanásobně větším
slovníkem, což samozřejmě komplikuje návrh algoritmů, zpomaluje jejich
činnost a zvyšuje nároky na výpočetní výkon. Nejvýkonnější diktovací
systém navržený pro češtinu nyní používá slovník obsahující cca
500 tisíc nejfrekventovanějších slovních tvarů.
Dalším velkým problémem češtiny je relativně volné pořadí slov ve
větě. Zatímco angličtina vyžaduje, aby věta měla pevnou strukturu (např.
podmět – přísudek – předmět – příslovečné určení),
v češtině lze pořadí slov často změnit, aniž by věta získala
odlišný význam (Např. věta „Pavel potkal Evu“ může existovat
v podobách „Evu potkal Pavel“ nebo „Potkal Pavel Evu“.) Tato velká
volnost způsobuje, že metody rozpoznávání řeči založené na
statistikách výskytu sousedních slov nepracují v češtině tak dobře jako
v angličtině.
Nakonec zmíníme ještě jeden velký problém rozpoznávání řeči, který
je ale společný pro většinu jazyků. Zatímco v písemné podobě děláme
mezi jednotlivými slovy mezeru a díky tomu pak přesně vidíme, kde slovo
začíná a končí, v mluvené podobě žádná hranice mezi slovy neexistuje.
V běžné plynulé řeči totiž jedno slovo navazuje na druhé a pauzy
děláme většinou jen na místech, kde se potřebujeme nadechnout, případně
rozmyslet. Jevy jako asimilace a koartikulace navíc výrazně zasahují do
výsledné podoby promluvy. Rozdíl mezi psanou a mluvenou řečí demonstruje
příklad v tabulce 2.
Psaná věta | Až se vrátíš, zavolej mi na linku pět šest sedm. |
Mluvená věta (fonetický přepis) | ašsevráťížzavolejminalinkupječesedum |
Od roku 2008 je zájemcům k dispozici také první český program umožňující diktování do počítače běžnou plynulou řečí. Vznikl na základě požadavků zejména soudců, právníků, lékařů a novinářů, tedy profesí, v nichž je potřeba vytvářet velké množství textových dokumentů. Do té doby si tyto osoby texty psaly samy, nebo je diktovaly asistentům či sekretářkám, případně je zaznamenávaly na diktafon a pak je nechávaly přepsat. Program, který je výsledkem spolupráce výzkumného týmu na Technické univerzitě v Liberci a firmy Newton Technologies a.s. a který proto nese název Newton Dictate, jim tuto práci významnou měrou usnadňuje a zefektivňuje.
Automatický přepis mluvené řeči pro mobily
Program Newton Dictate Mobile řeč diktujícího přenese přes internet na vzdálený server, který v reálném čase mluvené slovo převede do textu a během několika vteřin pošle zpět na mobilní telefon. K přepisu plynulé řeči využívá rozsáhlé slovníky s podporou statistického jazykového modelu. Úspěšnost přepisu závisí na složitosti textu (zejména na počtu méně frekventovaných slov a exotických vlastních jmen), dále na stylu diktování, výslovnosti a také na určitém cviku uživatele. Bez adaptace na konkrétní hlas lze běžně dosáhnout přesnost kolem 95 %. Pokud uživatel provede adaptaci na svůj hlas (pomocí dodávaného modulu), tato hodnota se zvyšuje obvykle o další 2 až 3 %. Program Newton Dictate Mobile umožňuje diktování prakticky libovolného tématu, přičemž u odborných textů jsou třeba speciální slovníky. Program pracuje se všeobecným slovníkem, který v současné době obsahuje kolem půl milionu nejfrekventovanějších českých slov. Pokud se člověk seznámí se všemi možnostmi programu a naučí se s ním efektivně pracovat, představuje pro něj diktování výraznou úsporu času a nákladů. Program má velký potenciál i po hendikepované osoby.
Literatura:
Autor, A.: Název knihy. Vydavatelství, místo vydání, rok.
Mobilní diktování zatím probíhá tak, že slovník je na serveru a je třeba připojení k internetu. Osoby se sluchovým postižením převážně nemají takové příjmy, aby si mohly dovolit celodenní internet do mobilu. Bude také verze mobilního diktování, kdy bude slovník v mobilním zařízení a internetu nebude třeba, jako je tomu u diktování do stolního počítače?
Do budoucna s verzí NEWTON Dictate Mobile se slovníkem umístěným přímo v mobilním telefonu počítáme. Je však otázkou, kdy se na trh dostanou tak výkonné telefony, které by náročnou úlohu jako je rozpoznání mluveného slova hardwarově zvládly. Nyní samotné rozpoznání hlasu probíhá na vzdáleném serveru. Uživatel proto vždy dostane optimální výsledek a nezáleží na tom, jak výkonný je jeho mobil. Zanedlouho bude spuštěn pilotní projekt pro 5 osob se sluchovým postižením ve spolupráci s Telefónica O2 Czech Republic, která zapůjčí telefony a poskytne bezplatné připojení k Internetu.
Převážná část osob se sluchovým postižením není technicky zdatná, či nemá (a ani nechce) mobilní telefon s operačním systémem. Připojování k internetu a provoz mobilního diktování také „sežere“ energii a zařízení pak nemusí vydržet ani do večera na běžné „mobilní“ věci (SMS). Mnohem lepší by asi byl úplně samostatný přístroj (diktafon), který by nespotřebovával energii mobilního telefonu. Zařízení by mělo svůj operační systém, slovník by byl nahrán v přístroji, takže by nebyl potřeba internet a hlavně by to bylo všechno „na jedno tlačítko“ ve stylu zmáčkne > diktuje > přepisuje se (viz muj neumělý obrázek).
Vím, že je to v této fázi v podstatě sci-fi. Na INSPO 2010 jste však předváděla multifunkční diktovací konzoli na diktování do počítače Philips SpeechMike, která je oproti nasazování sluchátek s mikrofonem mnohem pohodlnější. Chci se tedy zeptat, jestli se o něčem takovém, jako je samostatný přístroj „na jedno tlačítko“ neuvažuje, protože pak by to byla ta pravá „kouzelná krabička“ použitelná i pro osoby jenž přicházejí o sluch ve vyšším věku a nejsou technicky vůbec zdatné. Navíc mívají úplně nejobyčejnější mobilní telefon na kterém mají potíže s napsáním SMS a ovládat zařízení s operačním systémem nezvládnou a ta „lepší“ variantas, by byla dost dobrá i například pro novináře, kdy by si mohli uložit nadiktovaný text k článku v písemné podobě, či z rozhovoru.
Je to velmi zajímavý nápad. K jeho realizaci však nejprve musíme najít vhodného výrobce hardwaru, případně zkusit oslovit dodavatele hlasových záznamníků jako například Philips nebo Olympus. Na samotné koncepci kouzelné krabičky bychom určitě spolupracovali přímo s uživateli se sluchovým postižením, abychom jim přístroj jak se říká „ušili na míru“. Stejné je to s počítačovou aplikací NEWTON Dictate – spolupracujeme s uživateli a snažíme se jim program přizpůsobit, aby splňoval jejich potřeby. Pokud se týká novinářů, již nyní mohou využívat počítačový program NEWTON Dictate v kombinaci s digitálním hlasovým záznamníkem. Uživatel jednoduše nadiktuje text do záznamníku, ten si pak může následně v aplikaci nechat přepsat.
««« Předchozí text: Novinky z Helpnetu Následující text: Sdružení dospělých uživatelů kochleárního implantátu »»»
Ladislav Kratochvíl | 20. 4. 2010 Út 13.27 | Komunikace | trvalý odkaz | tisk | 52449x
Sdílet |
|
Stranovzhled Kráťa 8/2003. Změna koncepce 5/2006. Změna na redakční systém RS2 2008.
optimalizace PageRank.cz