Časopis Computer: Svěřte se počítači. Rozhovor s Pavlem Matějkou

Datum vydání: 28.01.2021 | Zdroj: Computer | Strana 38 | Autor: Jan Spěšný

Technologie rozpoznávání řeči nevyužívají jen hlasoví asistenti jako Alexa nebo Siri. Své uplatnění najde také třeba v kriminalistice, psychoterapeutům pak může pomoci odhalit duševní chorobu.

Umělá inteligence ve spojení s rozpoznáváním a analýzou lidské řeči přinese užitek do mnoha oblastí našeho života. Získáváním dat z řeči se zabývá i výzkumná skupina brněnského Vysokého učení technického (VUT). Jejím členem je i Pavel Matějka, který se zaměřuje zejména na rozpoznávání konkrétního mluvčího a jazyka. "Zapojili jsme se také do projektu DeePsy, jehož hlavním cílem je poskytovat psychoterapeutům přepis řeči a zpětnou vazbu na jejich sezení s klienty," popisuje vědec.

* Na brněnském VUT jste součástí výzkumné skupiny BUT Speech@FIT, která se zabývá mimo jiné strojovým dolováním dat z řeči. Můžete přiblížit její historii a zaměření?

Skupina zpracování řeči vznikla v roce 1997 a k Fakultě informačních technologií na VUT se připojila v roce 2002. Hlavní směry výzkumu jsou v oblasti rozpoznávání mluvčího, jazyka a řeči. Dále se dotýkáme oblastí jako rozpoznávání pohlaví, věku, kdy kdo mluví, detekce klíčových slov a modelování přirozeného jazyka. Skupina se často účastní, a to s velice dobrými výsledky, mezinárodních soutěží a je financována převážně z projektů České republiky, Evropské unie a Spojených států amerických.

* Jaké projekty máte ve skupině na starosti vy?

Mám na starosti převážně projekty na rozpoznávání mluvčího a identifikace jazyků. Loni v létě nám byl společně s Masarykovou univerzitou schválen projekt DeePsy od Technologické agentury ČR, kde hlavním cílem je poskytnout psychoterapeutům přepis řeči a automatickou a systematickou zpětnou vazbu na jejich sezení s klienty.

* Jak tato zpětná vazba vypadá?

Systém dokáže vyhodnotit například abnormální rychlost řeči, časté používání výplňových slov, různé statistiky kdo kolik a jak mluvil, prodlevy po otázkách atd. Z mého pohledu je to velice zajímavý projekt, protože umožní přesah námi vyvíjených technologií do dalších oblastí a bude pomáhat rozvíjet schopnosti terapeutů.

* Zaměřujete se tedy na projekty zabývající se dolováním informací z běžné řeči. Kde tato technologie najde využití?

Skupina Speech@FIT vyvíjí ucelený systém pro dolování informací z řeči. Jako příklad bych uvedl systém indexace přednášek na fakultě, kde jsou přednášky nahrány a zpracovány. Nejen studenti pak mohou procházet a prohledávat všechny přednášky podobným způsobem jako Google nebo Seznam hledá v textu. Systém funguje tak, že nahranou přednášku počítač přepíše do textu a v tomto textu vyhledáváme zadané vyhledávané slovo.

* Dá se tato technologie využít například v oblasti boje se zločinem? Mám na mysli třeba analýzu odposlechů.

Ano, určitě. Práce analytiků v této oblasti by se dala přirovnat k hledání jehly v kupce sena. Naše technologie jim umožní tuto kupku zmenšit tím, že nemusí poslouchat všechny audio nahrávky. Technologie umí odfiltrovat muziku, úseky ticha, určitý jazyk, pohlaví, podobnost s daným mluvčím nebo nahrávky, které obsahují specifická klíčová slova. Tímto se množství nahrávek pro poslech analytikem podstatně sníží.

* K čemu pak výzkum v oblasti rozpoznávání řeči směřuje? Co nám může technologie přinést v budoucnosti?

Podle mě si každý dokáže představit využití. Všichni to vidíme ve sci-fi filmech, kde člověk hovoří s počítačem například ve vesmírných lodích a počítač mu rozumí a plní zadané úkoly. Hlavní úskalí, které vidím, je robustnost rozpoznávače, aby pracoval a rozuměl i v hlučném prostředí. Dále aby počítač dokázal pochopit vyřčenou větu, popřípadě se uměl doptat na to, čemu neporozuměl, aby dokázal analyticky myslet jako člověk, který by pak nemusel zadávat všechny kroky k vykonání úkolu.

* To už dnes de facto v menší míře zvládají i stále oblíbenější hlasoví asistenti využívající podobné principy, jakými se ve svých výzkumech zabýváte. Letos na náš trh nejspíš zamíří velcí hráči z této oblasti. Můžete přiblížit, jak fungují? A jak je složitá jejich lokalizace do češtiny?

Pro hlasového asistenta je nejprve potřeba vytvořit systém pro přepis řeči na text - zde musíme posbírat a ručně přepsat několik set hodin řeči. Systém přepisu na těchto datech pak trénujeme. Potřebujeme také umět převést text zpět na řeč. K tomu se většinou nahrává deset a více hodin řeči od jednoho řečníka ve studiu. Ty doplníme výslovnostním slovníkem, který nám určuje, jaká slova jsou po sobě v daném jazyce přípustná a s jakou pravděpodobností. Na těchto datech následně trénujeme řečovou syntézu. Vytvoření uvedených technologií je ale pouze jednodušší částí problému. Tyto systémy pro češtinu už nějakou dobu nabízí Google i Microsoft. Složitější část představuje vytvoření a postupné vylepšování dialogu. Vlastně i celé báze znalostí. Ta musí být pro každou lokalizaci vytvořena znovu. V dané zemi existují jiné služby a v jednotlivých jazycích mají hlasové dotazy jinou gramatickou strukturu. Některé části znalostní báze se zadávají příklady dvojice otázky a záměru uživatele (Chtěl bych vědět, jaké bude počasí -> informace_o_počasí), o generalizaci na další otázky se pak postará umělá inteligence, a některé musí být přímo kódovány datovým expertem (třeba dotaz na konkrétní službu a interpretace výsledku v textové podobě).

* Jak velký budou mít systémy hlasových asistentů vliv na běžný život? S čím můžeme do budoucna počítat?

Já osobně radši mluvím s člověkem. Jsou ale scénáře především v call centrech, kde hlasoví asistenti v rutinních konverzacích brzy vystřídají lidské operátory. Například když zákazník volá na call centrum eshopu s dotazem na stav konkrétní objednávky, nebo volá do banky s dotazem na aktuální zůstatek na účtu. Těchto scénářů bude samozřejmě přibývat, protože technologie se velice rychle pohybuje dopředu a tito asistenti se zlepšují každý měsíc. Největší úkol máme ještě před sebou právě v oblasti porozumění slovního obsahu.

* Stál jste také u zrodu společnosti Phonexia, čím se tato firma zabývá? Jakých úspěchů se jí podařilo dosáhnout a jaké projekty případně připravuje do budoucna?

Zabýváme se vývojem inovativních technologií pro řečovou analytiku a hlasovou biometrii. Nabídli jsme vůbec jako první na světě komerčně využitelnou technologii pro identifikaci mluvčího, která používala výhradně neuronové sítě. Tento přístup přinesl opět zlepšení v přesnosti a rychlosti a dnes jej aplikuje většina leaderů na trhu hlasové biometrie. Phonexia Speech Engine dokáže z řeči určit mluvčího, jazyk, pohlaví, odhadnout věk, přepsat řeč do textu nebo vyhledat konkrétní slova. Do budoucna se Phonexia chce zaměřit především na další zpřesňování a zrychlování řešení pro identifikaci a verifikaci řečníka, které nabízí do finančního, ale i bezpečnostního sektoru. Předpokládáme, že v určitých aplikacích bude hlasový otisk stejně používaný, jako je otisk prstu. Jako společník jsem hrdý na to, jaká je Phonexia firma a jakou cestu od svého vzniku ušla. Troufám si říci, že Phonexia je dobrým vzorem společnosti nejen v České republice.

***

Výzkumná skupina BUT Speech@FIT Hlavní specializací skupiny je identifikace řečníka a jazyka, rozpoznávání jazyka a detekce klíčových slov. K nejvýznamnějším úspěchům patří nejlepší fonémový rozpoznávač na světě a vynikající výsledky v NIST (americký Národní institut pro standardizaci a technologie) evaluacích v oblasti rozpoznávání jazyka a řečníka. Výzkumná skupina BUT Speech@FIT se zúčastnila řady významných projektů financovaných z prostředků Evropské komise, sahajících od sběru řečových databází přes rozpoznávání meetingů až k mobilní biometrii a detekci audiovizuálních událostí. BUT Speech@FIT intenzivně spolupracuje s průmyslem v ČR i v zahraničí. Stála u zrodu dvou spin-off firem: Phonexia dodává software pro řečovou analytiku pro komerční a bezpečnostní oblast a ReplayWell vyvíjí a komercializuje cloudové technologie pro indexování a zobrazování řečových záznamů. Především v call centrech už existují scénáře, ve kterých hlasoví asistenti v rutinních konverzacích brzy vystřídají lidské operátory

Kdo je Pavel Matějka Pavel Matějka v současnosti působí jako vědecký pracovník ve výzkumné skupině Speech@ FIT na Fakultě informačních technologií VUT v Brně, kde se zabývá zejména rozpoznáváním mluvčího a identifikací jazyků. Tyto oblasti prohluboval také v zahraničí, kde strávil více než dva roky postupně na Oregon Graduate Institute of Science and Technology, USA a BBN Technologies, Cambridge, USA. Publikoval více než padesát článků v odborných publikacích a na mezinárodních konferencích a zúčastnil se několika mezinárodních soutěží na identifikaci jazyka a mluvčího s excelentními výsledky. Aktuálně pracuje na projektu DeePsy, kde je hlavním cílem poskytnout automatickou a systematickou zpětnou vazbu psychoterapeutům na jejich sezení s klienty. Je rovněž spoluzakladatelem společnosti Phonexia, která vyvíjí komerční řešení pro řečovou analytiku a hlasovou biometrii. Matějka se zapojil také do projektu Eccedu, který se zaměřuje na komplexní vzdělávání v IT oblasti. V rámci letního programu Eccedu představí juniorním developerům téma Zpracování hlasu v IT projektech.

Vložila: Kozubová Hana, Mgr.

Poslední změna: 2021-03-03T15:34:06

Zpět na zprávy z FIT