Vesmír: Byznys skrytý v hlase

Datum vydání: 07.02.2019 | Zdroj: Vesmír | Rubrika: Rozhovor | Strana 14 | Autor: Marek Janáč

Ovládat počítače hlasem byl sen celé generace spisovatelů sci-fi. Dnes vám každý chytrý telefon pomůže přepsat nadiktovaný text, vytočit číslo člověka, kterému chcete volat... Lidé, kteří pracují na tom, aby to vše fungovalo ještě dokonaleji, už koutkem oka pošilhávají po době, kdy budou počítače číst lidské emoce.

Balík lidmi produkovaných dat závratně roste. Jen letos mají podle odhadu společnosti Cisco protéci internetem přes dva zettabyty dat. Ta by jedna videokamera s vysokým rozlišením pořizovala nepřetržitě 72 000 let. Se zvyšováním výpočetní kapacity počítačů roste i podíl hlasových dat na tomto globálním datovém balíku.
Lidé přicházejí na chuť hlasovému zadávání příkazů, movití turisté kupují kapesní počítačové překladatele, jimiž vyluzují úsměvy na tvářích domorodců v exotických místech planety... Za tím vším stojí týmy lidí, kteří svůj profesní život zasvětili výzkumu rozpoznání hlasu a všeho, co s tím souvisí. Jeden z nejúspěšnějších výzkumných týmů u nás vede doc. Jan Černocký z Fakultyinformačních technologií VUT v Brně.
V mezinárodních odborných kláních, která každoročně vypisují vysoké školy i vládní agentury, se skupina doc. Černockého už několik let pravidelně umisťuje na předních místech. Je to úctyhodné, když uvážíme, že nejen zvládli dostat se na světovou špičku, ale také se na ní udrželi, což je v ostré konkurenci ještě těžší.

* Co je podstatou vaší práce?

- Já tomu rád říkám dolování informací z řeči. Snažíme se jich získat co nejvíce.

* Například vydolovat z komunikace přepis toho, o čem si lidé povídají?

- To není tak jednoduché, jak to na první pohled vypadá. Dnes používané algoritmy jsou sice schopny přepsat všechno, ale ne dobře. Žádný rozpoznávač řeči není stoprocentní a procento dosažitelné úspěšnosti záleží na mnoha faktorech: jak mluvčí mluví, jak je blízký trénovacím datům, v jakém je prostředí a také - a to především -, jak blízko je jeho řeč slovníku, na který byl rozpoznávač řeči naučený. Budu-li volat do banky se zájmem o úrokové míry a stav mého konta, bude rozpoznávání fungovat velice dobře. Pokud si však s bankovním agentem začneme povídat o hudbě nebo počasí, výsledky nebudou stát za nic.

* Nehledě na to, že realita pro vás chystá "zrady" v podobě lidí, kteří ledabyle vyslovují. Ostatně, i kdyby mluvili dokonale, v samotném jazyce jsou slova vzájemně velmi podobná: pracka/pračka, rada/řada/ráda, krtiny/křtiny atd...

- Při rozhodování, co daný člověk právě řekl, nemůžeme spoléhat výhradně na to, jaké zvuky neuronová síť přiřadí ke konkrétním písmenům a jaká z nich poskládá slova.
Dodatečně musíme zjistit, jestli posloupnost nalezených slov odpovídá tomu, co je pravděpodobné nebo jestli je přepis úplně vedle. Například máte rozhodnout, jestli zaznělo slovo "bush" nebo "push". Vzhledem k jejich podobnosti by bylo velmi náročné rozhodovat se jen podle první plozívy. Pokud ale sledujeme i slova kolem, zjistíme, že výrazu předcházejí slova "prezident" a "George...".
Vzhledem k tomu, že se v trénovacích textech mnohokrát objevila posloupnost "prezident George Bush", můžeme tuto variantu přijmout jako správný výsledek a výraz "Prezident George Push" vyloučit jako nesmysl.

* Jak moc jsou současné algoritmy využitelné kupříkladu u bezpečnostních jednotek?

- Problém bezpečnostních aplikací je v tom, že je většinou nelze přizpůsobit jednotnému slovníku. Na rozdíl od komerčního kontaktního centra nevíme, o čem si budou kriminálníci povídat, musíme tedy systém koncipovat jako obecný, a tedy méně přesný. Aplikace přesto jsou; rozhodně je tyto služby kupují, nasazují a ony fungují.

* Mám si to představit tak, že na místě, kde kdysi kupř. odposlechy prováděli lidé, je dnes počítač, přepisující komunikaci podezřelých?

- Tento typ činnosti je zpravidla utajován, ale z toho, co o tom víme: policie má většinou soudní příkaz na odposlouchávání nějaké skupiny podezřelých, používajících X telefonních čísel. Z útvaru, který odposlechy technicky provádí, operativci zpravidla dostanou velikánský balík dat. Třeba 10 000 hodin nahrávek. A hledejte v něm podezřelého, který se právě domlouvá, kde proběhne předání nějakých zbraní či drog...
Řečové technologie zatím nemohou posloužit k tomu, aby našly hledané stoprocentně, alespoň však omezují vyhledávací prostor policistům, kteří pak musí nahrávky opravdu poslouchat se sluchátky na uších.
Pokud tedy víme, že podezřelým je muž, odstraníme všechny nahrávky, kde hovoří ženy. Když víme, že se patrně bude domlouvat s ruským protějškem, vybereme jen ruštinu. Máme-li nějaký ruský rozpoznávač, nahrávku přepíšeme. Pokusíme se o nějaké vyhledání slov v obsahu. Víme-li, že bude telefonovat s velkým dealerem drog Kovalenkem a Kovalenka už jsme někdy slyšeli, pokusíme se různými filtry vybrat z dat jen ty části, kde v telefonním hovoru mluví Kovalenko.

* Zní to relativně jednoduše.

- Ve skutečnosti to není jediný nástroj, ani krabička s návodem na stisknutí příslušného tlačítka, ale interakce technologie a uživatele.
Policisté si musejí říci, co chtějí, udělat to a podívat se na výsledky. Řečové technologie nejsou samospasitelné, nejlépe fungují v kombinaci s dalšími informačními zdroji.

* Co z právě popsaného je při analýze hlasu nejsložitější?

- Jednoznačně rozpoznávání toho, kdo kdy mluví, takzvaná diarizace. To znamená, že mám jednokanálovou nahrávku, v níž je hlas více mluvčích. Typicky jde o dva a více lidí v telefonním hovoru (mohou tam být zpočátku nahrány nějaké sekretářky, které hovor domlouvají, rovněž může být v záznamu nějaká zpráva od telefonního operátora) a vy potřebujete říci, kdo kdy hovoří. To je nesmírný problém. Zvláště pokud v nahrávce jeden člověk dominuje a partner na druhé straně jen občas řekne "jo" nebo "ne". Možná ale právě ony jednoslabičné odpovědi jsou tím, co vás nejvíc zajímá, protože to může být hlas bosse, který toho sice moc nenamluví, ale řídí celou operaci.

* V čem je rozpoznávání mluvčího tak složité?

- Když máme dostatečné množství dokonale čisté řeči, na jednoho mluvčího třeba dvě minuty, algoritmy detekce mluvčího fungují s chybovostí maximálně v řádu jednotek procent. Zhoršení nastane, pokud máte dat k posuzování málo, nebo mikrofon nahrává hlas mluvčího z druhé strany místnosti nebo v rušném automobilovém provozu někde na ulici. Vy přitom takovou nahrávku porovnáváte s referenční nahrávkou, pocházející ze zvukově čistého prostředí. V takových případech úspěšnost rozpoznávání mluvčího klesá.

* Mluvčí ale také může mluvit jiným jazykem, než svou mateřštinou.

- Ano, to je problém. Já vás asi poznám, když budete mluvit anglicky a vy mě také, ale úspěšnost našich algoritmů přitom jde docela strmě dolů.

* Když mluvíte anglicky, mluvíte jiným hlasem, než když mluvíte česky?

- Trochu ano. Nemůžete samozřejmě přestavět své hlasové ústrojí a zcela změnit jeho geometrii. Měníte však dynamiku, pohyb, vyslovujete hlásky, které v mateřském jazyce nepoužíváte, a tak zníte jinak, přestože jste to stále vy.

* Člověk si díky tomu uvědomí, jak komplexní je náš mozek, když s tímto nemá problém.

- Musím upozornit na jednu věc - my lidé jsme velmi přesní v rozpoznávání známých hlasů. Bude-li volat přítel a řekne půl slova, přesně víte, o koho jde. Ale při porovnávání hlasů cizích lidí už bude stroj pravděpodobně lepší; zejména pokud byste měl posoudit desítky tisíc nahrávek cizích lidí, jako se to děje v našich experimentech.

* A k tomu ještě začnou hovořit nějakým dialektem a má vymalováno i stroj.

- To je, přiznávám, také velká potíž. Kupříkladu u rozpoznávání čínštiny. Číňané sice píší stejně, ale v jednotlivých regionech si mezi sebou moc nerozumějí. Totéž platí o arabštině, která je pro nás jedním jazykem, ale zeptáteli se odborníka, začne na papír kreslit strom několika hlavních arabštin s dialekty, jimiž v některých případech mluví jen pár lidí prohánějících se pouští na velbloudech, a rozhodně k nim nemáte žádná trénovací data.

* Aby počítače dokázaly vše, o čem tu mluvíme, co je učíte si z hlasu vybírat?

- Teď byste možná očekával, že vytáhnu nějaké pokročilé zpracování zvuku mozkem, kochleu nebo vnitřní ucho, nebo nervové vzruchy, ale tak to bohužel není. Většinou začínáme úplně obyčejnou kmitočtovou (diskrétní Fourierovou) transformací a mírné úpravy vycházejí z fungování našeho sluchu. Představte si například, že sedíte u klavíru, a přestože nejste žádný hudebník, při stisknutí kláves před sebou nebo vlevo slyšíte, zda jsou dobře naladěné a hrajete, co máte. Avšak při hře v oblasti vysokých tónů už je mnohem těžší poznat, zda hrajete správnou melodii, neboť náš sluch od sebe tyto tóny odlišuje mnohem hůře. Totéž se děje v bance filtrů, kterou používáme při analýze řeči; víc filtrů používáme pro nižší frekvence, čímž počítač přimějeme hledat důležité informace na podobných místech, která zajímají náš mozek. Data pak putují do neurálních, klasifikačních a rozpoznávacích struktur počítače, který nám nakonec předá jakési rodné číslo (či otisk prstu) o délce několika set číslic. Pro každou konkrétní nahrávku jeden otisk.

* Takže vy okamžik zrodu onoho otisku prstu nemáte plně pod kontrolou?

- Do jisté míry. Zadáme cílovou úlohu, třeba rozpoznávání mluvčího, a předložíme spoustu trénovacích dat. Učící algoritmy si pak matematickou optimalizací samy vyberou kritéria, podle kterých budou zvuky posuzovat a samy se natrénují. Poté jim předložíme ověřovací data a testujeme, zda rozpoznávání funguje i na dosud neslyšených nahrávkách. Nevýhodou je, že nikdo netuší, proč to vlastně funguje - proč si neuronová síť konkrétně na pátém místě výstupního "otisku prstu" zvolila nějakou určitou hodnotu, čemu odpovídá mezi našimi lidskými znalostními kategoriemi. My, lidé, už to nedokážeme dekódovat.

* Zdá se, že výsledky to má, čili teď je otázka, jakou míru zásluh na tom připsat strojům, schopných samostatného učení a jakou lidem...

- Kdysi, v předchozích etapách výzkumu řeči, se dělaly systémy založené na pravidlech. Někdo sedl a řekl: "Přece to musí být takhle!" Napsal pravidlo a k němu desítky nebo stovky dalších pravidel. Takové systémy se používaly, ale nikdy nedosahovaly takové úspěšnosti jako systémy, které používají strojové učení.
Proto strojovému učení docela věřím. Ne slepě, ale věřím.

* Na jakých datech své stroje trénujete?

- Všichni samozřejmě trénují na angličtině.
Už proto, že jde o jazyk, na kterém se dokážeme srovnat v publikacích nebo mezinárodních hodnoceních. Hodně práce už máme na našem mateřském jazyku - češtině - pro kterou už máme docela velkou spoustu dat. Další jazyky přicházejí s projekty, na kterých pracujeme. V evropském projektu BISON jsme se kupř. zaměřili na evropské jazyky ve skutečných řečových datech z kontaktních center. Účastnili jsme se rovněž amerických projektů, z nichž nejdůležitější byl asi IARPA Babel. V něm se každý rok dělaly rozpoznávače pro sedm nových jazyků, založené na omezeném množství nahrávek. Za dobu trvání projektu jsme tak pracovali asi na třiceti různých jazycích, z nichž některé byly tak exotické, že jsme si museli najít, kde se jimi mluví.

* Když si člověk uvědomí, kolik je na světě jazyků, navzdory rostoucí výpočetní síle bude asi trvat dlouho, než bude globalizovaný svět schopen strojově překládat kterýkoliv z nich.

- Technologický svět samozřejmě pracuje na multilingvalitě. Cílem je, aby aplikace dobře rozpoznávaly velké množství jazyků, aby se mezi nimi dalo překládat, aby se daly nabízet reklamy nejenom anglicky mluvícím, ale i ostatním. Vždycky to však ovlivňuje trh. Existují totiž tabulky, ukazující množství kupní síly a bohatství, soustředěné v lidech hovořících daným jazykem. Velké firmy k těmto tabulkám přihlížejí a investují do jazykových technologií těch národů, které jim potom něco vydělají. Tím se obslouží možná prvních pár desítek jazyků, pak ale existuje obrovské množství jazyků, které tuto obsluhu nemají. Buď proto, že se to nevyplatí, nebo proto, že příslušníci onoho národa mluví i nějakým jiným jazykem, na který stačí existující technologie. A pak je skupina jazyků, kde by se to třeba i vyplatilo, ale ještě tam ona velká technologická firma nemá pobočku anebo tam není vysoká škola, která by pro ni nasbírala trénovací data. Motiv k takové činnosti je tedy především ekonomický a nikoliv altruistický: "jé, tady je několik tisíc jazyků, pojďme je udělat všechny!"

* Jinými slovy - byznys skrytý v hlase.

- Dnes nepochybně. Do budoucna ale vidím byznys skrytý v hlase v detekci emocí nebo sentimentu - jestli je zákazník spokojený či nespokojený, jestli je v jeho chování nějaký trend. Kupříkladu když do banky volá klient nespokojený s produktem a agent na lince ho dostane do stavu spokojenosti.
To všechno byznys velmi zajímá, protože nespokojený zákazník odejde někam jinam, zatímco spokojený zůstane a přikoupí si i další služby.

* Skutečně máme v hlase emoce zakódovány univerzálně?

- Naše skupina se tyto informace snažila detekovat přímo z hlasu a musím říci, že s nijak přesvědčivým výsledkem.
Emoce jsou velmi závislé na jazyku. Když kupříkladu posloucháte hovor dvou Italů, máte pocit, že se za chvilku zabijí.
Přitom si celkem normálně povídají. Pokud stejným způsobem komunikují Češi, jde do tuhého. Ukazuje se však, že do určité míry lze emoce detekovat z obsahu řeči. Podaří-li se udělat dobrý přepis, lze použít stejné hodnotící nebo klasifikační algoritmy, jaké bychom použili na text, a můžeme rozhodovat, zda jsme zaznamenali spokojenost nebo spíše nespokojenost.

* Zatímco vy pracujete na rozpoznávání hlasu reálných lidí, jiné vědecké týmy dnes - a dlužno říci, že úspěšně - směřují s pomocí neuronových sítí k nápodobě hlasu i vzhledu konkrétního mluvčího.
Může to znamenat, že někdo takový nástroj zneužije, aby doslova ústy někoho cizího říkal svůj obsah.

- Jistě, toto je nebezpečí. Algoritmy pro personalizovanou syntézu hlasu jsou opravdu daleko a znějí téměř jako lidé, které se snaží nahradit. Nejsme však naprosto bezbranní. Samozřejmě důvěra založená jen na tom, co vám kdo říká a jakým hlasem, může zmást. Budeme-li se však dostávat do situací s opravdu perfektní nápodobou lidského hlasu a obličeje, budeme se jako společnost muset současně naučit ještě více nevěřit a ještě více si ověřovat.

* Například?

- Když budete třeba bankovní úředník a sluchátko na vás bude hovořit perfektním hlasem klienta, který projde automatickým ověřením mluvčího, můžete se jej zeptat na něco, co bude pravděpodobně vědět jenom on. Kupříkladu kam včera poslal peníze a kolik jich bylo. Pokud k tomu ten podvodný algoritmus nebude mít přístup, neošálí vás.

* Jak se vypořádáváte s tím, že pro své výzkumy potřebujete data, která mohou obsahovat mnoho citlivých údajů, jejichž použití v poslední době evropská legislativa upravila kupř. pověstnou normou GDPR?

- Teď jste otevřel ale těžkou Pandořinu skříňku. Nejsem si jist, nakolik je dobře, jak nás Evropa všechny chrání v genetice, potravinách, osobních údajích atd. Jestli zákazem používat osobní údaje k dolování dat Evropu nedeklasujeme na skanzen, v němž budeme jako kdysi Valaši chodit v kožešinových vestách a hrát na fujaru. Pár desítek let to tu pojede, protože jsme si tu nastřádali určité bohatství, ale ti, kteří mají skrupulí méně, třeba v Číně nebo v Americe, nás během té doby mohou v technologické úrovni úplně převálcovat, a my to pak od nich, jsouce v těch kožešinových vestách, budeme všechno kupovat.

* A vás to nějak negativně ovlivňuje?

- Samozřejmě. Když jsme dělali na už zmíněném projektu BISON, bylo pekelně těžké, až nemožné, vůbec data dostat k vývojovým týmům, které by si na nich své rozpoznávače vylepšily nebo udělaly nějaký výzkum. To bylo ještě těsně před GDPR. Nyní nikdo z nás netuší, co pro nás bude znamenat, že kdokoliv může požádat, aby každá jeho informace byla vymazána. Co se kupř. stane, když získáme trénovací soubor s tisícem mluvčích, na něm natrénujeme nějaké programy těžící z dat, a jeden z oné tisícovky mluvčích prohlásí, že máme všechna jeho data vymazat? Vyhodí se nejen data, ale současně všechny výsledky práce, které jsme na tomto souboru získali.
Nebo zůstanou? Domnívám se, že lidumilná Evropa někdy dělá kroky, nad nimiž se zamýšlí jen z lidskoprávního hlediska, ale nepromýšlí, co to přinese ekonomice, a tím i blahobytu lidí v Evropě.

* Čili obava z nekonkurenceschopnosti a odlivu peněz a zájmu dosavadních partnerů do jiných zemí?

- Jistě, to se nám může stát. Protože na jednu stranu potřebujeme vyvíjet aplikace na konkrétní data a jazyky, ale také tím, že s těmito daty pracujeme, se učíme a celou tu technologii a vědu posunujete dál. Velká věda se v tomto oboru dělá tam, kde jsou velká data. Nejlepší vědecké týmy současnosti má Google. Důvodem nejsou jen vysoké platy, ale obrovské množství dat, která mají k dispozici. Když jedeme na konferenci a lidi z Googlu říkají - "tak jsme natrénovali na malé podmnožině 30 tisíc hodin dat", jen pláčeme, protože pro nás jsou jednotky tisíc hodin naše plné soubory. Na techniky, kterým se říká end-to-end trénování výsledku rozpoznaného přímo ze signálu, prostě potřebujete hodně dat. To si na univerzitě ani nevyzkoušíte.

* Jak z toho ven? Jak to udělat, aby výzkum byl možný za současného zajištění určité bezpečnosti?

- Myslím, že by se mělo definovat férové užití dat nejen pro nekomerční ale i komerční výzkum. Někdy totiž zákonodárci ve svatém nadšení do normy vloží, že to je v pořádku pro akademický výzkum. Tím však diskvalifikují všechny firmy, včetně evropských. Správně tedy "pro výzkum a vývoj". Na ochranu dat existuje velmi jednoduchý postup - špatně je, pokud lze data vrátit do původní podoby, v daném případě do původních promluv. Také bych nechtěl, aby někdo poslouchal, co si vykládáme s manželkou. Pokud už se však z nahrávek udělají deriváty, z nichž původní data nelze rekonstruovat, pak by se na ně normy GDPR neměly aplikovat a na data by se mělo pohlížet jako na surovinu - jako na ocel nebo vodu.

* A máte jako vědci dostatečně silné nástroje k tomu, abyste s tímto názorem dosáhli k politikům?

- Myslím, že cesty jsou. Já třeba sedím v platformě pro umělou inteligenci, zřízené Svazem průmyslu a dopravy České republiky. Jde o konzultační panel vlády, který se vyjadřuje k evropským návrhům a evropským normám. V jiných zemích to mají podobně. Jde jen o to, jak silný tento hlas bude.

***

Doc. Dr. Ing. Jan Černocký (*1970)

Je vedoucím Ústavu počítačové grafiky a multimédií (ÚPGM) na Fakultě informačníchtechnologií (FIT) Vysokého učení technického v Brně. Roku 1997 založil výzkumnou skupinu BUT Speech@FIT a je jejím výkonným ředitelem. Je absolventem VUT v Brně (Ing.) a Université Paris Sud ve Francii (Ph. D.). Pracoval na ESIEE Paříž a na OGI Portland, Oregon, USA. Jeho výzkumné zájmy zahrnují umělou inteligenci, zpracování signálů a dolování dat z mluvené řeči (rozpoznávání řeči, mluvčího a jazyka). Vedl či spoluvedl řadu projektů financovaných z České republiky, Evropské unie i amerických agentur DARPA a IARPA. V roce 2006 spoluzakládal firmu Phonexia, s. r. o., která je jedním z předních světových dodavatelů produkčních řečových technologií. Když se baví s novináři nebo politiky, používá pro svou práci pojem umělá inteligence. Pokud se baví s děkanem fakulty, jde o strojové učení, při debatách s kolegy ve skupině hovoří o klasifikaci, detekci, modelování časových řad, rozpoznávání a regresi. Hraje na klarinet v Cimbálové muzice Mirka Otáhala a ve volném čase lepí modely letadel, s nimiž rovněž létá.

Vložila: Kozubová Hana, Mgr.

Poslední změna: 2019-08-09 16:27:57

Zpět na zprávy z FIT