Deník N: Hrám vděčíme za vyšší výkon počítačů, pornu za rychlost, říká expert na analýzu řeči. Učí roboty "rozumět"

Datum vydání: 10.07.2020 | Zdroj: denikn.cz | Autor: Lenka Vrtišková Nejezchlebová

V laboratoři na brněnské VUT vyvíjejí nástroje, které posléze využívají policisté, vojáci, ale i tajné služby. Včetně těch amerických. Jan Černocký a jeho "kluci a holky" učí stroje analyzovat řeč. Jejich prací je data mining, tedy dolování dat ze zvukových nahrávek. Nepřímo se tak podílejí i na boji se zločinem a s teroristy. Za co vděčí vědci počítačovým hrám a pornu? A proč se musí tréninková data "zabordelit"?

Mluvíme spolu po Skypu, kde máte přezdívku Rypadlo. To proto, že se zabýváte dolováním dat?

To je dobrý! Ne, to mě vůbec nenapadlo, dala jste tomu nový význam, budu to používat. Rypadlo, ten obrovský stroj, mě fascinuje. Obdivuju ho od dětství, proto ten nick.

Kdy jste při dolování dat z řeči narazil naposledy na antracit?

Sám dlouho ne, protože posledních dvacet let už sám moc nedoluju. Snažím se organizovat, řídit, shánět šikovný lidi, projekty, peníze a dělat svým lidem na fakultě zázemí, aby mohli dolovat a nemuseli se zabývat otravnou administrativou. A kecám o tom do novin.

Hra na zločineckou organizaci

Ve vaší laboratoři se specializujete na vývoj algoritmů na rozpoznávání řeči nebo mluvčích v komplikovaných podmínkách, ať už jde o vzácné nebo exotické jazyky, zvuková znečištění, šumy či krátké "zaštěkání do vysílačky na bojišti". Jako fanynku detektivek mě nejvíc zaujalo, že vaše nástroje používají kriminalisté, protože díky nim mohou například v dlouhých nahrávkách odposlechů označit relevantní úseky - podle toho, kdo mluví nebo o čem. Kolik zločinců už díky vám chytili?

Bohužel, vaše velká očekávání zklamu. Moc vám k tomu neřeknu, protože naši kamarádi od policie nebo tajných služeb nám taky nic neříkají. Musím vysvětlit, že naše skupina dělá výzkum, aplikace pak jdou přes naše průmyslové partnery, kteří z našich algoritmů udělají komerční software třeba pro policii nebo vojsko. A zpětná vazba se k nám moc nedonese. Je to možná lepší, protože vědecká komunita je hodně otevřená a všechno utajovat a mít u vchodu samopalníky by nám bylo proti srsti.

Ale bylo by to cool.

Asi ano. Ale nás spíš trápí, že z nich nedostaneme data, na kterých bychom naše stroje mohli učit rozpoznávat to, co například v odposleších rozpoznat mají, třeba kdo s kým právě mluví. Dokonce to nemáme ani jak otestovat. Momentálně jsme ve velkém evropském projektu, kde je i devět různých policejních složek. Doufali jsme, že nám dají data třeba z uzavřeného případu, který prošel soudy, ale prdlajs!

Když nemáte tréninkové odposlechy, čím své stroje "krmíte"?

Zkoušíme to sami nasimulovat.

Sami je vyrábíte?

Ano. Zrovna si hrajeme se simulací kriminální sítě inspirované reálným případem. Je to hrozná sranda. Kolegové a kolegyně zdatně hrají jednu její část, domlouvají distribuci zboží, místa a okolnosti předání, platby, vedou různé dialogy, heslovité, útržkovité i bezobsažné...

To zní zábavně.

Ono to zábavné i je, ale věřte, že bychom ten čas radši využili k bádání, trénování neuronových sítí a ladili miliony parametrů tak, aby chybovost na výstupech byla co nejnižší.

Cukr, nebo naplácat

Na co jste pyšný? Kdy máte pocit, že se vám a vaší skupině daří?

Pokaždé, když se sníží chybovost nějakého algoritmu. Když měl rozpoznávač řeči, který udělal někdo před námi, 33 procent slov s chybou, a nám se to povede sundat na 31 procent, je to úspěch.

A jakou chybovost mají vaše nejlepší udělátka?

Když budeme mít záznam rozhovoru třeba dvou vzdělaných ekonomů, kteří se budou bavit pěknou plynulou angličtinou na očekávatelné téma, budou mít kvalitní mikrofony a v přenosu nebude ozvěna, dostaneme se i pod pět procent. Pokud půjde o nahrávku divokého afrického jazyka, protože se nějaká zpravodajská agentura rozhodla luštit komunikaci nějaké potenciálně nebezpečné skupiny, a nemáme ani lingvistu, který by pomohl, je úspěch třeba i padesátiprocentní chybovost.

Lidi v nás vidí nějaké kouzelníky, když jsme schopní z indonéských jazyků udělat rozpoznávače, ale jde pořád jen o data, o jejich popis a algoritmy.

Teď je dobrá chvíle podrobně popsat, jak to děláte.

Všechno je to aplikované strojové učení. Při trénování musíme naše algoritmy "nakrmit" tisícovkami zvukových souborů - WAVek - a tím, co mají rozpoznávat. Když chceme, aby stroj přepisoval na text, potřebujeme k WAVkám přepisy, tedy ty lidskou rukou psané. Když má rozpoznávat mluvčí, musíme vědět, že tady mluví Karel a tady zase Jaryn. Když jde o rozpoznávání jazyka, musíme mít označkované soubory, kde je němčina, angličtina atd.

Pak už je celé strojové učení jen o matematice - všechny záhadně vypadající neuronové sítě nedělají nic jiného než sčítání, násobení a pár dalších (ale nijak složitých) operací, vše popsané miliony parametrů. Musí také vědět, kdy pracují dobře a kdy špatně - jako když něco učíte psa a za správně provedený povel mu dáte kostku cukru a za špatně provedený mu naplácáte. A pak už jen potřebujete plný sklep počítačů a postup, jak ty miliony parametrů "naladit" tak, aby byl výstup co nejlepší. Když je "naladěno", pomodlíme se a pustíme náš systém na datech, která při trénování neviděl.

A pak je zátěžovým testem, jestli třeba na nahrávce z hospody, kde přes sebe mluví deset lidí, stroj identifikuje Honzu Černockého?

Přesně tak. Pokud stroj při trénování žádná takhle začuněná data neviděl, asi mě nepozná. Takže se snažíme naše systémy naučit generalizovat. Aby dělaly to, co mají, i v podmínkách, které v životě neviděly. Teda vlastně neslyšely.

Jan Černocký. Foto: Karolína Poláčková
Jan Černocký
Vedoucí Ústavu počítačové grafiky a multimédií (ÚPGM) na Fakultě informačních technologií VUT v Brně. Roku 1997 založil výzkumnou skupinu BUT Speech@FIT a je jejím výkonným ředitelem. Vystudoval VUT a Université Paris Sud ve Francii, pracovní zkušenosti sbíral v Paříži a v americkém Oregonu. Jeho výzkumné zájmy zahrnují umělou inteligenci, zpracování signálů a dolování dat z mluvené řeči (rozpoznávání řeči, mluvčího a jazyka). Vedl či spoluvedl řadu projektů financovaných z České republiky, Evropské unie i amerických agentur DARPA a IARPA. V roce 2006 spoluzakládal firmu Phonexia, s. r. o., která je jedním z předních světových dodavatelů produkčních řečových technologií. Rád popularizuje vědu.

Brněnští vědci prasí data!

Co vám v poslední době dalo hodně zabrat?

Úhelným kamenem, kde nic nefunguje, pro nás byl třeba afghánský jazyk paštú. Ten zajímá americké grantové agentury a samozřejmě mu nikdo z naší laboratoře nerozumí. Na to jsme ale zvyklí. Jenže postupy, které nám u jiných jazyků pomáhají, třeba před-trénování našich mašinek na datech z jiných jazyků nebo stahování dat z internetu, tady prostě nezabírají.

Jedna věc je tedy jazyková složitost, ale co ruchy, šumy, nekvalitní záznam?

Puštěné rádio, křik, ozvěna v místnosti, zvuk stavebních prací, ale i silný vítr. Ano, reálné nahrávky mívají strašnou spoustu šumů, přitom trénovací sety máme většinou čisté.

Co s tím?

Jedna možnost je špinavá data vyčistit. Ale to jde jen částečně. My na to jdeme naopak, velikánské množství trénovacích dat - pardon - zabordelíme, aby se stroj učil pracovat se špinavými daty.

Jako filmoví ruchaři skřípete, foukáte, vrtáte, boucháte?

Jo, ale jako ruchaři na steroidech. Filmový ruchař udělá čtyři údery za minutu, když se perou padouši, my musíme začunit několik tisíc hodin dat. Využíváme databáze ruchů a šumů.

Větrák, průvan, hudba?

A taky dozvuk místnosti. Ozvěnu. Čím dál jste od mikrofonu, tím je větší. V čím větší místnosti a v čím hladší, tím větší ozvěna. Někdy ji vytvoříme v počítači, jindy nasadíme do reálné místnosti třicet mikrofonů a pouštíme řeč nebo speciální měřicí signály a zjišťujeme, jak se ta místnost akusticky chová, a pak to v počítači na ty tisíce hodin aplikujeme. Učeně se tomu říká augmentace dat. Ale my tomu říkáme bordelizace. Můžete ten rozhovor nazvat: Brněnští vědci prasí data!

Na emoce jsou stroje krátké

Umíte stroj naučit rozpoznat v řeči emoce?

Pokud bychom měli trénovací WAVky, kde by byly kvalitně označené emoce: veselost, smutek, naštvání, váhání, stroj by se to naučil. Pokud by pak analyzoval nahrávku, ve které emoce budou vyjádřeny stejným prvky, zvládne to. Jenže emoce jsou potvory a ani lidé je z řeči spolehlivě nepoznají. Existují články, které reportují úžasnou spolehlivost rozpoznávání emocí, ale data byla nahrána uměle - hercům se řeklo, aby nahrávali úseky vesele nebo smutně. A samozřejmě to perfektně fungovalo.

Stejná věc se ale zkusila s reálnými daty z call center a neshodli se ani lidé, kteří data měli označkovat. Když požádáte pět lidí, aby stejnou nahrávku přepsali slovně, budou mezi nimi rozdíly v jednotkách procent. U lidského značení emocí to jsou spíš desítky procent. S takovými daty žádné strojové učení nenatrénujete.

V nedávném textu o tom, jak Facebook špatně pracuje s rozpoznáváním nenávistných projevů, kolega mimo jiné píše, jak je vlastně složité i z psaného textu rozpoznat, co je třeba myšleno žertem nebo ironicky a co je opravdu výzva k násilí.

Ano. Do jisté míry se tyto věci natrénovat dají, ale s velkou chybovostí. Třeba pro slovní hodnocení produktů na Amazonu mají algoritmy, které analyzují, jestli šlo o kladnou, nebo zápornou recenzi. Dokonce se objevují algoritmy, které se učí řešit ironii, ale představa, že by se stroj naučil tyto nuance rozpoznat třeba z poklesnutí základního tónu v hlase, je úplně vedle, protože poklesnutí i zvýšení hlasu může znamenat cokoliv.

Je s pokročilým vývojem strojového učení a neuronových sítí pořád spolehlivý takzvaný Turingův test, díky kterému se pozná, že komunikujete s robotem?

Rozhodně. Vracíme se pořád na stejné místo. Trénovací data vs. realita. Třeba takový chatbot v zákaznickém servisu na kosmetické produkty bude perfektně naučený i na zdánlivě složitější dotazy, jako jsou způsoby aplikace výrobku, nežádoucí účinky nebo pro jakou pleť je to vhodné a pro jakou ne, ale zeptejte se ho na současné mezinárodní dění! Zkuste ho překvapit! Roboti umí to, na co jsou naučení, a zdokonalují se v tom ze svých vlastních chyb, když jim tedy někdo řekne, že chybu udělali. Je to pořád ta samá story o cukru nebo plácnutí a milionu koleček na naladění.

Ale nevyznají se v emocích, nechápou vtip, nezvládnou změnu tématu, osobní otázku?

Na druhou stranu ale umí i to, co člověk ne. Třeba naše stroje už umí velmi dobře ověřovat mluvčího. Dostane různé nahrávky a umí hodně přesně říct, na kterých mluví stejný člověk, a to i když mluví v jiném prostředí, v jiném jazyce.

Robot odhalí podvodníka

Četla jsem, že to využívají třeba společnosti, které poskytují rychlé půjčky.

Mimobankovní úvěry jenom na základě telefonátu: když potřebujete pět tisíc, zavoláte, řeknete jen jméno a číslo občanky a oni vám půjčí. S nějakým procentem podvodníků se počítá, ale jsou i tací šikulkové, kteří nakradou padesát občanek, zavolají padesátkrát jako různé osoby a vezmou si padesát pětitisícových půjček, a to už je citelná ztráta. Hovory v call centru berou různí operátoři a nemají šanci to poznat, naše aplikace ale ano. Může říct: Pozor, tenhle člověk už volal za minulou hodinu třikrát a pokaždé se jmenoval jinak.

Lidská výkonnost je v tomto jiná. Když vám bude volat dvacet lidí, které dobře znáte, během prvních pár slov je s jistotou poznáte, ale pokud budete muset srovnávat nahrávky dvou neznámých mluvčích, kteří třeba mluví vám neznámým jazykem, bude stroj přesnější než vy. Tam počítače člověka překonaly, natvrdo. Stejně tak v detekci lidí na obrázcích, v různém prostředí, s různými šumy.

Ale z pohledu matematiky jsou to pořád relativně jednoduché úkoly. Správné vstupy, trénink, vhodné použití a co nejpřesněji definovaný výstup, výsledek. A funguje to suprově. Naopak umělá inteligence nefunguje a nejspíš nebude fungovat tam, kde pořádně nevíme, jaký je výstup.

Co je třeba výstup psychoterapeutického sezení? Zlepšit pocit klienta. Ale jak to kvantifikovat? Nebo jak změřit, že jsem si s někým dobře pokecal o politice? Pro někoho to může být kvalitní hádka, pro jiného potvrzení vlastního názoru. Nebo co přesně je dobrý román? Když neumíme výstup přesně definovat, nemůžeme použít strojové učení. Na tom si naštěstí počítač nabije hubu.

Říkáte naštěstí, proč?

Jsem pyšný na to, co už umíme, co jsme schopní stroje naučit a jak to pěkně funguje, ale nebavilo by mě, kdyby počítače uměly všechno.

Pokrok díky hrám a pornu

Začínal jste na konci 90. let. Kdybyste se tehdy mohl strojem času podívat do roku 2020, co by vás - myslím s ohledem na vaši práci - šokovalo?

Určitě bych mrkal, jaký pokrok strojové učení nebo "umělá inteligence" udělaly. Devadesátým létům se zpětně říká Zima neuronových sítí, nikdo tomu moc nevěřil, grantové agentury na jejich rozvoj nedávaly peníze, velké podniky říkaly, že to je hovadina, která nebude fungovat. Pracovalo na tom jen pár nadšenců, mezi nimi i náš pan profesor Heřmanský, u kterého jsem byl v roce 2001 v Oregonu na stáži.

Kdybychom viděli, kde všude dnes neuronové sítě fungují, byli bychom v šoku. Doporučování reklamy, rozpoznávání řeči v mobilu, zadávání povelů pro vyhledávání nebo strojový překlad na Googlu, který byl ještě před deseti lety spíš pro pobavení, ale teď stačí většinou menší úprava a dává to smysl.

Další šok?

Výpočetní výkon. Před 25 lety jste musela koupit opravdu velký počítač za sto tisíc dolarů, abyste spočítala to, co dneska umí mobil za čtyři tisíce korun. Pokud potřebujete opravdu velký výpočetní výkon, za dostupné peníze nakoupíte tzv. výpočetní akcelerátory, takzvaná GPUčka. To je mimochodem zajímavá historie...

Vznikly díky počítačovým hrám, že jo?

Přesně tak. Aby se příšerky rychle vykreslovaly a krev, co z nich teče po zásahu z vašeho kulometu, byla pěkně realistická, vznikly architektury na rychlé zpracování videa, na obrovské množství dat a pixelů. A pak se začaly postupně používat pro vědecké výpočty.

To je hezké, jak může bohapustá zábava nakopnout vědu.

Málokdo už si asi pamatuje, že přenosové rychlosti internetu se zvyšovaly kvůli pornu. Inu, cesty vědy jsou různé. Ale ještě tu je třetí level šoku: legislativa. Na tomto poli se pro nás práce značně ztížila.

Proč?

Když jste chtěla v roce 1999 nahrát data, šla jste na ulici a řekla pár lidem: Nahrajte mi nějaká řečová data, dám vám deset dolarů. GDPR to strašně sešněrovalo, potřebujete právníka, abyste se v legislativě vůbec vyznala.

Ochrana osobních dat před zneužitím je ale důležitá a potřebná věc, i když je jasné, že to přináší spoustu komplikací.

Já vím, ale jde proti výzkumu a vývoji, někdy se to s tou měkoučkou peřinkou "bezpečí" přepískává. Takto nás americké a čínské firmy, ale i univerzity převálcují - budou dělat práci, zatímco my se budeme dohadovat s právníky a psát reporty o etických otázkách.

Jenomže ono se blbě odděluje, co je "bohulibý" účel a co zneužití, ne? I vaše programy jsou zneužitelné.

Jasně. "Zneužitelný" je citlivé slovo. Předhazuje se nám, že naše nástroje používá armáda a policie. Ale my se tím netajíme. Výzkum a vývoj technologií se odnepaměti financoval díky vojákům nebo zpravodajským službám. Ani bych se nedivil, kdyby pluh byl hodně nepovedený široký meč...

Tvářit se, že internet se zjevil jako civilní vynález, je nesmysl. Vývoj financovala ARPA pod americkým ministerstvem obrany. Tvářit se, že naše technologie neslouží vojákům, je taky nesmysl. Slouží. Známe se s nimi a jezdíme k nim na semináře. Naše laboratoř sice nedodává vojákům odposlechové systémy, ale spolupracujeme s firmami, které jim je dodávají, takže se z toho nevyvlečeme. Ale Al-Káidě nebo ISIS jsme nic neposlali!

Jejich experti by vaše data klidně mohli zneužít pro svůj boj.

Asi jo, ale bude to o trochu méně nebezpečné, než když si někdy někde stáhnou plány na kalašnikova a na 3D tiskárně si ho prostě vytisknou z plastu, aby ho pronesli do letadla. Zpracování řeči je složitější. Algoritmy jsou sice otevřené, ale dá strašnou práci, abyste je dokázala přetrénovat tak, jak potřebujete. A z rozpoznávače řeči se zatím střílet nedá.

Dobře. Ale stejně, musel jste si nějak sám vnitřně srovnat, že spolupracujete s armádou? Jsou vědci, kterým by to třeba vadilo.

Jasně. Přelomová léta byla 2005/2006, kdy se nám začalo dařit a měli jsme první úspěchy v mezinárodním srovnání. Tehdy jsem poprvé přijel na workshop, kde polovina lidí měla na visačce Department of Defense US, byli z nejrůznějších agentur, které pod ministerstvo obrany spadají. Tak, s těmito lidmi budu spolupracovat. Ok. Líbí se mi to? Zeptal jsem se sám sebe. Jo! Odpověděl jsem si. Pak přišli kluci z české armády, taky jsem si odpověděl, že s nimi budu pracovat rád.

Maminka hlasem šaliny

Je náhoda, že děláte zrovna na rozpoznávání řeči?

Hm... Táta je inženýr, maminka bývala rozhlasová hlasatelka. Dokonce jejím hlasem dlouho mluvily brněnské šaliny.

Vida!

U nás doma se řešily technické věci přes tátu a s maminkou jsme se bavili o tom, jak kdo mluví, jak u toho dýchá, jak frázuje a jestli mluví správně. A pořád doma hrálo rádio... Tahle kombinace mě možná podvědomě vedla tam, kde jsem. Ale vědomě ne.

Dělal jsem v Brně počítačové gymnázium (1984 až 1988), většinu kódu jsme si psali rukou a v některých ročnících jsme ani neviděli počítač! Ve druháku nás pustili k terminálu, na něm jsme napsali ten kód a vyděrovali ho do děrné pásky, tu jsme odevzdali a za týden jsme dostali ze sálového počítače sjetý výpis s označenou chybou na řádku čtyři. Takže po gymplu jsem si říkal, že já a počítače už nikdy víc.

Jenže co dál? Nakonec jsem si řekl, že půjdu na elektro, budu si u toho dělat muziku, která do té doby hrála v mém životě prim. A až to půjde, zdrhnu co nejdřív na západ. Ale přišla revoluce a já nemusel prchat, najednou jsem se svobodně dostal k zajímavým projektům. Diplomka mě zavedla do Francie, kde jsem se dostal právě ke zpracování řeči. Pak jsem byl ještě nějaký čas ve Francii, chvíli v USA, ale teď už máme skoro dvacet let naši skupinu na VUT a děláme, co nás baví.

Z kolika lidí je složená?

Kolem pětadvaceti lidí. Pořád se to mění, odjíždějí a přijíždějí, odcházejí na stáže do Amazonu, Googlu. Máme lidi, co na část úvazku pracují pro firmy. Spočítat lidi je pro mě nadlidský úkol.

Jak jste na tom s poměrem kluci-holky?

Řekl bych nadprůměrně, alespoň na technický obor. A nevím, jak se to přihodilo. Možná díky první druhé šikovné slečně přišly další, nebo v tom hraje roli fakt, že jsme neměli problém s žádným obtěžováním nebo jinými nepříjemnými věcmi, že se k sobě snažíme chovat pěkně. Momentálně máme jednu šikovnou Češku, dvě Rusky a dvě Španělky. Ale hlavně máme skupinu hodně různobarevnou a multikulti, deset národností.

Je mi úplně jedno, jestli někdo chodí na mužský nebo na ženský záchod, jestli je černej nebo bílej, pro mě je podstatný, že něco umí. Kvóty jsou podle mě hovadina, ale určitě je potřeba prezentovat technické obory jako zajímavou příležitost k realizaci i holkám. Mám pocit, že ve společnosti je pořád stigma: Jsi holka, budeš doktorka nebo učitelka, ty jsi kluk, tak půjdeš na techniku. To je strašná škoda.

Co dělá vaše žena?

Chemii.

Hezky! Ale tipnu si, že jste se potkali v lidušce.

Samozřejmě. Jak jinak. Muzika může za všechny podstatný věci v mém životě.

Matika, kam se podíváš

A matika?

Ta taky. A pokud bych mohl využít prostor, chtěl bych říct, jak důležitá matika je. Bez ní vás oblbne každá banka a stavitel. Nemusíte umět integrály, ale měli bychom umět spočítat úrok nebo výměru bytu. Z nedávného zrušení povinné maturity z matiky mě málem trefil šlak. Strašná chyba, přímá cesta ke zblbnutí společnosti.

Málokterý učitel umí matematiku podat tak, že z toho trčí, jak je užitečná a jak může být zábavná.

To je druhá věc. Matikáři by měli využívat možnosti, aby do hodiny přišel expert z hi-tech firmy a studentům pověděl, k jakým úžasným věcem matiku potřebuje, jak se u toho baví a jak si zároveň velmi nadprůměrně vydělá na živobytí. Nebo aby se studenti mohli jít podívat, co se dá s matikou v praxi dělat.

Pokud to někdo učí tak, že tento týden dáme sčítání, příští týden kvadratickou rovnici, pak derivaci, ale "to stejně nebudete nikdy potřebovat", je to strašná škoda. Právě derivování je základ celé umělé inteligence. Díky tomu je možné na dálku řídit auto nebo směrovat kosmickou raketu. Mobily jsou napěchované matematikou k prasknutí. Matika slouží všude, kam se podíváte.

Vložila: Kozubová Hana, Mgr.

Poslední změna: 2020-07-15T17:17:32

Zpět na zprávy z FIT