Rozhovor s Tomášem Mikolovem, absolventem FIT, v časopisu Forbes

Datum vydání: 22.03.2018 |Zdroj: Forbes NEXT | Rubrika: Whoolala | Strana 76 | Autor: HANA NĚMEČKOVÁ, MICHAEL MAREŠ

Ačkoli se o něm v Česku prakticky neví, Tomáš Mikolov patří mezi hvězdy svého oboru. Jeho práce na vývoji umělé inteligence rezonuje velmi silně mezi odborníky a vábí největší technologické hráče na světě. Pětatřicetiletý rodák ze Šumperka léta pracoval pro Google a nyní působí ve Facebooku.
K výzkumu a vývoji umělé inteligence v obou firmách je přitom poměrně skeptický a tvrdí, že lidstvo v tomhle směru obecně postupuje "hrozně pomalu", žádný přelom se tu roky neodehrál a výzkumníci si většinou kladou malé cíle.
Jeho cíl? Umělá inteligence by měla umět to, co přirozená inteligence. Chtěl by počítač, který by dokázal být užitečný pro lidi a byl by schopný se sám učit z komunikace s lidmi.
Ve Forbesu většinou píšeme o byznysu ????od startupistů po miliardáře
??????ale tenhle rozhovor je jiný: Mikolov v něm popisuje, jaké to je, být špičkovým vědcem ve službách špičkového byznysu.
Tahle pozice s sebou často přináší rozporuplné stavy: místo velkého výzkumu a hledání zásadních inovací se hledí na zisk, takže se často o milimetry vylepšuje to, co už funguje a vydělává peníze.
Mikolov se už léta pohybuje na hraně mezi oběma světy. Co vlastně dělá? Zjednodušeně řečeno, dělá z lidské řeči matematiku. Ve vědecké komunitě se proslavil především svým počinem word2vec. Jde o systém, který převádí slova do vektorů. Ukazuje, jak jsou jednotlivá slova vzájemně propojená, představuje tedy jejich lingvistický kontext, a to ve vektorovém prostoru, jenž má typicky několik stovek dimenzí.
Zní to komplikovaně a také to komplikované je. Ale funguje to.
Podle Mikolova jde dokonce o takové vylepšení, že oproti některým předchozím modelům zrychlilo zpracování jazyka až desetitisíckrát. "To, co dřív trvalo týdny, se najednou dá zvládnout za pár sekund."
Samozřejmě, Mikolov měl štěstí, že se svým výzkumem trefil začátek nové éry ve výzkumu a vývoji umělé inteligence. Po roce 2010 na ní začaly pracovat nejen univerzitní týmy, ale i všechny velké technologické firmy a do toho přišlo rapidní zlepšení na straně strojů. Grafické karty jsou rychlejší a počítače výkonnější.
Ačkoli se posledních sedm let pohybuje v epicentru technologického dění ?? od Silicon Valley přes Montreal po New York ??, už vyhlíží návrat do Česka. Mikolov pochází ze Šumperka, posléze se přestěhoval do Olomouce a teď se rozmýšlí, že by se po letech v Severní Americe vrátil domů. To ale neznamená, že by jeho práce na AI měla skončit. "Umělá inteligence se dá dělat kdekoli."

* Jak jsou na tom Češi, co se týče vývoje v rámci umělé inteligence?

Když jsem na VUT dělal doktorát, všichni okolo mě tvrdili, že v Americe to jsou úžasní borci, strašně chytří lidé, nesrovnatelní s Českem. Ale později jsem zjistil, že lidé jsou všude stejní a ani v jejich výzkumu není zase tak velký rozdíl. Snad jen v prezentaci výsledků. To, co se v Česku podařilo za poslední roky, se dá naprosto srovnat s tím, co se dělá v Americe. Češi se v tomhle směru neumějí prodat, takže když se toho poté chopí někdo v této oblasti schopnější, slízne slávu on. Když někdo na Stanfordu nebo MIT vydá článek, který je jen kopií toho, co už někdo vydal dva roky předtím (a samozřejmě tam upraví pár věcí), dostane všechen kredit. Příkladem může být úspěšné použití neuronových sítí pro rozpoznávání řeči: v Brně vznikaly už v roce 2004, ale to už dnes skoro nikdo neví.

* Takže na tom nejsme tak zle?

Vůbec ne. Podívejte se třeba na skupinu Jana Šedivého na ČVUT, která udělala nejlepšího chatbota pro Amazon. Byl jsem se tam za nimi podívat a rozhodně na tom byli líp než mnohé týmy ve velkých amerických korporacích. Jenže když mi to ukazovali, zrovna neoplývali sebevědomím. To je klasický český přístup - umíme to udělat, leckdy i líp než v USA, ale neumíme to odprezentovat. Vychází to už ze školy: když jsem končil inženýrská studia na VUT, první ústní zkouška byla až ta závěrečná. Po pěti letech! Do té doby to byly jen písemky, a ještě ve stylu odpovědí A, B, C, D, takže vůbec nebyl prostor se nějak projevit.

* Jak jste se s tím srovnal?

Až prací ve firmách, kde je prezentování výsledků běžné.

* Na začátku kariéry to tedy byl handicap?

Končil jsem studium těsně před ekonomickou krizí a všechno vypadalo úžasně, spolužáci sehnali práci za den, maximálně za dva. Jenže to byly většinou práce na programování webu nebo databází, to mě nikdy nezajímalo. Vždycky jsem se zajímal o umělou inteligenci a počítačové hry. Vytvářel jsem strategie ve stylu Command & Conquer nebo Warcraftu. Diplomku jsem dělal v řečové skupině na VUT na jazykové modelování pomocí neuronových sítí. Věřil jsem, že v tom je velký potenciál do budoucna, šlo jen o rychlost trénování neuronových sítí. Jedním z mých cílů, který tehdy vypadal bláznivě, ale dnes je to realita, bylo vylepšit Google Translate, aby v češtině přestal generovat takové nesmysly.

* Je pravda, že v poslední době se značně zlepšil.

Ještě pár let zpátky byl totiž založený na starých n-gramových modelech, které počítají pravděpodobnost slov z jejich počtu, jak často se vyskytují vedle sebe. Tenhle postup v češtině selhává kvůli koncovkám, jelikož ty vám dávají strašně moc kombinací. Pokud model nedokáže automaticky oddělit kořen slova od koncovky, tak bude mít hrozně moc parametrů, které nebude možné natrénovat. Už ve své diplomce jsem ukázal, že by se to dalo spravit využitím neuronových sítí. V nich jsou slova reprezentována jako vektory čísel a je možné se automaticky naučit oddělovat informaci o kořenech a koncovkách slov. Ještě na škole jsem na to napsal program, ale žádný velký úspěch to nebyl. Měli jsme tam třeba lingvistu, který mi dělal vedoucího, a ten byl hodně negativní, prý že je hloupost myslet si, že by se neuronové sítě někdy mohly něco naučit v jazyce. Že bych to měl zahodit a začít používat jeho morfologický analyzátor založený na pravidlech. Nenechal si vysvětlit, že můj program funguje pro jakýkoli jazyk, protože se sám učí z poskytnutých dat, zatímco u jeho modelu se vymění čeština třeba za slovenštinu a už to fungovat nebude.

* Co jste se svým výzkumem tedy dělal?

Bylo mi jasné, že v Brně by mi pokračování k ničemu nebylo, tak jsem se rozhodl jít na stáž do zahraničí. V roce 2010 jsem se dostal na Johns Hopkins University, kde působí Freddy Jelinek, průkopník statistických modelů pro rozpoznávání řeči, jenž tenhle obor hodně posunul svou prací v IBM v 70. a 80. letech. Chtěl jsem tam dokázat jednu věc: aby moje modely mohli ostatní vědci snadno používat, protože jsem zjistil, že vědecké články jsou často přikrášlené a vychází z neveřejných dat. Proto jsem začal dělat na toolkitu (softwarová knihovna, pozn. redakce) pro trénování rekurentních sítí pro jazykové modelování...

* Počkejte, počkejte. Co to znamená?

N-gramové modely jsou k tomu, aby se určila pravděpodobnost skupiny slov a celých vět, a to tak, že u vět, které dávají smysl, by měla být větší pravděpodobnost, že se objeví v lidské řeči, než u vět, které jsou nesmyslné. Takže když řeknu, že "Teď sedíme ve Starbucksu", ta věta gramaticky smysl dává. Ale když ta slova různě zpřeházím, například "Ve Starbucksu sedíme teď", tak to sice ještě trošku smysl dává, ale je to dost kostrbaté. Pravděpodobnost této věty by proto měla být nižší. N-gramový model tedy určuje, která z variant vět je nejpravděpodobnější. Nebo se dá podobný přístup, kterému se říká unigramový, použít u jednotlivých slov nebo dvojice slov. Jde v podstatě o pravděpodobnost výskytu slov u sebe.

* Je v tomhle čeština výjimečná?

Spíš složitá. N-gramové modely, kde se počítají pětice slov, fungují jakžtakž u angličtiny. Většina jazyků má totiž složitější morfologii než angličtina, u slovanských jazyků obzvlášť.

* Takže jste měl výhodu, že jste začal s pomalu nejtěžším jazykem?

Určitě. Navíc čeština je trochu uměle vytvořený jazyk, je hodně pravidelná. Byla výhoda chápat, že koncovky slov se dají spočítat automaticky na základě toho, jak se slova objevují v kontextu. To je přirozenější pochopit v češtině než to vysvětlovat v angličtině.

* Pojďme ale zpět na Johns Hopkins University. Co jste tam dělal?

Dokazoval jsem tam, že neuronové sítě jsou mnohem flexibilnější a naučí se toho mnohem víc než zmíněné n-gramové modely, protože dokážou lépe pracovat s reprezentací slov. Jen jsem si dával pozor, aby se síť při trénování neměnila skokově, aby nedošlo k explozi gradientů - to znamená, že by se trénování znehodnotilo tím, že se jedna drobná odchylka, chcete-li chybička, exponenciálně znásobí. Takže jsem raději vyřadil jedno procento trénovacích dat, abych si ochránil celý model. Byl to takový můj malý trik, na který přede mnou nikdo nepřišel, a jak jsem později zjistil, také jeden z důvodů, proč jsem jako první dokázal úspěšně natrénovat rekurentní neuronové sítě. To jsou velmi zajímavé matematické modely, které byly po desetiletí považovány za nenatrénovatelné - až právě do doby, než jsem vydal svou práci.

* Co vás dostalo do Googlu?

Na univerzitě bylo hodně lidí s kontakty na velké firmy a právě v té době začal být zájem o rekurentní sítě (dokážou přenášet informace mezi svými vrstvami v čase, takže se dokážou rychleji učit, pozn. redakce). Prezentoval jsem svou práci na konferencích a na pětiměsíční stáži v Montrealu u Yoshuy Bengia, známého počítačového vědce a odborníka na umělou inteligenci a hloubkové učení. Tehdy ještě ani zdaleka nebyl tak slavný jako dnes, kdy patří mezi tři nejvýznamnější osobnosti v oboru. Yoshua mě seznámil s různými lidmi z firem a Google si mě tehdy pozval do svého sídla v Mountain View, abych jim přijel odprezentovat svou práci. Tehdy bylo cítit, že se v této branži konečně začíná něco dít.

* Jak to?

Dvacet třicet let předtím lidé nevěřili, že jde n-gramové modely překonat. Až mně se to podařilo udělat způsobem, který byl snadno reprodukovatelný a použitelný na velkém množství dat. Bylo to dost průlomové. Google tehdy startoval svou výzkumnou skupinu Brain, a když jsem tam měl přednášku, viděl jsem, že přepisují můj toolkit ještě z Brna do systému Googlu.

* Takže jste tam rovnou zůstal?

První mi přišla nabídka na stáž z Microsoftu, Googlu to trvalo nějak dlouho, tak jsem se rozhodl pro léto v Redmondu. Až poté jsem se přes klasické pohovory dostal do Googlu.

* Jaká byla vaše práce v rámci Google Brainu?

Popravdě, ten cíl se časem měnil. Zpočátku byl Brain součástí Google X (část Googlu, která se věnuje tajným nebo těžko splnitelným úkolům, pozn. redakce), ale pak nás dost přesouvali podle toho, kde si management myslel, že jsme nejvíc třeba. V jednu chvíli jsme seděli v prosklených kancelářích dole v přízemí, hned u centrálního náměstíčka v areálu Googleplex, takže se na nás všichni koukali, je to docela turistické místo. Tam už to vůbec nebylo tajné.

* Kolik vás v Google Brainu bylo?

Desítky lidí, ale přesné číslo vám neřeknu. Hodně se měnilo, tým se neustále rozrůstal, takže si třeba stážisté už ani neměli kam sednout. A navíc jsme se různě prolínali s dalšími týmy, které dělaly něco podobného, třeba sémantickou anotaci textu nebo knowledge graph, a kousek ode mě seděl třeba slavný futurolog Ray Kurzweil.

* Co si vlastně Google od vašeho týmu sliboval?

První cíl byl natrénovat velké neuronové sítě pomocí velkého počtu počítačů, aby se daly využít pro potřeby Googlu. Věděli, že by se tím jejich služby daly významně vylepšit, od překladače po vyhledávač. První věcí, která se vylepšovala, bylo rozpoznávání řeči. V tom byl tehdy Google oproti ostatním velkým firmám pozadu. Dat na to měli mraky, ale jejich modely nebyly moc kvalitní. Když na to pak nasadili právě neuronové sítě, šlo googlovské vyhledávání hlasem skokově nahoru.

* Zdá se mi to, nebo u češtiny v Google Translate to trvalo nějak déle?

Máte pravdu, na překlady češtiny nasadil Google neuronové sítě až loni.

* Proč jim to tak dlouho trvalo?

Víte, v Googlu je spousta věcí zbytečně komplikovaná. To, co by mohlo být jednoduché, se dělá složitě. A někteří lidé zevnitř jsou na to ještě pyšní! "Jo, my víme, že to je těžší, ale my to zvládneme, jsme přece borci." Týkalo se to hlavně těch, kteří tam už byli delší dobu. Mně to přišlo hrozně hloupé.

* Příklad?

Třeba jste chtěli na něco využít servery Googlu. Jenže ty se sdílely s komerčními službami a výzkumné modely samozřejmě neměly takovou prioritu jako věci, na kterých jsou závislé miliony a miliardy lidí. Takže jste nikdy nemohli vědět, jestli vám běžící výzkumný projekt nespadne. A přihlásit se na servery a něco tam udělat? Peklo. Vůbec to nebylo tak jednoduché, jak služby Googlu zvenčí vypadají. Bylo to dané tím, že Google nebyl na vlastní výzkum a vývoj stavěný, léta ho tam vůbec neměli.

* Proč jste z Google Brainu odešel?

Cíle v Googlu byly dost aplikované a samotného výzkumu bylo vlastně docela málo. Jinými slovy, hodně inženýrů a málo vědců. To mi nepřišlo moc zajímavé. Víte, Larry Page vždycky mluvil o tom, že nemá cenu pracovat na jednoprocentním zlepšení, ale že se má Google snažit o desetinásobné nebo prostě mnohonásobné zlepšení. Říkali tomu Moonshots a vytiskli si na to trička s nápisy a raketami. A tahle trička tam přesně nosili lidé, kteří dělali ta jednoprocentní vylepšení. A mně naopak vždy přišlo zajímavé dělat na něčem, co se na první pohled zdá nemožné nebo aspoň hodně vzdálené.

* A to jste našel ve Facebooku?

Facebook v té době rozjížděl vlastní výzkum a šlo do něj docela dost lidí právě z Googlu. Do velké míry je i kopírovali, takže to tam vypadalo jako v o pět let mladším Googlu. Ale chtěli rozjet výzkum, který mi přišel zajímavější. Stanovili si velké cíle a rozjeli skupinu Facebook AI Research (FAIR).

* Umělá inteligence je v posledních letech hodně horké zboží, že?

Jasně, všichni tu nálepku na sobě chtějí mít. Často z toho pak vznikají astronomické akvizice, které moc nedávají smysl. Třeba když Google koupil DeepMind za velké peníze, přičemž neměli žádný zisk ani vlastní produkt a nedalo se ani očekávat, že by přišli s něčím, co by dokázalo vydělat peníze. Vždyť to byl startup, kam chodili pracovat lidé, kteří se nikam jinam nedostali...

* Nakonec to ale nebyli zase takoví lúzři, ne? Vždyť udělali AlphaGo, počítačový program, který poprvé porazil člověka ve hře Go.

Záleží na tom, koho se zeptáte. Já jsem v tom nikdy nic úžasného neviděl. AlphaGo samo o sobě peníze nevydělává a je to dobrá věc spíš pro PR. Pro mě to zase takový průlom není, podobně jako když IBM porazilo v šachu Kasparova. Je to spíš ukázka rychlosti počítačů, které dokážou v krátkém čase projít hodně herních kombinací. Ale to není umělá inteligence v pravém slova smyslu, počítač jen reaguje podle souboru pravidel a není schopný překročit svůj stín. AlphaGo je to samé, jsou to takové šachy na steroidech.

* A co je podle vás tedy opravdový průlom?

Takový se ještě nestal. Spíš se v posledních letech událo pár zajímavých vylepšení hojně používaných aplikací, třeba u toho Google Translate. Ale na úrovni obecné umělé inteligence se za poslední roky neudálo nic významného. Vývoj jde dopředu docela pomalu. Ano, máme větší množství anotovaných dat, tedy i více trénovacích dat, a rychlejší grafické karty a výkonnější počítače. Ale to jsou všechno vlastně klasifikátory, tedy něco, co si umělá inteligence vezme jako reprezentaci vstupu (třeba obrázek, napsaná věta nebo záznam řeči) a z klasifikátoru vypadne třída: na obrázku je kočka nebo ta věta je pozitivní/negativní. Ano, je to užitečné, ale jsou to klasifikátory, ne umělá inteligence. Lidé si dnes často pletou pojmy.

* Co tedy bude opravdu milník pro myslící umělou inteligenci? Dříve se za to považoval Turingův test. Ten už je překonaný?

Ne překonaný, spíš nepochopený. Před třemi lety jsem o tom napsal článek, jenž se jmenuje Roadmap to Machine Intelligence a má asi 20 stran, takže ve zkratce: Je to počítač, který by dokázal být užitečný pro lidi a potenciálně pro jakoukoli úlohu, takže by byl schopný se sám učit z komunikace s lidmi. Je to vlastně počítač, s nímž můžete mluvit a něco ho tak naučit. Dneska kdybyste se zeptal počítače, jak vylepšit lék na rakovinu, vrátí vám sérii hloupých odkazů, které napsali ostatní lidé. Neumí si spojit fakta dohromady a vygenerovat nový obsah.

* A to by byl ten přelom?

Ano. Že bych se počítače na něco zeptal, on by si něco nastudoval, pochopil to, správně vyhodnotil a vrátil mi výsledek, který ještě nikdo nezná.

* Jak daleko od takového momentu jsme? To nikdo neví. Každopádně bychom potřebovali udělat několik skokových vylepšení algoritmů, na kterých pracuje relativně málo lidí.

* A kde je ta většina?

Jak jsem říkal, vylepšuje věci, které už jsou dávno vyřešené. Podle mě by měla být umělá inteligence schopná pomáhat lidem tak, aby dokázali dělat de facto cokoli. S tím, že bude schopná se z komunikace učit, tak jako se učí ostatní lidé. Takže by měla umět totéž jako přirozená inteligence. Stejně jako vy můžete mluvit s jiným člověkem, něco se od něj naučit, získat užitečné informace, pomoct mu. To by měly počítače dělat v budoucnu.

* Jak vysvětlujete laikům, na čem vlastně pracujete?

Od začátku se snažím dělat na umělé inteligenci. Není to jednoduchá věc, nemůžete mít bláznivé cíle a nápady a do toho čekat, že vám 20 let tohle někdo bude sponzorovat. Musíte dělat něco praktického. Výzkum má různá stadia. Doktorand musí prokázat, že je schopný udělat nějaké základní věci, a když už se dostane do nějaké firmy na juniorní pozice, snaží se také o něco aplikovanějšího, co dává smysl z krátkodobého hlediska. Já už jsem mezi těmi středně seniorními vědci, takže si cíle můžu vybírat sám.

* Jaký je ten váš?

Chci dělat na něčem, co bude zajímavé, zábavné a co může vyústit v převratný výsledek. Má to být umělá inteligence v tom smyslu, jak ji chápou někteří autoři sci-fifilmů. Nějaká velká přelomová technologie.

* To zní hodně abstraktně. Jak to vypadá, když přijdete ráno do práce?

Ve Facebooku i v Googlu to je dost volné v tom, že jsem si cíle mohl určovat sám. V Googlu bylo jedním z cílů týmu zrychlovat neuronové sítě, ale měl jsem dost volnost dělat si tam cokoli, dokud jsem měl zajímavé výsledky. Ve Facebooku byly cíle týmu Facebook AI Research dost obecné ve smyslu "chceme převratnou umělou inteligenci". To byl velký cíl, který na začátku přilákal hodně lidí, kteří měli motivaci dělat něco "jiného" a "jinak", snažit se o TEN přelomový objev, který ovlivní budoucnost. Můj daily job je snažit se vymyslet, jak toho dosáhnout. Když mám konkrétní nápady, jdu je naimplementovat. Když zrovna nic konkrétního nemám, něco vymýšlím. Hodně času nám zaberou ale i mítinky, to je všude stejné. Lidé se shlukují podle zájmu do různých skupin.

* To ale nevypadá jako klasická práce od devíti do pěti.

Velký problém vědců je, že si nejsou jistí, jestli jdou správnou cestou. Rok něco vymýšlejí a zkoušejí, a výsledky pořád nikde. Když víte, že AI se za rok "nestihne", potřebujete sami sebe neustále ujišťovat, že vaše práce pořád dává smysl. Spousta lidí tak začne dělat na aplikovaných vedlejších projektech, i když nemusí. Nakonec ale ty vedlejší projekty mohou být právě ty nejznámější. Třeba můj word2vec, na kterém jsem pracoval v Googlu, byl takový vedlejšák, kde jsem ale mohl uplatnit své znalosti a zkušenosti docela jednoduše.

* Jak tedy vypadá váš běžný pracovní den v New Yorku?

Do práce jedu kousek metrem. V práci máme samozřejmě všechny ty slavné benefity jako jídlo zdarma apod. Takže přijdu, dám si pomalu oběd, protože se mi líp pracuje později. Líp se mi přemýšlí večer, protože tě lidé neruší a kolem tebe nikdo moc není. Počítače jsou taky přes noc méně vytížené. Ale jsou lidé, kteří chodí spát ještě později než já. Potom máme většinou nějaké mítinky, spoustu mailové a facebookové konverzace k vyřizování. Můžu pracovat i z domu, protože se na facebookové servery přihlásím i na dálku. Přijít fyzicky do práce je pro mě hlavně možnost promluvit si s kolegy osobně, být social.

* Jak bychom na Facebooku my jako jeho uživatelé mohli poznat vaši práci?

Asi nijak zjevně: hlavní vliv je ten, že se vám rychleji načtou přesnější výsledky vyhledávání, uvidíte méně spamu, strojový překlad je přesnější, ale to všechno je pomalá evoluce, kterou uživatelé ani příliš nepostřehnou. FAIR tým byl zajímavý právě v tom, že nebudeme čistě aplikovaný tým, na to měl Facebook vlastní machine learning oddělení. Naším prvotním cílem není ovlivňovat produkty Facebooku, ale přinést přelomový objev v rámci AI. Může to být cokoli - kolegové se snaží vymyslet třeba strojové vidění. Šéf FAIR Yann LeCun dělal asi 20 let na neuronových sítích, které umějí rozpoznávat obraz. Poté, co Google koupil startup z Toronta, začal obrovský boom, protože všichni najednou chtěli mít vlastní startup na strojové vidění, který pak prodají Googlu. (smích) No ale samozřejmě si všímáme toho, co se ve Facebooku děje, a občas máme dojem, že to umíme udělat lépe. Takže pracujeme i na vylepšení produktů Facebooku, i když to není náš hlavní cíl. Příkladem je třeba filtrování spamu nebo označování nevhodných zpráv na základě obsahu. Šli na to komplikovaněji, než bylo nutné, a nakonec jsme na to rozšířili můj word2vec, jen tady se to teď jmenuje fastText.

* Jak to funguje?

Jde o čtení a klasifikaci textu s modelem, který je výpočetně hodně efektivní. Hodně jednoduchá, ale zároveň praktická věc. Funguje to tak, že máte velký soubor textů a v něm si označíte třeba to, která zpráva je psaná anglicky a která je psaná německy nebo jestli jde o spam - uživatelé si to nadefinují sami. Pak můžete texty klasifikovat, třídit, spočítat reprezentaci textu. Je to obecný toolkit, který patří mezi top věci v užitečnosti, co lidé ve firmách doopravdy potřebují a používají. Momentálně to je jeden z nejúspěšnějších open source projektů Facebooku, co se strojového učení týče. Na GitHubu máme přes 13 tisíc hvězdiček, používají nás ve startupech i v jiných firmách.

* Takže váš toolkit je pro Facebook důležitý.

Nevím přesně, na co to přímo používají. Facebook má přes 20 tisíc zaměstnanců, tisíce inženýrů, mraky týmů - mnoho z nich používá fastText nebo vektorové reprezentace slov prakticky denně.

* Která firma je podle vás nejdál, co se týče AI v rozpoznávání řeči?

Říká se, že Google na tom teď bude nejlépe, protože má největší množství dat. Technologie mají všichni stejné.

* Nemrzí vás tedy, že jste odtamtud odešel?

Ani ne. Konkrétně rozpoznávání řeči pomocí strojů není můj životní sen ve smyslu, že bych se mu chtěl věnovat následujících 30 let. To mě tolik netáhne. Můj sen je opravdu dobrá obecná umělá inteligence.

* Máte představu, jak bude vypadat? Podle Walta Mossberga míříme všichni k palubnímu počítači ze Star Treku.

To říkal i Amit Singhal, bývalý šéf vyhledávání v Googlu. Mohlo by to tomu být blízko. Ve Star Treku to byl spíš znalostní počítač, který ti odpoví třeba na to, kolik klingonských lodí vidí před sebou. V našem světě by ten dotaz vypadal v praxi tak, že se zeptáte, jestli má vaše letadlo zpoždění, a nemusíte to hledat ve vyhledávači. Pro mě to je trochu jinak, trochu napůl filozofický rozdíl. Nechci vytvořit počítač, který má všemožné znalosti. Spíš chci počítač schopný učení, který dokáže znalosti přijímat efektivním způsobem. Problém se startrekovým počítačem je následující: v Googlu si řekli, že existují znalosti o světě, třeba že pes má čtyři nohy a hlavní město Francie je Paříž, kde teď žije 15 milionů lidí. Takových faktů existuje neskutečné množství, ale lidé se často ptají na to samé. Co je hlavní město dané země nebo kdo je premiérem. Sestaví takovou databázi, knowledge graph. Google do toho nainvestoval mraky peněz a kupoval firmy, které shromažďovaly databáze s miliony záznamů, kde jsou rozepsané entity a vztahy mezi nimi. Třeba jméno a město ve smyslu "Jan Novák žije v Praze", to byl záznam databáze. Není tajemstvím, že největším zdrojem byla Wikipedia. Když postavíte svůj program účinně, takových strukturovaných vztahů z Wikipedie vyextrahujete spoustu. Jenže tenhle přístup narazil.

* Proč?

Vědci měli miliony faktů, počítač věděl, jak se jmenuje hlavní město Tanzanie a kdo byl třetí prezident, ale pak se toho počítače zeptáte, kolik budete mít jablek, když máte teď tři a jedno sníte, a počítač to neví. Nemá to totiž v databázi. To není žádná umělá inteligence, jen soubor faktů, nic, co by zobecňovalo nebo se dokázalo učit. Tím, že se ptáte na počet jablek v určité situaci, už defi nujete něco nového, co se vztahuje na počet jablek. Když se Česká republika přejmenuje na Czechia a vy se počítače zeptáte na hlavní město, nebude to vědět, protože v databázi má záznam Česká republika. Někdo to musí ručně upravit a přepsat pravidlo, že Czechia je odteď synonymum pro Českou republiku. Ten počítač se neumí učit, neumí komunikovat. To, co chci vyvinout já, je počítač, který nemá znalosti, ale je schopný je přijmout a dávat do souvislostí. Něco jako člověk.

* Je nějaký sci-fifilm nebo umělecké dílo, které se nejvíc blíží vaší představě?

Sci-fije často moc bláznivé, nedokážu to k něčemu přirovnat. Problémy, které máme jako vědci, jsou ve filmech strašně zjednodušené a vůči AI jsou dost negativní.

* Jak se díky umělé inteligenci promění náš život za 10 let?

Myslím, že se to proměňuje už teď, změny nastávají postupně. Už tu máte telefon s Googlem, který vám na leccos odpoví. Nemyslím si, že budeme svědky nějakého obřího skoku a počítače budou dělat věci jinak, jen budou čím dál užitečnější. Před 20 lety jsme neměli internet, počítače byly mnohem víc limitované. Před 10 lety nebyly telefony s připojením k internetu. Teď je vše rychlejší, přístupnější, plynulejší. I služby. Vše je osobnější, konkrétnější, přesnější, nápomocnější.

* Dáte mi konkrétní příklad, jak se nějaká technologie za 10 let vylepší?

Vše, co máme teď, bude v budoucnu přesnější. Třeba před 10 lety bych vám řekl, že se v kvalitě jazyka posune překladač, což se nakonec stalo. Ale zase - je to spíš statistika, ne úplně umělá inteligence. Samozřejmě, interakce s počítači bude plynulejší a osobnější, ale jakým způsobem se toho dosáhne, je těžké předvídat.

* My v tomto časopise často řešíme, co je ta next big thing. Co je to podle vás?

Ta umělá inteligence! Čekáme jen na zásadní objevy, které doufám nastanou, ale jde o věci, které nejde předvídat. Je to jako sázet se před 150 lety o to, kdy se postaví první letadlo. Třeba to bude trvat 20 let, třeba to zabere celé století. To nikdy nevíte. Ve zprávách občas zachytím fantastické myšlenky ekonomů, jak umělá inteligence nahradí ty nebo ony práce. Myslím, že půjde hlavně o práci, kde člověk nemusí přemýšlet a rozhodovat se, to počítače budou schopné nahradit. Nečekám automatizaci všeho, jak se často píše, ale výroba některých výrobků může být efektivnější.

* Nečekáte, že práce bude kvůli robotům a AI ubývat skokově?

To je do velké míry nedorozumění. Je to stejný argument, jako používali lidé během průmyslové revoluce, že stroje berou práci. Před průmyslovou revolucí 90 procent lidí dělalo v zemědělství, dnes to je jedno procento. Co vlastně znamená, když stroje převezmou jejich práci? Že nebudou nic dělat a umřou hlady? Nebo že celá jejich populace zbohatne, protože práce bude "zadarmo" a bohatství se rozplyne v celé populaci, zatímco lidé budou mít víc času popíjet v kanclech kávičku a kecat o blbostech? Tu těžkou práci za ně udělají stroje a oni budou mít víc času a peněz na jiné věci. Jakmile se zautomatizují některé úkoly, umožní to lidem, aby dělali jinou práci, která bude svým způsobem lehčí. Jakmile společnost zbohatne natolik, že každý bude mít třeba přístup k základním potravinám a bydlení zdarma, může se transformovat do jiné společnosti, než máme dnes. Práce je určitě důležitá, aby lidé měli v životě smysl a nenudili se doma, ale když nastane to, o čem mluvím, budou si moci vybírat práci, která je mnohem zábavnější.

* O jakém časovém horizontu se bavíme?

To může být klidně 10 nebo 15 let. To je realizovatelné.

* Pojďme se přesunout do Česka a naznačit nějaké porovnání. Kdybyste nás zařadil do světového kontextu, jsme v tomhle ohledu mistři?

Ano, skupina Speech@FIT pro rozpoznávání řeči na VUT v Brně se po mnoho let umisťuje na předních pozicích v mezinárodních soutěžích. Spousta skvělých výsledků byla založena na nyní tak populárních neuronových sítích, ať už jde o práci Petra Schwarze nebo Františka Grézla.

* Prý uvažujete o návratu do Česka. Proč byste odcházel z Facebooku?

Ve Facebooku jsem začínal s tím, že cílem bude vytvořit umělou inteligenci, s níž můžete přirozeně komunikovat. Potom jsme ale nabrali spoustu lidí, kteří se zaměřují na různé archaické věci. Pak se může stát, že sedíte na mítinku, kde se probírají 20 let staré věci, které nikoho už moc nezajímají, a to vás nemotivuje, no.

* Takže co máte v plánu?

Ještě nevím, mám několik možností, musím to promyslet. Nemusí to být nutně nějaká velká firma. Tady v Česku znám Marka Rosu a jeho GoodAI, kde mají zase úplně jiný přístup než ve velkých tech firmách. Uvidíme, kam to dotáhnou, ale každopádně jim fandím. Taky uvažuju nad vlastním projektem, ale nevím, jestli bych to nazval startupem. Spíš by to byla výzkumná skupina, která má výhodu, že vedete nadané studenty a zároveň si zachováváte jistou nezávislost, děláte si, co chcete. Univerzity jsou ale zase limitované tím, že jsou závislé na grantových penězích.

* Proč jste vědec, a ne startupista?

Oboje má své pro a proti. Když jsem byl mladší, vlastní firmu jsem chtěl. Jenže firma musí být životaschopná a vydělávat peníze. V tom případě bych se ale nezaměřoval na obecnou umělou inteligenci a místo toho bych vzal věci, které už fungují, a někde bych je aplikoval tak, aby mi to generovalo okamžitý zisk - což si myslím, že se dá, ale nebavilo by mě to a ani to nepotřebuju. Moje články jsou hodně citované, lidé moje nápady používají v praxi už teď, takže se můžu soustřeďovat na "vyšší cíl".

* Jste zajištěný natolik, abyste se tomu mohl věnovat?

V Silicon Valley totiž platí společnosti svoje zaměstnance hodně v akciích. Když se přidáte ve správnou dobu a připočítáte bonusy plus pracujete na AI, kterou chce nastartovat spousta firem a přetahují se o lidi, jde o nadprůměrný příjem i ohledně Ameriky.

* V jakých relacích se tedy pohybujete, 300 tisíc dolarů ročně?

O hodně víc. (smích) Jinak poprvé akcie dostanete po roce, já přišel do Facebooku v roce 2014. A tahle práce má i další výhody: dobré jídlo, skvělé kanceláře a také možnost hodně cestovat.

* Přitom v Česku se o vás prakticky neví. Proč?

Tak třeba word2vec byl tak úspěšný, protože to mělo skvělé PR od Googlu. O mojí práci z Brna se moc neví. Byla to první open source machine learning věc, kterou Google vydal, vlastně malý projekt na začátek. Všem se to strašně líbilo, dokonce to bylo v celostátních news v Americe jako blesková zpráva, "Word2vec released". V Googlu jsme se tomu smáli, protože si tam k tomu pozvali Kurzweila a ten vůbec nevěděl, o co vlastně jde, a jen začal mluvit o tom, jak se ty počítače zblázní.

* Připadá nám, že na to, jak umělá inteligence prostupuje naše životy, se o lidech, jako jste vy, moc neví.

Záleží na tom, v jakých kruzích. Kurzweil je mediální hvězda, moje práce je přitom v současné době vědci mnohem citovanější než jeho. Tam mě lidé dobře znají. Ve vědeckých kruzích je Kurzweil spíš taková směšná figurka, PR člověk, který mluví o sci-fitématech. Často mluví o věcech, kterým moc nerozumí, ale o tom se vědělo i v Googlu, kde momentálně pracuje. Normální veřejnost se zkrátka dozví ze zpráv spíš to, co říkal Kurzweil nebo Elon Musk než já. Různé poplašné zprávy o tom, jak nás zničí umělá inteligence, se navíc lavinovitě šíří kvůli Facebooku nebo Twitteru - o to já neusiluju.

Cíle v Google Brainu byly dost aplikované a samotného výzkumu bylo docela málo. Jinými slovy, hodně inženýrů a málo vědců. To mi nepřišlo moc zajímavé. Počítač ví, jaké je hlavní město Tanzanie, ale když se ho zeptáte, kolik budete mít jablek, když máte teď tři a jedno sníte, tak počítač neví. Problémy, které máme jako vědci, jsou ve sci-fifilmech strašně zjednodušené a vůči AI jsou dost negativní.

Vložila: Kozubová Hana, Mgr.

Poslední změna: 2019-08-13 12:19:51

Zpět na zprávy z FIT