Semi-Supervised Training of Deep Neural Networks for Speech Recognition

Název česky

"Semi-supervised" trénování hlubokých neuronových sítí pro rozpoznávání řeči

Jazyk práce

anglický

Abstrakt

V této dizertační práci nejprve prezentujeme teorii trénování neuronových sítí pro rozpoznávání řeči společně s implementací trénovacího receptu 'nnet1', který je součástí toolkitu s otevřeným kódem Kaldi. Recept se skládá z předtrénování bez učitele pomocí algoritmu RBM, trénování klasifikátoru z řečových rámců s kriteriální funkcí Cross-entropy a ze sekvenčního trénování po větách s kriteriální funkcí sMBR. Následuje hlavní téma práce, kterým je semi-supervised trénování se smíšenými daty s přepisem i bez přepisu. Inspirováni konferenčními články a úvodními experimenty jsme se zaměřili na několik otázek: Nejprvena to, zda je lepší konfidence (t.j. důvěryhodnosti automaticky získaných anotací) počítat po větách, po slovech nebo po řečových rámcích. Dále na to, zda by konfidence měly býtpoužity pro výběr dat nebo váhování dat - oba přístupy jsou kompatibilní s trénováním pomocí metody stochastického nejstrmějšího sestupu, kde jsou gradienty řečových rámcůnásobeny vahou. Dále jsme se zabývali vylepšováním semi-supervised trénování pomocí kalibrace kofidencí a přístupy, jak model dále vylepšit pomocí dat se správným přepisem.Nakonec jsme navrhli jednoduchý recept, pro který není nutné časově náročné ladění hyper-parametrů trénování, a který je prakticky využitelný pro různé datové sady. Experimentyprobíhaly na několika sadách řečových dat: pro rozpoznávač vietnamštiny s 10 přepsaným hodinami (Babel) se chybovost snížila o 2.5%, pro angličtinu se 14 přepsanými hodinami(Switchboard) se chybovost snížila o 3.2%. Zjistili jsme, že je poměrně těžké dále vylepšit přesnost systému pomocí úprav konfidencí, zároveň jsme ale přesvědčení, že naše závěry majíznačnou praktickou hodnotu: data bez přepisu je jednoduché nasbírat a naše navrhované řešení přináší dobrá zlepšení úspěšnosti a není těžké je replikovat.

Klíčová slova

Hluboké neuronové sítě, rozpoznávání řeči, semi-supervised trénování se smíšenými daty spřepisem i bez přepisu, Kaldi, nnet1

Ústav

Ústav počítačové grafiky a multimédií FIT VUT v Brně

Studijní program

Výpočetní technika a informatika, obor Výpočetní technika a informatika

Soubory

Stav

obhájeno

Obhajoba

3. dubna 2018

Citace

VESELÝ, Karel. Semi-Supervised Training of Deep Neural Networks for Speech Recognition. Brno, 2017. Disertační práce. Vysoké učení technické v Brně, Fakulta informačních technologií. 2018-04-03. Vedoucí práce Burget Lukáš. Dostupné z: https://www.fit.vut.cz/study/phd-thesis/568/

BibTeX

@phdthesis{FITPT568,
    author = "Karel Vesel\'{y}",
    type = "Diserta\v{c}n\'{i} pr\'{a}ce",
    title = "Semi-Supervised Training of Deep Neural Networks for Speech Recognition",
    school = "Vysok\'{e} u\v{c}en\'{i} technick\'{e} v Brn\v{e}, Fakulta informa\v{c}n\'{i}ch technologi\'{i}",
    year = 2018,
    location = "Brno, CZ",
    language = "english",
    url = "https://www.fit.vut.cz/study/phd-thesis/568/"
}