Detail publikace

Training Data Augmentation and Data Selection

KARAFIÁT Martin, VESELÝ Karel, ŽMOLÍKOVÁ Kateřina, DELCROIX Marc, WATANABE Shinji, BURGET Lukáš, ČERNOCKÝ Jan a SZŐKE Igor. Training Data Augmentation and Data Selection. New Era for Robust Speech Recognition: Exploiting Deep Learning. Computer Science, Artificial Intelligence. Heidelberg: Springer International Publishing, 2017, s. 245-260. ISBN 978-3-319-64679-4. Dostupné z: http://www.springer.com/gp/book/9783319646794#aboutBook
Název česky
Množení a selekce trénovacích dat
Typ
kapitola v knize
Jazyk
angličtina
Autoři
Karafiát Martin, Ing., Ph.D. (UPGM FIT VUT)
Veselý Karel, Ing., Ph.D. (UPGM FIT VUT)
Žmolíková Kateřina, Ing. (FIT VUT)
Delcroix Marc (NTT)
Watanabe Shinji, Dr. (JHU)
Burget Lukáš, doc. Ing., Ph.D. (UPGM FIT VUT)
Černocký Jan, prof. Dr. Ing. (UPGM FIT VUT)
Szőke Igor, Ing., Ph.D. (UPGM FIT VUT)
URL
Abstrakt

Zvětšení dat je jednoduchá a účinná technika ke zlepšení odolnosti rozpoznávače řeči při nasazení v neodpovídajících podmínkách tréninkového testu. Naše práce, která proběhla během workshopu JSALT 2015, byla zaměřena na vývoj: (1) Strategií rozšiřování dat včetně šumu a dozvuku. Byly testovány v kombinaci se dvěma přístupy ke zvýšení signálu: pečlivě navrženou WPE dereverberací a naučeným denoisním autoencoderem založeným na DNN. (2) Navrhnutí nové techniky pro extrakci informativního vektoru ze sekvenční souhrnné neurální sítě (SSNN). Podobně jako i-vektorový extraktor vytváří SSNN souhrnný vektor", představující akustické shrnutí promluvy. Takový vektor lze použít přímo pro adaptaci, ale hlavní použití odpovídající cíli této kapitoly je pro výběr rozšířených tréninkových dat. Všechny techniky byly testovány na tréninkovém setu AMI a testovacím setu CHiME3.

Anotace

Tato kniha pokrývá nejmodernější metody založené na hlubokých neuronových sítích pro odolnost proti šumu v aplikacích pro rozpoznávání vzdálené řeči. Poskytuje postřehy a podrobné popisy některých nových konceptů a klíčových technologií v oboru, včetně nových architektur pro vylepšení řeči, polí mikrofonů, robustních funkcí, přizpůsobení akustického modelu, rozšiřování tréninkových dat a tréninkových kritérií. Přispívané kapitoly také obsahují popis aplikací v reálném světě, srovnávací nástroje a datové sady široce používané v této oblasti. Kapitola 10 pojednává o rozšiřování tréninkových dat a výběru dat.

Tato kniha je určena pro výzkumné pracovníky a odborníky pracující v oblasti zpracování a rozpoznávání řeči, kteří se zajímají o nejnovější techniky hlubokého učení pro odolnost proti hluku. Kniha bude také zajímavá pro postgraduální studenty v oboru elektrotechniky nebo informatiky, pro které bude užitečným průvodcem v této oblasti výzkumu.

Rok
2017
Strany
245-260
Kniha
New Era for Robust Speech Recognition: Exploiting Deep Learning
Řada
Computer Science, Artificial Intelligence
ISBN
978-3-319-64679-4
Vydavatel
Springer International Publishing
Místo
Heidelberg, DE
DOI
BibTeX
@INBOOK{FITPUB11588,
   author = "Martin Karafi\'{a}t and Karel Vesel\'{y} and Kate\v{r}ina \v{Z}mol\'{i}kov\'{a} and Marc Delcroix and Shinji Watanabe and Luk\'{a}\v{s} Burget and Jan \v{C}ernock\'{y} and Igor Sz\H{o}ke",
   title = "Training Data Augmentation and Data Selection",
   pages = "245--260",
   booktitle = "New Era for Robust Speech Recognition: Exploiting Deep Learning",
   series = "Computer Science, Artificial Intelligence",
   year = 2017,
   location = "Heidelberg, DE",
   publisher = "Springer International Publishing",
   ISBN = "978-3-319-64679-4",
   doi = "10.1007/978-3-319-64680-0\_10",
   language = "english",
   url = "https://www.fit.vut.cz/research/publication/11588"
}
Nahoru