Detail publikace
Bayesian phonotactic language model for Acoustic Unit Discovery
Burget Lukáš, doc. Ing., Ph.D. (UPGM FIT VUT)
Černocký Jan, prof. Dr. Ing. (UPGM FIT VUT)
Kesiraju Santosh (IIIT)
Nedávné práce na Acoustic Unit Discovery (AUD) vedly k vývoji neparametrického Bayesovského modelu telefonní smyčky, kde se předpokládá, že před pravděpodobností telefonních jednotek se bude odebírat vzorek z Dirichletova procesu (DP). V této práci navrhujeme vylepšit tento model začleněním Hierarchického Pitman-Yorova bigramového jazykového modelu na přechody jednotek. Tento nový model využívá fonotaktické kontextové informace, ale předpokládá pevný počet jednotek. Abychom toto omezení napravili, nejprve vyškolíme model DP phoneloop pro odvození počtu jednotek, pak se bigramová telefonní smyčka inicializuje z telefonní smyčky DP a trénuje se až do sbližování jejích parametrů. Výsledky ukazují absolutní zlepšení o 1-2% v metrice Normalized Mutual Information (NMI). Dále ukazujeme, že v kombinaci s funkcí Multilingual Bottleneck (MBN) model přináší stejný nebo vyšší NMI jako anglický telefonní rozpoznávač trénovaný na TIMIT.
@INPROCEEDINGS{FITPUB11472, author = "Francois Antoine Lucas Yang Ondel and Luk\'{a}\v{s} Burget and Jan \v{C}ernock\'{y} and Santosh Kesiraju", title = "Bayesian phonotactic language model for Acoustic Unit Discovery", pages = "5750--5754", booktitle = "Proceedings of ICASSP 2017", year = 2017, location = "New Orleans, US", publisher = "IEEE Signal Processing Society", ISBN = "978-1-5090-4117-6", doi = "10.1109/ICASSP.2017.7953258", language = "english", url = "https://www.fit.vut.cz/research/publication/11472" }