Detail publikace
Non-Parametric Bayesian Subspace Models for Acoustic Unit Discovery
Yusuf Bolaji (UPGM FIT VUT)
Burget Lukáš, doc. Ing., Ph.D. (UPGM FIT VUT)
Saraçlar Murat (UBOGAZ)
Tato práce zkoumá podprostorové neparametrické modely pro úkol naučit sadu akustických jednotek z neoznačených řečových nahrávek. Omezujeme základní míru Dirichletova- Process mixture s fonetickým podprostorem odhadem z jiných zdrojových jazyků za účelem vybudování educated prior, čímž si vynutíme naučení akustických jednotek, aby připomínaly telefony známých zdrojových jazyků. Navrhují se dva typy modelů: (i) podprostor HMM (SHMM), který předpokládá, že fonetický podprostor je stejný pro každý jazyk, (ii) Hierarchický podprostor HMM (H-SHMM) což uvolňuje tento předpoklad a umožňuje mít jazykově specifický podprostor odhadovaný na neoznačených cílových datech. Tyto modely jsou aplikovány na 3 jazyky: angličtina, jorubština a mboshi a jsou porovnávány s různými konkurenčními akustickými jednotkami základní linie objevů. Experimentální výsledky ukazují, že oba podprostor modely předčí ostatní systémy z hlediska kvality shlukování a přesnost segmentace. Navíc pozorujeme, že H-SHMM poskytuje výsledky lepší než SHMM podporující myšlenku, že jazykově specifické priory jsou vhodnější než jazykově agnostické priory pro objev akustické jednotky.
@ARTICLE{FITPUB12791, author = "Francois Antoine Lucas Yang Ondel and Bolaji Yusuf and Luk\'{a}\v{s} Burget and Murat Sara\c{c}lar", title = "Non-Parametric Bayesian Subspace Models for Acoustic Unit Discovery", pages = "1902--1917", journal = "IEEE/ACM TRANSACTIONS ON AUDIO, SPEECH AND LANGUAGE PROCESSING", volume = 30, number = 5, year = 2022, ISSN = "2329-9290", doi = "10.1109/TASLP.2022.3171975", language = "english", url = "https://www.fit.vut.cz/research/publication/12791" }