Fakulta informačních technologií VUT v Brně

Detail publikace

Unsupervised Language Model Adaptation for Speech Recognition with no Extra Resources

BENEŠ Karel, IRIE Kazuki, BECK Eugen, SCHLÜTER Ralf a NEY Hermann. Unsupervised Language Model Adaptation for Speech Recognition with no Extra Resources. In: Proceedings of DAGA 2019. Rostock: Deutsche Gesellschaft für Akustik (DEGA), DEGA Head office, 2019, s. 954-957. ISBN 978-3-939296-14-0. Dostupné z: https://www.dega-akustik.de/publikationen/online-proceedings/
Název česky
Adaptace jazykového modelu pro rozpoznávání řeči bez učitele bez přídavných zdrojů
Typ
článek ve sborníku konference
Jazyk
angličtina
Autoři
Beneš Karel, Ing. (UPGM FIT VUT)
Irie Kazuki (RWTH)
Beck Eugen (RWTH)
Schlüter Ralf, Dr., AD (RWTH)
Ney Hermann (RWTH)
URL
Abstrakt
Klasicky jsou modely automatického rozpoznávání řeči (ASR) rozloženy na akustické modely a jazykové modely (LM). LM obvykle využívají lingvistickou strukturu na čistě textové úrovni a obvykle silně přispívají k výkonu systémů ASR. LM jsou odhadovány na velké množství textových dat pokrývajících cílovou doménu. Většina promluv se však týká konkrétnějších témat, např. při utužování použité slovní zásoby. Proto je žádoucí, aby byl LM přizpůsoben tématu výpovědi. Předchozí práce to dosahuje procházením dodatečných dat z webu nebo použitím značného množství předchozích řečových dat k trénování tématicky specifického LM. Navrhujeme způsob, jak přímo upravit LM pomocí cílové promluvy, která má být rozpoznána. Odpovídající přizpůsobení musí být provedeno bez dozoru nebo automaticky pod dohledem na základě hlasového vstupu. Pro robustní řešení odpovídajících chyb používáme kódování témat z nedávno navrženého podprostorového multinomického modelu. Tento model rovněž vylučuje potřebu explicitního označování témat během výcviku nebo uznání, čímž se navrhovaná metoda přímo používá. Předvedeme výkon metody na korpusu Librispeech, který se skládá ze čtených ction knih, a diskutujeme jeho chování kvalitativně.
Rok
2019
Strany
954-957
Sborník
Proceedings of DAGA 2019
Konference
DAGA 2019 - 45. Jahrestagung für Akustik, 18. - 21. März 2019, Rostock, DE
ISBN
978-3-939296-14-0
Vydavatel
Deutsche Gesellschaft für Akustik (DEGA), DEGA Head office
Místo
Rostock, DE
BibTeX
@INPROCEEDINGS{FITPUB12102,
   author = "Karel Bene\v{s} and Kazuki Irie and Eugen Beck and Ralf Schl\"{u}ter and Hermann Ney",
   title = "Unsupervised Language Model Adaptation for Speech Recognition with no Extra Resources",
   pages = "954--957",
   booktitle = "Proceedings of DAGA 2019",
   year = 2019,
   location = "Rostock, DE",
   publisher = "DEGA Head office, Deutsche Gesellschaft f\"{u}r Akustik",
   ISBN = "978-3-939296-14-0",
   language = "english",
   url = "https://www.fit.vut.cz/research/publication/12102"
}
Nahoru