Detail publikace
BCN2BRNO: ASR System Fusion for Albayzin 2020 Speech to Text Challenge
Cámbara Guillermo (UPF)
Luque Jordi (Telefónica)
Bonet David (Telefónica)
Farrús Mireia (UoB)
Karafiát Martin, Ing., Ph.D. (UPGM FIT VUT)
Veselý Karel, Ing., Ph.D. (UPGM FIT VUT)
Černocký Jan, prof. Dr. Ing. (UPGM FIT VUT)
fúze, end-to-end model, hybridní model, semisupervised, automatické rozpoznávání řeči, konvoluční neuronová síť.
Tento článek popisuje společné úsilí VUT a Telefónica Research na vývoji systémů automatického rozpoznávání řeči pro výzvu Albayzin 2020. Porovnáváme přístupy založené buď na hybridních nebo end-to-end modelech. V hybridním modelování zkoumáme dopad vrstvy SpecAugment na výkon. Pro modelování typu end-to-end jsme použili konvoluční neuronovou síť s uzavřenými lineárními jednotkami (GLU). Výkon takového modelu je také hodnocen pomocí dalšího n-gramového jazykového modelu pro zlepšení míry chyb slov. Dále kontrolujeme metody separace zdrojů, abychom extrahovali řeč z hlučného prostředí (tj. Televizních pořadů). Přesněji hodnotíme účinek použití hudebního oddělovače na neurální bázi s názvem Demucs. Fúze našich nejlepších systémů dosáhla 23,33% WER v oficiálních hodnoceních Albayzin 2020. Kromě technik používaných v našich konečných předložených systémech také popisujeme naše úsilí při získávání vysoce kvalitních přepisů pro školení.
@INPROCEEDINGS{FITPUB12577, author = "Martin Kocour and Guillermo C\'{a}mbara and Jordi Luque and David Bonet and Mireia Farr\'{u}s and Martin Karafi\'{a}t and Karel Vesel\'{y} and Jan \v{C}ernock\'{y}", title = "BCN2BRNO: ASR System Fusion for Albayzin 2020 Speech to Text Challenge", pages = "113--117", booktitle = "Proceedings of IberSPEECH 2021", year = 2021, location = "Vallaloid, ES", publisher = "International Speech Communication Association", doi = "10.21437/IberSPEECH.2021-24", language = "english", url = "https://www.fit.vut.cz/research/publication/12577" }