Detail publikace

BCN2BRNO: ASR System Fusion for Albayzin 2020 Speech to Text Challenge

KOCOUR Martin, CÁMBARA Guillermo, LUQUE Jordi, BONET David, FARRÚS Mireia, KARAFIÁT Martin, VESELÝ Karel a ČERNOCKÝ Jan. BCN2BRNO: ASR System Fusion for Albayzin 2020 Speech to Text Challenge. In: Proceedings of IberSPEECH 2021. Vallaloid: International Speech Communication Association, 2021, s. 113-117. Dostupné z: https://www.isca-speech.org/archive/iberspeech_2021/kocour21_iberspeech.html
Název česky
BCN2BRNO: Fúze ASR systémů pro Albayzin 2020 Speech to Text Challenge
Typ
článek ve sborníku konference
Jazyk
angličtina
Autoři
Kocour Martin, Ing. (UPGM FIT VUT)
Cámbara Guillermo (UPF)
Luque Jordi (Telefónica)
Bonet David (Telefónica)
Farrús Mireia (UoB)
Karafiát Martin, Ing., Ph.D. (UPGM FIT VUT)
Veselý Karel, Ing., Ph.D. (UPGM FIT VUT)
Černocký Jan, prof. Dr. Ing. (UPGM FIT VUT)
URL
Klíčová slova

fúze, end-to-end model, hybridní model, semisupervised, automatické rozpoznávání řeči, konvoluční neuronová síť.

Abstrakt

Tento článek popisuje společné úsilí VUT a Telefónica Research na vývoji systémů automatického rozpoznávání řeči pro výzvu Albayzin 2020. Porovnáváme přístupy založené buď na hybridních nebo end-to-end modelech. V hybridním modelování zkoumáme dopad vrstvy SpecAugment na výkon. Pro modelování typu end-to-end jsme použili konvoluční neuronovou síť s uzavřenými lineárními jednotkami (GLU). Výkon takového modelu je také hodnocen pomocí dalšího n-gramového jazykového modelu pro zlepšení míry chyb slov. Dále kontrolujeme metody separace zdrojů, abychom extrahovali řeč z hlučného prostředí (tj. Televizních pořadů). Přesněji hodnotíme účinek použití hudebního oddělovače na neurální bázi s názvem Demucs. Fúze našich nejlepších systémů dosáhla 23,33% WER v oficiálních hodnoceních Albayzin 2020. Kromě technik používaných v našich konečných předložených systémech také popisujeme naše úsilí při získávání vysoce kvalitních přepisů pro školení.

Rok
2021
Strany
113-117
Sborník
Proceedings of IberSPEECH 2021
Konference
IberSPEECH 2021 Conference, Valladolid, ES
Vydavatel
International Speech Communication Association
Místo
Vallaloid, ES
DOI
BibTeX
@INPROCEEDINGS{FITPUB12577,
   author = "Martin Kocour and Guillermo C\'{a}mbara and Jordi Luque and David Bonet and Mireia Farr\'{u}s and Martin Karafi\'{a}t and Karel Vesel\'{y} and Jan \v{C}ernock\'{y}",
   title = "BCN2BRNO: ASR System Fusion for Albayzin 2020 Speech to Text Challenge",
   pages = "113--117",
   booktitle = "Proceedings of IberSPEECH 2021",
   year = 2021,
   location = "Vallaloid, ES",
   publisher = "International Speech Communication Association",
   doi = "10.21437/IberSPEECH.2021-24",
   language = "english",
   url = "https://www.fit.vut.cz/research/publication/12577"
}
Nahoru