Detail publikace

BCN2BRNO: ASR System Fusion for Albayzin 2022 Speech to Text Challenge

KOCOUR Martin, UMESH Jahnavi, KARAFIÁT Martin, ŠVEC Ján, LOPEZ Fernando, BENEŠ Karel, DIEZ Sánchez Mireia, SZŐKE Igor, LUQUE Jordi, VESELÝ Karel, BURGET Lukáš a ČERNOCKÝ Jan. BCN2BRNO: ASR System Fusion for Albayzin 2022 Speech to Text Challenge. In: Proceedings of IberSpeech 2022. Granada: International Speech Communication Association, 2022, s. 276-280. Dostupné z: https://www.isca-speech.org/archive/pdfs/iberspeech_2022/kocour22_iberspeech.pdf
Název česky
BCN2BRNO: Fúze ASR systémů pro Albayzin 2022 Speech to Text Challenge
Typ
článek ve sborníku konference
Jazyk
angličtina
Autoři
Kocour Martin, Ing. (UPGM FIT VUT)
Umesh Jahnavi (FIT VUT)
Karafiát Martin, Ing., Ph.D. (UPGM FIT VUT)
Švec Ján, Ing. (UPGM FIT VUT)
Lopez Fernando (Telefónica)
Beneš Karel, Ing. (UPGM FIT VUT)
Diez Sánchez Mireia, M.Sc., Ph.D. (UPGM FIT VUT)
Szőke Igor, Ing., Ph.D. (UPGM FIT VUT)
Luque Jordi (Telefónica)
Veselý Karel, Ing., Ph.D. (UPGM FIT VUT)
Burget Lukáš, doc. Ing., Ph.D. (UPGM FIT VUT)
Černocký Jan, prof. Dr. Ing. (UPGM FIT VUT)
URL
Abstrakt

Článek popisuje výzkum vývoje systémů automatického rozpoznávání řeči (ASR) pro soutěž Albayzin 2022. Byly natrénovány a vyhodnocovány jak hybridní systémy, tak ty založené na end-to-end modelech. Dále bylo zkoumáno využití před-trénovaných modelů a jejich dopad na výkon ASR (na rozdíl od trénovaní pouze z cílových dat). Kromě toho byl aplikován veřejně dostupný model Whisper, přičemž jeho výstup byl zpracováván tak, aby odpovídal požadovanému formátu přepisu. Kromě ladění modelových architektur a celkových trénovacích schémat byla zlepšována robustnost našich modelů tím, že byla rozšířená trénovací data o šumy extrahované z cílové domény. Dále byl využit externím LM nad N-best hypotézami z jednotlivých ASR systémů. Všechny tyto snahy vedly k výraznému snížení WER. Náš nejlepší systém a fúze vybraných systémů dosáhly 16,3% a 13,7% WER na testovacích datech RTVE2020, tedy oficiálních datech z předchozí Albayzin soutěže.

Rok
2022
Strany
276-280
Sborník
Proceedings of IberSpeech 2022
Konference
IberSPEECH 2022 Conference, Granada, ES
Vydavatel
International Speech Communication Association
Místo
Granada, ES
DOI
BibTeX
@INPROCEEDINGS{FITPUB12859,
   author = "Martin Kocour and Jahnavi Umesh and Martin Karafi\'{a}t and J\'{a}n \v{S}vec and Fernando Lopez and Karel Bene\v{s} and Mireia S\'{a}nchez Diez and Igor Sz\H{o}ke and Jordi Luque and Karel Vesel\'{y} and Luk\'{a}\v{s} Burget and Jan \v{C}ernock\'{y}",
   title = "BCN2BRNO: ASR System Fusion for Albayzin 2022 Speech to Text Challenge",
   pages = "276--280",
   booktitle = "Proceedings of IberSpeech 2022",
   year = 2022,
   location = "Granada, ES",
   publisher = "International Speech Communication Association",
   doi = "10.21437/IberSPEECH.2022-56",
   language = "english",
   url = "https://www.fit.vut.cz/research/publication/12859"
}
Nahoru