Detail publikace
Boosting of Contextual Information in ASR for Air-Traffic Call-Sign Recognition
Veselý Karel, Ing., Ph.D. (UPGM FIT VUT)
Blatt Alexander (UDS)
Zuluaga-Gomez Juan (IDIAP)
Szőke Igor, Ing., Ph.D. (UPGM FIT VUT)
Černocký Jan, prof. Dr. Ing. (UPGM FIT VUT)
Klakow Dietrich (UDS)
Motlíček Petr, Ing., Ph.D. (IDIAP)
Kontextová adaptace ASR může být pro multiaccent a často hlučný projev řízení letového provozu (ATC) velmi přínosná. Zaměřujeme se na rozpoznávání volacích značek, které lze použít ke sledování konverzací provozovatelů ATC s jednotlivými letouny. Vyvinuly jsme dvoustupňovou strategii posilování, sestávající z HCLG boosting a Lattice boosting. Obě jsou implementovány jako WFST složení a kontextové informace jsou pro každou specifickou promluvu. Při posilování HCLG poskytujeme bodové slevy jednotlivým slovům, zatímco v Lattice zvyšuje skóre slevy jsou dány sekvencím slov. Kontextová data mají původ v dohledové databázi OpenSky Network. Z ní získáváme seznamy volacích značek, u kterých je větší pravděpodobnost, že se objeví v nejlepší hypotéze ASR. To také zlepšuje přesnost modulu NLU, který rozpozná volací značky od nejlepších hypotéz z ASR. V rámci projektu ATCO2 jsme shromáždili liveatc testovací sadu2. Posílení volacích značek vede k absolutnímu zlepšení WER o 4,7 %. a 27,1% absolutní nárůst rozpoznávání volacích značek Přesnost (CSA). Náš nejlepší výsledek 82,9 % CSA je docela dost dobrý, vzhledem k tomu, že data jsou zašuměná, a WER 28,4 % je relativně vysoký. Věříme, že je stále co zlepšovat.
@INPROCEEDINGS{FITPUB12610, author = "Martin Kocour and Karel Vesel\'{y} and Alexander Blatt and Juan Zuluaga-Gomez and Igor Sz\H{o}ke and Jan \v{C}ernock\'{y} and Dietrich Klakow and Petr Motl\'{i}\v{c}ek", title = "Boosting of Contextual Information in ASR for Air-Traffic Call-Sign Recognition", pages = "3301--3305", booktitle = "Proceedings Interspeech 2021", journal = "Proceedings of Interspeech - on-line", volume = 2021, number = 8, year = 2021, location = "Brno, CZ", publisher = "International Speech Communication Association", ISSN = "1990-9772", doi = "10.21437/Interspeech.2021-1619", language = "english", url = "https://www.fit.vut.cz/research/publication/12610" }