Detail publikace
Automatic Speech Recognition Benchmark for Air-Traffic Communications
Motlíček Petr, Ing., Ph.D. (IDIAP)
Zhan Qingran (IDIAP)
Veselý Karel, Ing., Ph.D. (UPGM FIT VUT)
Braun Rudolf (IDIAP)
Pokroky v automatickém rozpoznávání řeči (ASR) za poslední desetiletí otevřely nové oblasti automatizace založené na řeči, například v prostředích řízení letového provozu (ATC). V současné době je hlasová komunikace a komunikace datovými spoji jediným způsobem kontaktu mezi piloty a řídícími letového provozu (ATCo), přičemž první z nich je nejpoužívanější a druhý je nemluvená metoda povinná pro oceánské zprávy a pro některé omezená domácí problémy. Systémy ASR v prostředích ATCo zdědily rostoucí složitost díky akcentům od neanglických mluvčích, hluku v kokpitu, předsudkům závislým na reproduktorech a malým ATC databázím pro školení. Tímto představujeme CleanSky EC-H2020 ATCO2, projekt, jehož cílem je vyvinout platformu založenou na ASR pro sběr, organizaci a automatické předběžné zpracování dat řeči ATCo ze vzdušného prostoru. Tento dokument přináší průzkumné měřítko několika nejmodernějších modelů ASR trénovaných na více než 170 hodinách řečových dat ATCo. Ukazujeme, že mezery mezi přízvukem způsobené akcenty reproduktorů jsou minimalizovány kvůli množství dat, což činí systém proveditelným pro prostředí ATC. Vyvinutý systém ASR dosahuje průměrné chybovosti slov (WER) 7,75% ve čtyřech databázích. Dalšího 35% relativního zlepšení WER je dosaženo na jedné testovací sadě při tréninku systému TDNNF s kódováním bajtových párů.
@INPROCEEDINGS{FITPUB12404, author = "Juan Zuluaga-Gomez and Petr Motl\'{i}\v{c}ek and Qingran Zhan and Karel Vesel\'{y} and Rudolf Braun", title = "Automatic Speech Recognition Benchmark for Air-Traffic Communications", pages = "2297--2301", booktitle = "Proceedings of Interspeech 2020", journal = "Proceedings of Interspeech - on-line", volume = 2020, number = 10, year = 2020, location = "Shanghai, CN", publisher = "International Speech Communication Association", ISSN = "1990-9772", doi = "10.21437/Interspeech.2020-2173", language = "english", url = "https://www.fit.vut.cz/research/publication/12404" }