Detail publikace

Automatic Speech Recognition Benchmark for Air-Traffic Communications

ZULUAGA-GOMEZ Juan, MOTLÍČEK Petr, ZHAN Qingran, VESELÝ Karel a BRAUN Rudolf. Automatic Speech Recognition Benchmark for Air-Traffic Communications. In: Proceedings of Interspeech 2020. Shanghai: International Speech Communication Association, 2020, s. 2297-2301. ISSN 1990-9772. Dostupné z: https://isca-speech.org/archive/Interspeech_2020/pdfs/2173.pdf
Název česky
Srovnávací test automatického rozpoznávání řeči pro hlasovou komunikací v leteckém provozu
Typ
článek ve sborníku konference
Jazyk
angličtina
Autoři
Zuluaga-Gomez Juan (IDIAP)
Motlíček Petr, Ing., Ph.D. (IDIAP)
Zhan Qingran (IDIAP)
Veselý Karel, Ing., Ph.D. (UPGM FIT VUT)
Braun Rudolf (IDIAP)
URL
Abstrakt

Pokroky v automatickém rozpoznávání řeči (ASR) za poslední desetiletí otevřely nové oblasti automatizace založené na řeči, například v prostředích řízení letového provozu (ATC). V současné době je hlasová komunikace a komunikace datovými spoji jediným způsobem kontaktu mezi piloty a řídícími letového provozu (ATCo), přičemž první z nich je nejpoužívanější a druhý je nemluvená metoda povinná pro oceánské zprávy a pro některé omezená domácí problémy. Systémy ASR v prostředích ATCo zdědily rostoucí složitost díky akcentům od neanglických mluvčích, hluku v kokpitu, předsudkům závislým na reproduktorech a malým ATC databázím pro školení. Tímto představujeme CleanSky EC-H2020 ATCO2, projekt, jehož cílem je vyvinout platformu založenou na ASR pro sběr, organizaci a automatické předběžné zpracování dat řeči ATCo ze vzdušného prostoru. Tento dokument přináší průzkumné měřítko několika nejmodernějších modelů ASR trénovaných na více než 170 hodinách řečových dat ATCo. Ukazujeme, že mezery mezi přízvukem způsobené akcenty reproduktorů jsou minimalizovány kvůli množství dat, což činí systém proveditelným pro prostředí ATC. Vyvinutý systém ASR dosahuje průměrné chybovosti slov (WER) 7,75% ve čtyřech databázích. Dalšího 35% relativního zlepšení WER je dosaženo na jedné testovací sadě při tréninku systému TDNNF s kódováním bajtových párů.

Rok
2020
Strany
2297-2301
Časopis
Proceedings of Interspeech - on-line, roč. 2020, č. 10, ISSN 1990-9772
Sborník
Proceedings of Interspeech 2020
Konference
Interspeech, Shanghai, CN
Vydavatel
International Speech Communication Association
Místo
Shanghai, CN
DOI
UT WoS
000833594102086
EID Scopus
BibTeX
@INPROCEEDINGS{FITPUB12404,
   author = "Juan Zuluaga-Gomez and Petr Motl\'{i}\v{c}ek and Qingran Zhan and Karel Vesel\'{y} and Rudolf Braun",
   title = "Automatic Speech Recognition Benchmark for Air-Traffic Communications",
   pages = "2297--2301",
   booktitle = "Proceedings of Interspeech 2020",
   journal = "Proceedings of Interspeech - on-line",
   volume = 2020,
   number = 10,
   year = 2020,
   location = "Shanghai, CN",
   publisher = "International Speech Communication Association",
   ISSN = "1990-9772",
   doi = "10.21437/Interspeech.2020-2173",
   language = "english",
   url = "https://www.fit.vut.cz/research/publication/12404"
}
Nahoru