Detail publikace

Automatic Speech Recognition Benchmark for Air-Traffic Communications

ZULUAGA-GOMEZ, J.; MOTLÍČEK, P.; ZHAN, Q.; VESELÝ, K.; BRAUN, R. Automatic Speech Recognition Benchmark for Air-Traffic Communications. In Proceedings of Interspeech 2020. Proceedings of Interspeech. Shanghai: International Speech Communication Association, 2020. p. 2297-2301. ISSN: 1990-9772.

Název česky

Srovnávací test automatického rozpoznávání řeči pro hlasovou komunikací v leteckém provozu

Typ

článek ve sborníku konference

Jazyk

anglicky

Autoři

ZULUAGA-GOMEZ, J.
Motlíček Petr, doc. Ing., Ph.D. (UPGM)
ZHAN, Q.
Veselý Karel, Ing., Ph.D. (UPGM)
BRAUN, R.

URL

Klíčová slova

Speech Recognition, Air Traffic Control, TransferLearning, Deep Neural Networks, Lattice-Free MMI

Abstrakt

Pokroky v automatickém rozpoznávání řeči (ASR) za poslední desetiletí otevřely nové oblasti automatizace založené na řeči, například v prostředích řízení letového provozu (ATC). V současné době je hlasová komunikace a komunikace datovými spoji jediným způsobem kontaktu mezi piloty a řídícími letového provozu (ATCo), přičemž první z nich je nejpoužívanější a druhý je nemluvená metoda povinná pro oceánské zprávy a pro některé omezená domácí problémy. Systémy ASR v prostředích ATCo zdědily rostoucí složitost díky akcentům od neanglických mluvčích, hluku v kokpitu, předsudkům závislým na reproduktorech a malým ATC databázím pro školení. Tímto představujeme CleanSky EC-H2020 ATCO2, projekt, jehož cílem je vyvinout platformu založenou na ASR pro sběr, organizaci a automatické předběžné zpracování dat řeči ATCo ze vzdušného prostoru. Tento dokument přináší průzkumné měřítko několika nejmodernějších modelů ASR trénovaných na více než 170 hodinách řečových dat ATCo. Ukazujeme, že mezery mezi přízvukem způsobené akcenty reproduktorů jsou minimalizovány kvůli množství dat, což činí systém proveditelným pro prostředí ATC. Vyvinutý systém ASR dosahuje průměrné chybovosti slov (WER) 7,75% ve čtyřech databázích. Dalšího 35% relativního zlepšení WER je dosaženo na jedné testovací sadě při tréninku systému TDNNF s kódováním bajtových párů.

Rok

2020

Strany

2297–2301

Časopis

Proceedings of Interspeech, roč. 2020, č. 10, ISSN 1990-9772

Sborník

Proceedings of Interspeech 2020

Konference

21. mezinárodní ISCA konference o hlasové komunikaci (Interspeech 2020), Shanghai, CN

Vydavatel

International Speech Communication Association

Místo

Shanghai

DOI

10.21437/Interspeech.2020-2173

UT WoS

000833594102086

EID Scopus

2-s2.0-85098162088

BibTeX

@inproceedings{BUT168149,
  author="ZULUAGA-GOMEZ, J. and MOTLÍČEK, P. and ZHAN, Q. and VESELÝ, K. and BRAUN, R.",
  title="Automatic Speech Recognition Benchmark for Air-Traffic Communications",
  booktitle="Proceedings of Interspeech 2020",
  year="2020",
  journal="Proceedings of Interspeech",
  volume="2020",
  number="10",
  pages="2297--2301",
  publisher="International Speech Communication Association",
  address="Shanghai",
  doi="10.21437/Interspeech.2020-2173",
  issn="1990-9772",
  url="https://isca-speech.org/archive/Interspeech_2020/pdfs/2173.pdf"
}

Soubory

pdf zuluaga-gomez_Interspeech2020_2173.pdf 160 kB