Detail publikace

Boosting of Contextual Information in ASR for Air-Traffic Call-Sign Recognition

KOCOUR Martin, VESELÝ Karel, BLATT Alexander, ZULUAGA-GOMEZ Juan, SZŐKE Igor, ČERNOCKÝ Jan, KLAKOW Dietrich a MOTLÍČEK Petr. Boosting of Contextual Information in ASR for Air-Traffic Call-Sign Recognition. In: Proceedings Interspeech 2021. Brno: International Speech Communication Association, 2021, s. 3301-3305. ISSN 1990-9772. Dostupné z: https://www.isca-speech.org/archive/interspeech_2021/kocour21_interspeech.html
Název česky
Zvýrazňování kontextové informace v přepisu řeči pro rozpoznávání volacích znaků v letecké dopravě
Typ
článek ve sborníku konference
Jazyk
angličtina
Autoři
Kocour Martin, Ing. (UPGM FIT VUT)
Veselý Karel, Ing., Ph.D. (UPGM FIT VUT)
Blatt Alexander (UDS)
Zuluaga-Gomez Juan (IDIAP)
Szőke Igor, Ing., Ph.D. (UPGM FIT VUT)
Černocký Jan, prof. Dr. Ing. (UPGM FIT VUT)
Klakow Dietrich (UDS)
Motlíček Petr, Ing., Ph.D. (IDIAP)
URL
Abstrakt

Kontextová adaptace ASR může být pro multiaccent a často hlučný projev řízení letového provozu (ATC) velmi přínosná. Zaměřujeme se na rozpoznávání volacích značek, které lze použít ke sledování konverzací provozovatelů ATC s jednotlivými letouny. Vyvinuly jsme dvoustupňovou strategii posilování, sestávající z HCLG boosting a Lattice boosting. Obě jsou implementovány jako WFST složení a kontextové informace jsou pro každou specifickou promluvu. Při posilování HCLG poskytujeme bodové slevy jednotlivým slovům, zatímco v Lattice zvyšuje skóre slevy jsou dány sekvencím slov. Kontextová data mají původ v dohledové databázi OpenSky Network. Z ní získáváme seznamy volacích značek, u kterých je větší pravděpodobnost, že se objeví v nejlepší hypotéze ASR. To také zlepšuje přesnost modulu NLU, který rozpozná volací značky od nejlepších hypotéz z ASR. V rámci projektu ATCO2 jsme shromáždili liveatc testovací sadu2. Posílení volacích značek vede k absolutnímu zlepšení WER o 4,7 %. a 27,1% absolutní nárůst rozpoznávání volacích značek Přesnost (CSA). Náš nejlepší výsledek 82,9 % CSA je docela dost dobrý, vzhledem k tomu, že data jsou zašuměná, a WER 28,4 % je relativně vysoký. Věříme, že je stále co zlepšovat.

Rok
2021
Strany
3301-3305
Časopis
Proceedings of Interspeech - on-line, roč. 2021, č. 8, ISSN 1990-9772
Sborník
Proceedings Interspeech 2021
Konference
Interspeech Conference, Brno, CZ
Vydavatel
International Speech Communication Association
Místo
Brno, CZ
DOI
UT WoS
000841879503079
EID Scopus
BibTeX
@INPROCEEDINGS{FITPUB12610,
   author = "Martin Kocour and Karel Vesel\'{y} and Alexander Blatt and Juan Zuluaga-Gomez and Igor Sz\H{o}ke and Jan \v{C}ernock\'{y} and Dietrich Klakow and Petr Motl\'{i}\v{c}ek",
   title = "Boosting of Contextual Information in ASR for Air-Traffic Call-Sign Recognition",
   pages = "3301--3305",
   booktitle = "Proceedings Interspeech 2021",
   journal = "Proceedings of Interspeech - on-line",
   volume = 2021,
   number = 8,
   year = 2021,
   location = "Brno, CZ",
   publisher = "International Speech Communication Association",
   ISSN = "1990-9772",
   doi = "10.21437/Interspeech.2021-1619",
   language = "english",
   url = "https://www.fit.vut.cz/research/publication/12610"
}
Nahoru