Detail publikace

A Two-Step Approach to Leverage Contextual Data: Speech Recognition in Air-Traffic Communications

NIGMATULINA Iuliia, ZULUAGA-GOMEZ Juan, PRASAD Amrutha, SARFJOO Saeed a MOTLÍČEK Petr. A Two-Step Approach to Leverage Contextual Data: Speech Recognition in Air-Traffic Communications. In: ICASSP, IEEE International Conference on Acoustics, Speech and Signal Processing - Proceedings. Singapore: IEEE Signal Processing Society, 2022, s. 6282-6286. ISBN 978-1-6654-0540-9. Dostupné z: https://ieeexplore.ieee.org/document/9746563
Název česky
Dvoustupňový přístup pro využité kontextuálních dat: rozpoznávání řeči v letectví
Typ
článek ve sborníku konference
Jazyk
angličtina
Autoři
Nigmatulina Iuliia (IDIAP)
Zuluaga-Gomez Juan (IDIAP)
Prasad Amrutha (UPGM FIT VUT)
Sarfjoo Saeed (IDIAP)
Motlíček Petr, Ing., Ph.D. (IDIAP)
URL
Abstrakt

Automatické rozpoznávání řeči (ASR) jako pomoc při komunikaci mezi piloty a řídícími letového provozu může výrazně snížit složitost úkolu a zvýšit spolehlivost přenášených informací. Aplikace ASR může vést k nižšímu počtu incidentů způsobených nedorozuměním a zlepšit efektivitu řízení letového provozu (ATM). Je zřejmé, že pro minimalizaci rizika chyb jsou vyžadovány vysoce přesné předpovědi, zejména klíčových informací, tj. volacích značek a příkazů. Dokazujeme, že kombinace výhod metod ASR a Natural Language Processing (NLP) s využitím sledovacích dat (tj. další modalita) pomáhá výrazně zlepšit rozpoznávání volacích značek (pojmenovaná entita). V tomto článku zkoumáme dvoukrokový přístup zesilování volací značky: (1) v 1. kroku (ASR) jsou váhy pravděpodobných n-gramů volací značky sníženy v G.fst a/nebo v dekódování FST (mřížky), ( 2) ve 2. kroku (NLP) jsou volací značky extrahované z vylepšených výstupů rozpoznávání pomocí rozpoznávání pojmenovaných entit (NER) korelovány s daty sledování, aby se vybral ten nejvhodnější. Posílení n-gramů volacích značek kombinací metod ASR a NLP nakonec vede až k 53,7 % absolutního nebo 60,4 % relativního zlepšení rozpoznávání volacích značek.

Rok
2022
Strany
6282-6286
Sborník
ICASSP, IEEE International Conference on Acoustics, Speech and Signal Processing - Proceedings
Konference
2022 IEEE INTERNATIONAL CONFERENCE ON ACOUSTICS, SPEECH AND SIGNAL PROCESSING (ICASSP), Singapore, SG
ISBN
978-1-6654-0540-9
Vydavatel
IEEE Signal Processing Society
Místo
Singapore, SG
DOI
UT WoS
000864187906114
EID Scopus
BibTeX
@INPROCEEDINGS{FITPUB12790,
   author = "Iuliia Nigmatulina and Juan Zuluaga-Gomez and Amrutha Prasad and Saeed Sarfjoo and Petr Motl\'{i}\v{c}ek",
   title = "A Two-Step Approach to Leverage Contextual Data: Speech Recognition in Air-Traffic Communications",
   pages = "6282--6286",
   booktitle = "ICASSP, IEEE International Conference on Acoustics, Speech and Signal Processing - Proceedings",
   year = 2022,
   location = "Singapore, SG",
   publisher = "IEEE Signal Processing Society",
   ISBN = "978-1-6654-0540-9",
   doi = "10.1109/ICASSP43922.2022.9746563",
   language = "english",
   url = "https://www.fit.vut.cz/research/publication/12790"
}
Nahoru