Detail publikace

An Automatic Speaker Clustering Pipeline for the Air Traffic Communication Domain

KHALIL Driss, PRASAD Amrutha, MOTLÍČEK Petr, ZULUAGA-GOMEZ Juan, NIGMATULINA Iuliia, MADIKERI Srikanth a SCHUEPBACH Christof. An Automatic Speaker Clustering Pipeline for the Air Traffic Communication Domain. Aerospace, roč. 10, č. 10, 2023, s. 1-14. ISSN 2226-4310. Dostupné z: https://www.mdpi.com/2226-4310/10/10/876
Název česky
Automatický postup pro shlukování mluvčích v oblasti letecké komunikace
Typ
článek v časopise
Jazyk
angličtina
Autoři
Khalil Driss (IDIAP)
Prasad Amrutha (UPGM FIT VUT)
Motlíček Petr, doc. Ing., Ph.D. (UPGM FIT VUT)
Zuluaga-Gomez Juan (IDIAP)
Nigmatulina Iuliia (IDIAP)
Madikeri Srikanth (IDIAP)
Schuepbach Christof (armasuisse)
URL
Abstrakt

V řízení letového provozu (ATM) je hlasová komunikace rozhodující pro zajištění bezpečného a efektivního provozu letadel. Příslušná hlasová komunikace - řídící letového provozu (ATCo) a pilot - jsou obvykle přenášeny v jediném kanálu, což představuje výzvu při vývoji automatických systémů pro řízení letového provozu. Shlukování mluvčích je jednou z výzev při aplikaci algoritmů pro zpracování řeči k identifikaci a seskupení stejného mluvčího mezi různé mluvčí. Navrhujeme kanál, který nasazuje (i) detekci řečové aktivity (SAD) k identifikaci segmentů řeči, (ii) systém automatického rozpoznávání řeči pro generování textu pro zvukové segmenty, (iii) klasifikaci rolí mluvčího na základě textu k detekci role řečník-ATCo nebo pilot v našem případě a (iv) shlukování řečníků bez dozoru k vytvoření shluku každého jednotlivého pilotního řečníka ze získaných řečových projevů. Segmenty řeči získané pomocí SAD jsou vkládány do stroje pro automatické rozpoznávání řeči (ASR), který generuje automatické anglické přepisy. Systém klasifikace rolí mluvčího bere přepis jako vstup a používá jej k určení, zda řeč byla od ATCo nebo pilota. Protože hlavním cílem tohoto projektu je seskupení mluvčích v pilotní komunikaci, jsou využívána pouze pilotní data získaná z klasifikačního systému. Představujeme metodu pro oddělení řečových částí pilotů do různých shluků na základě hlasu mluvčího pomocí aglomerativního hierarchického shlukování (AHC). Výkon klasifikace rolí mluvčího a shlukování mluvčích se hodnotí na dvou veřejně dostupných souborech dat: korpusu ATCO2 a korpusu Linguistic Data Consortium Air Traffic Control Corpus (LDC-ATCC). Protože skutečná identita pilotů není známa, základní pravda je generována na základě logických hypotéz týkajících se vytvoření každé datové sady, informací o načasování a informací extrahovaných z přidružených volacích značek. V případě shlukování mluvčích dosahuje navrhovaný algoritmus přesnosti 70 % na datovém souboru LDC-ATCC a 50 % na více zašuměném datovém souboru ATCO2.

Rok
2023
Strany
1-14
Časopis
Aerospace, roč. 10, č. 10, ISSN 2226-4310
Vydavatel
MDPI
DOI
UT WoS
001095599200001
EID Scopus
BibTeX
@ARTICLE{FITPUB13154,
   author = "Driss Khalil and Amrutha Prasad and Petr Motl\'{i}\v{c}ek and Juan Zuluaga-Gomez and Iuliia Nigmatulina and Srikanth Madikeri and Christof Schuepbach",
   title = "An Automatic Speaker Clustering Pipeline for the Air Traffic Communication Domain",
   pages = "1--14",
   journal = "Aerospace",
   volume = 10,
   number = 10,
   year = 2023,
   ISSN = "2226-4310",
   doi = "10.3390/aerospace10100876",
   language = "english",
   url = "https://www.fit.vut.cz/research/publication/13154"
}
Nahoru