Detail publikace

An Automatic Speaker Clustering Pipeline for the Air Traffic Communication Domain

KHALIL, D.; PRASAD, A.; MOTLÍČEK, P.; ZULUAGA-GOMEZ, J.; NIGMATULINA, I.; MADIKERI, S.; SCHUEPBACH, C. An Automatic Speaker Clustering Pipeline for the Air Traffic Communication Domain. Aerospace, 2023, vol. 10, no. 10, p. 1-14. ISSN: 2226-4310.
Název česky
Automatický postup pro shlukování mluvčích v oblasti letecké komunikace
Typ
článek v časopise
Jazyk
anglicky
Autoři
KHALIL, D.
Prasad Amrutha (UPGM)
Motlíček Petr, doc. Ing., Ph.D. (UPGM)
ZULUAGA-GOMEZ, J.
NIGMATULINA, I.
Madikeri Srikanth
SCHUEPBACH, C.
URL
Klíčová slova

speaker clustering; speaker role detection

Abstrakt

V řízení letového provozu (ATM) je hlasová komunikace rozhodující pro zajištění
bezpečného a efektivního provozu letadel. Příslušná hlasová komunikace - řídící
letového provozu (ATCo) a pilot - jsou obvykle přenášeny v jediném kanálu, což
představuje výzvu při vývoji automatických systémů pro řízení letového provozu.
Shlukování mluvčích je jednou z výzev při aplikaci algoritmů pro zpracování řeči
k identifikaci a seskupení stejného mluvčího mezi různé mluvčí. Navrhujeme kanál,
který nasazuje (i) detekci řečové aktivity (SAD) k identifikaci segmentů řeči,
(ii) systém automatického rozpoznávání řeči pro generování textu pro zvukové
segmenty, (iii) klasifikaci rolí mluvčího na základě textu k detekci role
řečník-ATCo nebo pilot v našem případě a (iv) shlukování řečníků bez dozoru
k vytvoření shluku každého jednotlivého pilotního řečníka ze získaných řečových
projevů. Segmenty řeči získané pomocí SAD jsou vkládány do stroje pro automatické
rozpoznávání řeči (ASR), který generuje automatické anglické přepisy. Systém
klasifikace rolí mluvčího bere přepis jako vstup a používá jej k určení, zda řeč
byla od ATCo nebo pilota. Protože hlavním cílem tohoto projektu je seskupení
mluvčích v pilotní komunikaci, jsou využívána pouze pilotní data získaná
z klasifikačního systému. Představujeme metodu pro oddělení řečových částí pilotů
do různých shluků na základě hlasu mluvčího pomocí aglomerativního hierarchického
shlukování (AHC). Výkon klasifikace rolí mluvčího a shlukování mluvčích se
hodnotí na dvou veřejně dostupných souborech dat: korpusu ATCO2 a korpusu
Linguistic Data Consortium Air Traffic Control Corpus (LDC-ATCC). Protože
skutečná identita pilotů není známa, základní pravda je generována na základě
logických hypotéz týkajících se vytvoření každé datové sady, informací
o načasování a informací extrahovaných z přidružených volacích značek. V případě
shlukování mluvčích dosahuje navrhovaný algoritmus přesnosti 70 % na datovém
souboru LDC-ATCC a 50 % na více zašuměném datovém souboru ATCO2.

Rok
2023
Strany
1–14
Časopis
Aerospace, roč. 10, č. 10, ISSN 2226-4310
DOI
UT WoS
001095599200001
EID Scopus
BibTeX
@article{BUT187753,
  author="KHALIL, D. and PRASAD, A. and MOTLÍČEK, P. and ZULUAGA-GOMEZ, J. and NIGMATULINA, I. and MADIKERI, S. and SCHUEPBACH, C.",
  title="An Automatic Speaker Clustering Pipeline for the Air Traffic Communication Domain",
  journal="Aerospace",
  year="2023",
  volume="10",
  number="10",
  pages="1--14",
  doi="10.3390/aerospace10100876",
  issn="2226-4310",
  url="https://www.mdpi.com/2226-4310/10/10/876"
}
Soubory
Nahoru