Detail publikace
An Automatic Speaker Clustering Pipeline for the Air Traffic Communication Domain
Prasad Amrutha (UPGM)
Motlíček Petr, doc. Ing., Ph.D. (UPGM)
ZULUAGA-GOMEZ, J.
NIGMATULINA, I.
Madikeri Srikanth
SCHUEPBACH, C.
speaker clustering; speaker role detection
V řízení letového provozu (ATM) je hlasová komunikace rozhodující pro zajištění
bezpečného a efektivního provozu letadel. Příslušná hlasová komunikace - řídící
letového provozu (ATCo) a pilot - jsou obvykle přenášeny v jediném kanálu, což
představuje výzvu při vývoji automatických systémů pro řízení letového provozu.
Shlukování mluvčích je jednou z výzev při aplikaci algoritmů pro zpracování řeči
k identifikaci a seskupení stejného mluvčího mezi různé mluvčí. Navrhujeme kanál,
který nasazuje (i) detekci řečové aktivity (SAD) k identifikaci segmentů řeči,
(ii) systém automatického rozpoznávání řeči pro generování textu pro zvukové
segmenty, (iii) klasifikaci rolí mluvčího na základě textu k detekci role
řečník-ATCo nebo pilot v našem případě a (iv) shlukování řečníků bez dozoru
k vytvoření shluku každého jednotlivého pilotního řečníka ze získaných řečových
projevů. Segmenty řeči získané pomocí SAD jsou vkládány do stroje pro automatické
rozpoznávání řeči (ASR), který generuje automatické anglické přepisy. Systém
klasifikace rolí mluvčího bere přepis jako vstup a používá jej k určení, zda řeč
byla od ATCo nebo pilota. Protože hlavním cílem tohoto projektu je seskupení
mluvčích v pilotní komunikaci, jsou využívána pouze pilotní data získaná
z klasifikačního systému. Představujeme metodu pro oddělení řečových částí pilotů
do různých shluků na základě hlasu mluvčího pomocí aglomerativního hierarchického
shlukování (AHC). Výkon klasifikace rolí mluvčího a shlukování mluvčích se
hodnotí na dvou veřejně dostupných souborech dat: korpusu ATCO2 a korpusu
Linguistic Data Consortium Air Traffic Control Corpus (LDC-ATCC). Protože
skutečná identita pilotů není známa, základní pravda je generována na základě
logických hypotéz týkajících se vytvoření každé datové sady, informací
o načasování a informací extrahovaných z přidružených volacích značek. V případě
shlukování mluvčích dosahuje navrhovaný algoritmus přesnosti 70 % na datovém
souboru LDC-ATCC a 50 % na více zašuměném datovém souboru ATCO2.
@article{BUT187753,
author="KHALIL, D. and PRASAD, A. and MOTLÍČEK, P. and ZULUAGA-GOMEZ, J. and NIGMATULINA, I. and MADIKERI, S. and SCHUEPBACH, C.",
title="An Automatic Speaker Clustering Pipeline for the Air Traffic Communication Domain",
journal="Aerospace",
year="2023",
volume="10",
number="10",
pages="1--14",
doi="10.3390/aerospace10100876",
issn="2226-4310",
url="https://www.mdpi.com/2226-4310/10/10/876"
}