Detail publikace
BERTraffic: BERT-based Joint Speaker Role and Speaker Change Detection for Air Traffic Control Communications
Sarfjoo Seyyed Saeed (IDIAP)
Prasad Amrutha (UPGM FIT VUT)
Nigmatulina Iuliia (IDIAP)
Motlíček Petr, doc. Ing., Ph.D. (UPGM FIT VUT)
Ondřej Karel, Ing. (UPGM FIT VUT)
Ohneiser Oliver (DLR)
Helmke Hartmut (DLR)
Automatické rozpoznávání řeči (ASR) umožňuje přepis komunikace mezi řídícími letového provozu (ATCO) a piloty letadel. Přepisy se později použijí k extrakci entit pojmenovaných ATC, např. volací značky letadel. Jedním z běžných problémů je detekce řečové aktivity (SAD) a diarizace reproduktoru (SD). Ve stavu selhání, dva nebo více segmentů zůstávají ve stejné nahrávce, což ohrožuje celkový výkon. Navrhujeme systém, který kombinuje SAD a a Model BERT pro provedení detekce změny mluvčího a role mluvčího detekce (SRD) rozdělením ASR transkriptů, tj. SD s definovaným počet reproduktorů spolu s SRD. Navrhovaný model je vyhodnoceno na skutečných veřejných databázích ATC. Náš model BERT SD základní úroveň dosahuje až 10 % a 20 % chybovosti Jaccard na základě tokenů (JER) ve veřejných a soukromých databázích ATC. Dosáhli jsme také relativní zlepšení o 32 % a 7,7 % u JER a chybovosti SD (DER), respektive ve srovnání s VBx, známým systémem SD.1
@INPROCEEDINGS{FITPUB13045, author = "Juan Zuluaga-Gomez and Saeed Seyyed Sarfjoo and Amrutha Prasad and Iuliia Nigmatulina and Petr Motl\'{i}\v{c}ek and Karel Ond\v{r}ej and Oliver Ohneiser and Hartmut Helmke", title = "BERTraffic: BERT-based Joint Speaker Role and Speaker Change Detection for Air Traffic Control Communications", pages = "633--640", booktitle = "IEEE Spoken Language Technology Workshop, SLT 2022 - Proceedings", year = 2023, location = "Doha, QA", publisher = "IEEE Signal Processing Society", ISBN = "978-1-6654-7189-3", doi = "10.1109/SLT54892.2023.10022718", language = "english", url = "https://www.fit.vut.cz/research/publication/13045" }