Detail publikace

BERTraffic: BERT-based Joint Speaker Role and Speaker Change Detection for Air Traffic Control Communications

ZULUAGA-GOMEZ Juan, SARFJOO Seyyed Saeed, PRASAD Amrutha, NIGMATULINA Iuliia, MOTLÍČEK Petr, ONDŘEJ Karel, OHNEISER Oliver a HELMKE Hartmut. BERTraffic: BERT-based Joint Speaker Role and Speaker Change Detection for Air Traffic Control Communications. In: IEEE Spoken Language Technology Workshop, SLT 2022 - Proceedings. Doha: IEEE Signal Processing Society, 2023, s. 633-640. ISBN 978-1-6654-7189-3. Dostupné z: https://ieeexplore.ieee.org/document/10022718
Název česky
BERTraffic: Společná detekce role mluvčího a změny mluvčího pro komunikaci v řízení letového provozu založená na BERT
Typ
článek ve sborníku konference
Jazyk
angličtina
Autoři
Zuluaga-Gomez Juan (IDIAP)
Sarfjoo Seyyed Saeed (IDIAP)
Prasad Amrutha (UPGM FIT VUT)
Nigmatulina Iuliia (IDIAP)
Motlíček Petr, doc. Ing., Ph.D. (UPGM FIT VUT)
Ondřej Karel, Ing. (UPGM FIT VUT)
Ohneiser Oliver (DLR)
Helmke Hartmut (DLR)
URL
Abstrakt

Automatické rozpoznávání řeči (ASR) umožňuje přepis komunikace mezi řídícími letového provozu (ATCO) a piloty letadel. Přepisy se později použijí k extrakci entit pojmenovaných ATC, např. volací značky letadel. Jedním z běžných problémů je detekce řečové aktivity (SAD) a diarizace reproduktoru (SD). Ve stavu selhání, dva nebo více segmentů zůstávají ve stejné nahrávce, což ohrožuje celkový výkon. Navrhujeme systém, který kombinuje SAD a a Model BERT pro provedení detekce změny mluvčího a role mluvčího detekce (SRD) rozdělením ASR transkriptů, tj. SD s definovaným počet reproduktorů spolu s SRD. Navrhovaný model je vyhodnoceno na skutečných veřejných databázích ATC. Náš model BERT SD základní úroveň dosahuje až 10 % a 20 % chybovosti Jaccard na základě tokenů (JER) ve veřejných a soukromých databázích ATC. Dosáhli jsme také relativní zlepšení o 32 % a 7,7 % u JER a chybovosti SD (DER), respektive ve srovnání s VBx, známým systémem SD.1

Rok
2023
Strany
633-640
Sborník
IEEE Spoken Language Technology Workshop, SLT 2022 - Proceedings
Konference
IEEE SPOKEN LANGUAGE TECHNOLOGY WORKSHOP, SLT, Doha, QA
ISBN
978-1-6654-7189-3
Vydavatel
IEEE Signal Processing Society
Místo
Doha, QA
DOI
UT WoS
000968851900086
EID Scopus
BibTeX
@INPROCEEDINGS{FITPUB13045,
  author = "Juan Zuluaga-Gomez and Saeed Seyyed Sarfjoo and Amrutha Prasad and Iuliia Nigmatulina and Petr Motl\'{i}\v{c}ek and Karel Ond\v{r}ej and Oliver Ohneiser and Hartmut Helmke",
  title = "BERTraffic: BERT-based Joint Speaker Role and Speaker Change Detection for Air Traffic Control Communications",
  pages = "633--640",
  booktitle = "IEEE Spoken Language Technology Workshop, SLT 2022 - Proceedings",
  year = 2023,
  location = "Doha, QA",
  publisher = "IEEE Signal Processing Society",
  ISBN = "978-1-6654-7189-3",
  doi = "10.1109/SLT54892.2023.10022718",
  language = "english",
  url = "https://www.fit.vut.cz/research/publication/13045"
}
Nahoru