Detail publikace

How Does Pre-Trained Wav2Vec 2.0 Perform on Domain-Shifted ASR? an Extensive Benchmark on Air Traffic Control Communications

ZULUAGA-GOMEZ Juan, PRASAD Amrutha, NIGMATULINA Iuliia, SARFJOO Seyyed Saeed, MOTLÍČEK Petr, KLEINERT Matthias, HELMKE Hartmut, OHNEISER Oliver a ZHAN Qingran. How Does Pre-Trained Wav2Vec 2.0 Perform on Domain-Shifted ASR? an Extensive Benchmark on Air Traffic Control Communications. In: IEEE Spoken Language Technology Workshop, SLT 2022 - Proceedings. Doha: IEEE Signal Processing Society, 2023, s. 205-212. ISBN 978-1-6654-7189-3. Dostupné z: https://ieeexplore.ieee.org/document/10022724
Název česky
Jak si vede předtrénovaný Wav2Vec 2.0 v ASR s posunem domény? Rozsáhlé testování na komunikaci v řízení letového provozu
Typ
článek ve sborníku konference
Jazyk
angličtina
Autoři
Zuluaga-Gomez Juan (IDIAP)
Prasad Amrutha (UPGM FIT VUT)
Nigmatulina Iuliia (IDIAP)
Sarfjoo Seyyed Saeed (IDIAP)
Motlíček Petr, doc. Ing., Ph.D. (UPGM FIT VUT)
Kleinert Matthias (DLR)
Helmke Hartmut (DLR)
Ohneiser Oliver (DLR)
Zhan Qingran (IDIAP)
URL
Abstrakt

Nedávná práce na před-trénovaném s vlastním dohledem se zaměřuje na pákový efekt rozsáhlá neoznačená řečová data pro vytvoření robustního end-to-end (E2E) akustické modely (AM), které lze později jemně doladit na downstreamu úkoly, např. automatické rozpoznávání řeči (ASR). Přesto málo funguje zkoumal dopad na výkon, když vlastnosti dat podstatně se liší mezi předtréninkovou a dolaďovací fází, nazývaný posun domény. Na tento scénář se zaměřujeme analýzou robustnosti modelů Wav2Vec 2.0 a XLS-R na následném ASR pro zcela nevídanou oblast, komunikace řízení letového provozu (ATC). Testujeme tyto dva modely na několika open-source a náročné databáze ATC s poměrem signálu k šumu mezi 5 až 20 dB. Relativní snížení chybovosti slov (WER) mezi 20 % ve srovnání s hybridními základními hodnotami ASR pouze doladěním akustických modelů E2E s menším zlomkem označené údaje. Analyzujeme WER na scénáři s nízkými zdroji a genderová zaujatost nesená jedním datovým souborem ATC.

Rok
2023
Strany
205-212
Sborník
IEEE Spoken Language Technology Workshop, SLT 2022 - Proceedings
Konference
IEEE SPOKEN LANGUAGE TECHNOLOGY WORKSHOP, SLT, Doha, QA
ISBN
978-1-6654-7189-3
Vydavatel
IEEE Signal Processing Society
Místo
Doha, QA
DOI
UT WoS
000968851900028
EID Scopus
BibTeX
@INPROCEEDINGS{FITPUB13047,
   author = "Juan Zuluaga-Gomez and Amrutha Prasad and Iuliia Nigmatulina and Saeed Seyyed Sarfjoo and Petr Motl\'{i}\v{c}ek and Matthias Kleinert and Hartmut Helmke and Oliver Ohneiser and Qingran Zhan",
   title = "How Does Pre-Trained Wav2Vec 2.0 Perform on Domain-Shifted ASR? an Extensive Benchmark on Air Traffic Control Communications",
   pages = "205--212",
   booktitle = "IEEE Spoken Language Technology Workshop, SLT 2022 - Proceedings",
   year = 2023,
   location = "Doha, QA",
   publisher = "IEEE Signal Processing Society",
   ISBN = "978-1-6654-7189-3",
   doi = "10.1109/SLT54892.2023.10022724",
   language = "english",
   url = "https://www.fit.vut.cz/research/publication/13047"
}
Nahoru