Detail publikace

How Does Pre-Trained Wav2Vec 2.0 Perform on Domain-Shifted ASR? an Extensive Benchmark on Air Traffic Control Communications

ZULUAGA-GOMEZ, J.; PRASAD, A.; NIGMATULINA, I.; SARFJOO, S.; MOTLÍČEK, P.; KLEINERT, M.; HELMKE, H.; OHNEISER, O.; ZHAN, Q. How Does Pre-Trained Wav2Vec 2.0 Perform on Domain-Shifted ASR? an Extensive Benchmark on Air Traffic Control Communications. In IEEE Spoken Language Technology Workshop, SLT 2022 - Proceedings. Doha: IEEE Signal Processing Society, 2023. p. 205-212. ISBN: 978-1-6654-7189-3.

Název česky

Jak si vede předtrénovaný Wav2Vec 2.0 v ASR s posunem domény? Rozsáhlé testování na komunikaci v řízení letového provozu

Typ

článek ve sborníku konference

Jazyk

anglicky

Autoři

ZULUAGA-GOMEZ, J.
Prasad Amrutha (UPGM)
NIGMATULINA, I.
Sarfjoo Seyyed Saeed
Motlíček Petr, doc. Ing., Ph.D. (UPGM)
KLEINERT, M.
HELMKE, H.
OHNEISER, O.
ZHAN, Q.

URL

Klíčová slova

Automatic speech recognition, Wav2Vec 2.0, self-supervised pre-training, air traffic control communications.

Abstrakt

Nedávná práce na před-trénovaném s vlastním dohledem se zaměřuje na pákový efekt rozsáhlá neoznačená řečová data pro vytvoření robustního end-to-end (E2E) akustické modely (AM), které lze později jemně doladit na downstreamu úkoly, např. automatické rozpoznávání řeči (ASR). Přesto málo funguje zkoumal dopad na výkon, když vlastnosti dat podstatně se liší mezi předtréninkovou a dolaďovací fází, nazývaný posun domény. Na tento scénář se zaměřujeme analýzou robustnosti modelů Wav2Vec 2.0 a XLS-R na následném ASR pro zcela nevídanou oblast, komunikace řízení letového provozu (ATC). Testujeme tyto dva modely na několika open-source a náročné databáze ATC s poměrem signálu k šumu mezi 5 až 20 dB. Relativní snížení chybovosti slov (WER) mezi 20 % ve srovnání s hybridními základními hodnotami ASR pouze doladěním akustických modelů E2E s menším zlomkem označené údaje. Analyzujeme WER na scénáři s nízkými zdroji a genderová zaujatost nesená jedním datovým souborem ATC.

Rok

2023

Strany

205–212

Sborník

IEEE Spoken Language Technology Workshop, SLT 2022 - Proceedings

Konference

IEEE Konference o technologii mluveného jazyka (SLT), Doha, QA

ISBN

978-1-6654-7189-3

Vydavatel

IEEE Signal Processing Society

Místo

Doha

DOI

10.1109/SLT54892.2023.10022724

UT WoS

000968851900028

EID Scopus

2-s2.0-85141659819

BibTeX

@inproceedings{BUT185194,
  author="ZULUAGA-GOMEZ, J. and PRASAD, A. and NIGMATULINA, I. and SARFJOO, S. and MOTLÍČEK, P. and KLEINERT, M. and HELMKE, H. and OHNEISER, O. and ZHAN, Q.",
  title="How Does Pre-Trained Wav2Vec 2.0 Perform on Domain-Shifted ASR? an Extensive Benchmark on Air Traffic Control Communications",
  booktitle="IEEE Spoken Language Technology Workshop, SLT 2022 - Proceedings",
  year="2023",
  pages="205--212",
  publisher="IEEE Signal Processing Society",
  address="Doha",
  doi="10.1109/SLT54892.2023.10022724",
  isbn="978-1-6654-7189-3",
  url="https://ieeexplore.ieee.org/document/10022724"
}

Soubory

pdf zulaga-gomez_amrutha prasad_slt_2023_10022724.pdf 281 kB