Detail publikace

Speaker adaptation for Wav2vec2 based dysarthric ASR

BASKAR Murali K., HERZIG Tim, NGUYEN Diana, DIEZ Sánchez Mireia, POLZEHL Tim, BURGET Lukáš a ČERNOCKÝ Jan. Speaker adaptation for Wav2vec2 based dysarthric ASR. In: Proceedings of the Annual Conference of the International Speech Communication Association, INTERSPEECH. Incheon: International Speech Communication Association, 2022, s. 3403-3407. ISSN 1990-9772. Dostupné z: https://www.isca-speech.org/archive/pdfs/interspeech_2022/baskar22b_interspeech.pdf
Název česky
Adaptace na mluvčího pro rozpoznávání dysartrické řeči založené na Wav2vec2
Typ
článek ve sborníku konference
Jazyk
angličtina
Autoři
Baskar Murali K. (UPGM FIT VUT)
Herzig Tim (TU-BERLIN)
Nguyen Diana (TU-BERLIN)
Diez Sánchez Mireia, M.Sc., Ph.D. (UPGM FIT VUT)
Polzehl Tim (TU-BERLIN)
Burget Lukáš, doc. Ing., Ph.D. (UPGM FIT VUT)
Černocký Jan, prof. Dr. Ing. (UPGM FIT VUT)
URL
Abstrakt

Dysartrické rozpoznávání řeči představuje velké problémy kvůli nedostatku trénovacích dat a velkému nesouladu v charakteristikách mluvčích. Nedávné systémy ASR těžily ze snadno dostupných předtrénovaných modelů, jako je wav2vec2, aby zlepšily výkon rozpoznávání. Adaptace mluvčího pomocí fMLLR a xvectors poskytla velké zisky pro dysartrickou řeč s velmi malým množstvím adaptačních dat. Nicméně integrace wav2vec2 s funkcemi fMLLR nebo xvectors během jemného ladění wav2vec2 je ještě třeba prozkoumat. V této práci navrhujeme jednoduchou adaptační síť pro jemné doladění wav2vec2 pomocí funkcí fMLLR. Adaptační síť je také flexibilní, aby zvládla další adaptivní funkce mluvčích, jako jsou xvectors. Experimentální analýza ukazuje stabilní zlepšení pomocí našeho navrhovaného přístupu napříč všemi úrovněmi závažnosti poškození a dosahuje 57,72 % WER pro vysokou závažnost v datové sadě UASpeech. Provedli jsme také experimenty na německém datovém souboru, abychom prokázali konzistenci našeho navrhovaného přístupu napříč různými doménami.

Rok
2022
Strany
3403-3407
Časopis
Proceedings of Interspeech - on-line, roč. 9, č. 9, ISSN 1990-9772
Sborník
Proceedings of the Annual Conference of the International Speech Communication Association, INTERSPEECH
Konference
Interspeech Conference, Incheon, KR
Vydavatel
International Speech Communication Association
Místo
Incheon, KR
DOI
UT WoS
000900724503114
EID Scopus
BibTeX
@INPROCEEDINGS{FITPUB12854,
  author = "K. Murali Baskar and Tim Herzig and Diana Nguyen and Mireia S\'{a}nchez Diez and Tim Polzehl and Luk\'{a}\v{s} Burget and Jan \v{C}ernock\'{y}",
  title = "Speaker adaptation for Wav2vec2 based dysarthric ASR",
  pages = "3403--3407",
  booktitle = "Proceedings of the Annual Conference of the International Speech Communication Association, INTERSPEECH",
  journal = "Proceedings of Interspeech - on-line",
  volume = 9,
  number = 9,
  year = 2022,
  location = "Incheon, KR",
  publisher = "International Speech Communication Association",
  ISSN = "1990-9772",
  doi = "10.21437/Interspeech.2022-10896",
  language = "english",
  url = "https://www.fit.vut.cz/research/publication/12854"
}
Nahoru