Detail publikace

Reducing Domain mismatch in Self-supervised speech pre-training

BASKAR Murali K., ROSENBERG Andrew, RAMABHADRAN Bhuvana a ZHANG Yu. Reducing Domain mismatch in Self-supervised speech pre-training. In: Proceedings of the Annual Conference of the International Speech Communication Association, INTERSPEECH. Incheon: International Speech Communication Association, 2022, s. 3028-3032. ISSN 1990-9772. Dostupné z: https://www.isca-speech.org/archive/pdfs/interspeech_2022/baskar22_interspeech.pdf
Název česky
Snížení nesouladu domén v samoučicích se předtrénováných modelech řeči
Typ
článek ve sborníku konference
Jazyk
angličtina
Autoři
Baskar Murali K. (UPGM FIT VUT)
Rosenberg Andrew (Google, Inc.)
Ramabhadran Bhuvana (Google, Inc.)
Zhang Yu (Google, Inc.)
URL
Abstrakt

Metody maskovaného modelování řeči (MSM), jako je wav2vec2 nebo w2v-BERT, se učí reprezentace přes rámce řeči, které jsou náhodně maskovány v rámci promluvy. I když tyto metody zlepšují výkon systémů automatického rozpoznávání řeči (ASR), mají jedno hlavní omezení. Zacházejí se všemi vzorky řeči bez dozoru se stejnou váhou, což brání učení, protože ne všechny vzorky mají relevantní informace k tomu, aby se naučily smysluplné reprezentace. V této práci se tomuto omezení věnujeme. Navrhujeme ask2mask (ATM), nový přístup k zaměření na konkrétní vzorky během předtréninku MSM. ATM využívá externí model ASR nebo skórovací zařízení ke zvážení nekontrolovaných vstupních vzorků provedením jemnozrnného výběru dat. ATM provádí maskování vysoce spolehlivých vstupních snímků, jak je vybral hodnotitel. To umožňuje modelu naučit se smysluplné reprezentace. Provádíme dolaďovací experimenty na dvou dobře porovnaných korpusech: LibriSpeech (odpovídající předtréninkovým datům) a AMI a CHiME-6 (neodpovídající předtréninkovým datům). Výsledky potvrzují účinnost ATM na výrazné zlepšení rozpoznávacího výkonu za neshodných podmínek, přičemž stále poskytují mírná zlepšení za shodných podmínek.

Rok
2022
Strany
3028-3032
Časopis
Proceedings of Interspeech - on-line, č. 9, ISSN 1990-9772
Sborník
Proceedings of the Annual Conference of the International Speech Communication Association, INTERSPEECH
Konference
Interspeech Conference, Incheon, KR
Vydavatel
International Speech Communication Association
Místo
Incheon, KR
DOI
UT WoS
000900724503040
EID Scopus
BibTeX
@INPROCEEDINGS{FITPUB12853,
   author = "K. Murali Baskar and Andrew Rosenberg and Bhuvana Ramabhadran and Yu Zhang",
   title = "Reducing Domain mismatch in Self-supervised speech pre-training",
   pages = "3028--3032",
   booktitle = "Proceedings of the Annual Conference of the International Speech Communication Association, INTERSPEECH",
   journal = "Proceedings of Interspeech - on-line",
   number = 9,
   year = 2022,
   location = "Incheon, KR",
   publisher = "International Speech Communication Association",
   ISSN = "1990-9772",
   doi = "10.21437/Interspeech.2022-736",
   language = "english",
   url = "https://www.fit.vut.cz/research/publication/12853"
}
Nahoru