Detail publikace

Ask2Mask: Guided Data Selection for Masked Speech Modeling

BASKAR Murali K., ROSENBERG Andrew, RAMABHADRAN Bhuvana, ZHANG Yu a MORENO Pedro. Ask2Mask: Guided Data Selection for Masked Speech Modeling. IEEE Journal of Selected Topics in Signal Processing, roč. 16, č. 6, 2022, s. 1357-1366. ISSN 1932-4553. Dostupné z: https://ieeexplore.ieee.org/stamp/stamp.jsp?tp=&arnumber=9806175
Název česky
Ask2Mask: Řízený výběr dat pro modelování uměle maskované řeči
Typ
článek v časopise
Jazyk
angličtina
Autoři
Baskar Murali K. (UPGM FIT VUT)
Rosenberg Andrew (Google, Inc.)
Ramabhadran Bhuvana (Google, Inc.)
Zhang Yu (Google, Inc.)
Moreno Pedro (Google)
URL
Abstrakt

Metody modelování maskované řeči (MSM), jako např. wav2vec2 nebo w2v-BERT se učí reprezentaci nad řečovými snímky. které jsou náhodně maskovány v rámci výpovědi. Zatímco tyto metody zlepšují výkon automatického rozpoznávání řeči (ASR). mají však jedno zásadní omezení. Zacházejí se všemi neřízenými se stejnou váhou, což brání učení, protože ne všechny vzorky mají relevantní informace pro učení smysluplných reprezentací. V této práci se tímto omezením zabýváme. Navrhujeme ask2mask (ATM), nový přístup, který se zaměřuje na konkrétní vzorky. během předběžného tréninku MSM. ATM využívá externí model ASR nebo skórujícího k vážení nesupervisovaných vstupních vzorků ve dvou různých dvěma způsoby: 1) Jemný výběr dat se provádí maskováním nad vysoce důvěryhodnými vstupními snímky, které vybral skórující. To umožňuje modelu naučit se smysluplné reprezentace. 2) ATM je dále rozšířen tak, aby se soustředil na úroveň výpovědí pomocí vážení konečné ztráty MSM skóre důvěryhodnosti na úrovni výroku. Provádíme experimenty jemného doladění na dvou dobře srovnatelných korpusech: LibriSpeech (odpovídající předtréninkovým datům) a Commonvoice, TED-LIUM, AMI a CHiME-6 (neodpovídají předtréninkovým datům). dat). Výsledky potvrzují účinnost ATM na výrazně vyšší úrovni, než jaká je v současné době. zlepšuje výkonnost rozpoznávání při neshodných údajích v podmínkách (až o 11,6 % oproti publikovaným výsledkům a až o 2,5 % oproti publikovaným výsledkům) 4,46 % oproti naší interní základní úrovni), přičemž stále přináší mírné v odpovídajících podmínkách.

Rok
2022
Strany
1357-1366
Časopis
IEEE Journal of Selected Topics in Signal Processing, roč. 16, č. 6, ISSN 1932-4553
Vydavatel
Institute of Electrical and Electronics Engineers
DOI
UT WoS
000870301500019
EID Scopus
BibTeX
@ARTICLE{FITPUB12953,
   author = "K. Murali Baskar and Andrew Rosenberg and Bhuvana Ramabhadran and Yu Zhang and Pedro Moreno",
   title = "Ask2Mask: Guided Data Selection for Masked Speech Modeling",
   pages = "1357--1366",
   journal = "IEEE Journal of Selected Topics in Signal Processing",
   volume = 16,
   number = 6,
   year = 2022,
   ISSN = "1932-4553",
   doi = "10.1109/JSTSP.2022.3186162",
   language = "english",
   url = "https://www.fit.vut.cz/research/publication/12953"
}
Nahoru