Detail publikace

Ask2Mask: Guided Data Selection for Masked Speech Modeling

BASKAR, M.; ROSENBERG, A.; RAMABHADRAN, B.; ZHANG, Y.; MORENO, P. Ask2Mask: Guided Data Selection for Masked Speech Modeling. IEEE J-STSP, 2022, vol. 16, no. 6, p. 1357-1366. ISSN: 1932-4553.

Název česky

Ask2Mask: Řízený výběr dat pro modelování uměle maskované řeči

Typ

článek v časopise

Jazyk

anglicky

Autoři

Baskar Murali Karthick, Ing., Ph.D.
Rosenberg Andrew
Ramabhadran Bhuvana
Zhang Yu
Moreno Pedro

URL

https://ieeexplore.ieee.org/stamp/stamp.jsp?tp=&arnumber=9806175

Klíčová slova

Guided Data Selection, Masked Speech Modeling

Abstrakt

Metody modelování maskované řeči (MSM), jako např. wav2vec2 nebo w2v-BERT se učí reprezentaci nad řečovými snímky. které jsou náhodně maskovány v rámci výpovědi. Zatímco tyto metody zlepšují výkon automatického rozpoznávání řeči (ASR).mají však jedno zásadní omezení. Zacházejí se všemi neřízenými se stejnou váhou, což brání učení, protože ne všechny vzorky mají relevantní informace pro učení smysluplných reprezentací. V této práci se tímto omezením zabýváme. Navrhujeme ask2mask (ATM), nový přístup, který se zaměřuje na konkrétní vzorky. během předběžného tréninku MSM. ATM využívá externí model ASR nebo skórujícího k vážení nesupervisovaných vstupních vzorků ve dvou různých dvěma způsoby: 1) Jemný výběr dat se provádí maskováním nad vysoce důvěryhodnými vstupními snímky, které vybral skórující. To umožňuje modelu naučit se smysluplné reprezentace. 2) ATM je dále rozšířen tak, aby se soustředil na úroveň výpovědí pomocí vážení konečné ztráty MSM skóre důvěryhodnosti na úrovni výroku. Provádíme experimenty jemného doladění na dvou dobře srovnatelných korpusech:LibriSpeech (odpovídající předtréninkovým datům) a Commonvoice, TED-LIUM, AMI a CHiME-6 (neodpovídají předtréninkovým datům). dat). Výsledky potvrzují účinnost ATM na výrazně vyšší úrovni, než jaká je v současné době. zlepšuje výkonnost rozpoznávání při neshodných údajích v podmínkách (až o 11,6 % oproti publikovaným výsledkům a až o 2,5 % oproti publikovaným výsledkům) 4,46 % oproti naší interní základní úrovni), přičemž stále přináší mírné v odpovídajících podmínkách.

Rok

2022

Strany

1357–1366

Časopis

IEEE J-STSP, roč. 16, č. 6, ISSN 1932-4553

DOI

10.1109/JSTSP.2022.3186162

UT WoS

000870301500019

EID Scopus

2-s2.0-85133786585

BibTeX

@article{BUT182529,
  author="Murali Karthick {Baskar} and Andrew {Rosenberg} and Bhuvana {Ramabhadran} and Yu {Zhang} and Pedro {Moreno}",
  title="Ask2Mask: Guided Data Selection for Masked Speech Modeling",
  journal="IEEE J-STSP",
  year="2022",
  volume="16",
  number="6",
  pages="1357--1366",
  doi="10.1109/JSTSP.2022.3186162",
  issn="1932-4553",
  url="https://ieeexplore.ieee.org/stamp/stamp.jsp?tp=&arnumber=9806175"
}

Soubory

pdf baskar_IEEE_JSTSP_2022_Ask2Mask_Guided_Data_Selection_for_Masked_Speech_Modeling.pdf 2 MB