Detail publikace

Revisiting joint decoding based multi-talker speech recognition with DNN acoustic model

KOCOUR Martin, ŽMOLÍKOVÁ Kateřina, ONDEL Yang Lucas Antoine Francois, ŠVEC Ján, DELCROIX Marc, OCHIAI Tsubasa, BURGET Lukáš a ČERNOCKÝ Jan. Revisiting joint decoding based multi-talker speech recognition with DNN acoustic model. In: Proceedings of the Annual Conference of the International Speech Communication Association, INTERSPEECH. Incheon: International Speech Communication Association, 2022, s. 4955-4959. ISSN 1990-9772. Dostupné z: https://www.isca-speech.org/archive/pdfs/interspeech_2022/kocour22_interspeech.pdf
Název česky
Návrat k rozpoznávání řeči více mluvčích založenému na společném dekódování s DNN akustickým modelem
Typ
článek ve sborníku konference
Jazyk
angličtina
Autoři
Kocour Martin, Ing. (UPGM FIT VUT)
Žmolíková Kateřina, Ing., Ph.D. (UPGM FIT VUT)
Ondel Yang Lucas Antoine Francois, Mgr., Ph.D. (UPSAC)
Švec Ján, Ing. (FIT VUT)
Delcroix Marc (NTT)
Ochiai Tsubasa (NTT)
Burget Lukáš, doc. Ing., Ph.D. (UPGM FIT VUT)
Černocký Jan, prof. Dr. Ing. (UPGM FIT VUT)
URL
Abstrakt

V typických systémech rozpoznávání řeči s více mluvčími předpovídá akustický model založený na neuronové síti posteriory senonového stavu pro každého mluvčího. Ty jsou později použity dekodérem s jedním mluvčím, který je aplikován na každý výstupní proud specifický pro mluvčí samostatně. V této práci tvrdíme, že takové schéma není optimální a navrhujeme principiální řešení, které dekóduje všechny mluvčí společně. Upravujeme akustický model tak, aby predikoval posteriory společného stavu pro všechny mluvčí, což umožňuje síti vyjádřit nejistotu ohledně přiřazení částí řečového signálu mluvčím. Využíváme společný dekodér, který dokáže využít tuto nejistotu spolu s vyššími jazykovými informacemi. Za tímto účelem znovu navštívíme dekódovací algoritmy používané ve faktoriálních generativních modelech v raných systémech rozpoznávání řeči s více mluvčími. Na rozdíl od těchto raných prací nahrazujeme akustický model GMM za DNN, který poskytuje větší modelovací výkon a zjednodušuje část dedukce. Demonstrujeme výhodu společného dekódování v důkazu koncepčních experimentů na smíšeném datovém souboru TIDIGITS.

Rok
2022
Strany
4955-4959
Časopis
Proceedings of Interspeech - on-line, č. 9, ISSN 1990-9772
Sborník
Proceedings of the Annual Conference of the International Speech Communication Association, INTERSPEECH
Konference
Interspeech Conference, Incheon, KR
Vydavatel
International Speech Communication Association
Místo
Incheon, KR
DOI
UT WoS
000900724505027
EID Scopus
BibTeX
@INPROCEEDINGS{FITPUB12852,
  author = "Martin Kocour and Kate\v{r}ina \v{Z}mol\'{i}kov\'{a} and Francois Antoine Lucas Yang Ondel and J\'{a}n \v{S}vec and Marc Delcroix and Tsubasa Ochiai and Luk\'{a}\v{s} Burget and Jan \v{C}ernock\'{y}",
  title = "Revisiting joint decoding based multi-talker speech recognition with DNN acoustic model",
  pages = "4955--4959",
  booktitle = "Proceedings of the Annual Conference of the International Speech Communication Association, INTERSPEECH",
  journal = "Proceedings of Interspeech - on-line",
  number = 9,
  year = 2022,
  location = "Incheon, KR",
  publisher = "International Speech Communication Association",
  ISSN = "1990-9772",
  doi = "10.21437/Interspeech.2022-10406",
  language = "english",
  url = "https://www.fit.vut.cz/research/publication/12852"
}
Nahoru