Detail publikace

Listen only to me! How well can target speech extraction handle false alarms?

DELCROIX Marc, KINOSHITA Keisuke, OCHIAI Tsubasa, ŽMOLÍKOVÁ Kateřina, SATO Hiroshi a NAKATANI Tomohiro. Listen only to me! How well can target speech extraction handle false alarms?. In: Proceedings of the Annual Conference of the International Speech Communication Association, INTERSPEECH. Incheon: International Speech Communication Association, 2022, s. 216-220. ISSN 1990-9772. Dostupné z: https://www.isca-speech.org/archive/pdfs/interspeech_2022/delcroix22_interspeech.pdf
Název česky
Poslouchej jen mě! Jak dobře zvládá extrakce řeči cílového mluvčího falešné poplachy?
Typ
článek ve sborníku konference
Jazyk
angličtina
Autoři
Delcroix Marc (NTT)
Kinoshita Keisuke (NTT)
Ochiai Tsubasa (NTT)
Žmolíková Kateřina, Ing., Ph.D. (UPGM FIT VUT)
Sato Hiroshi (NTT)
Nakatani Tomohiro (NTT)
URL
Abstrakt

Cílová extrakce řeči (TSE) extrahuje řeč cílového mluvčího ve směsi daných pomocných vodítek charakterizujících mluvčího, jako je například promluva při zápisu. TSE tak řeší náročný problém současného provádění separace a identifikace mluvčích. Po nedávném vývoji neuronových sítí pro vylepšení a separaci řeči došlo k velkému pokroku v extrakčním výkonu. Většina studií se zaměřila na zpracování směsí, kde cílový mluvčí aktivně mluví. Cílový mluvčí však v praxi někdy mlčí, tj. neaktivní mluvčí (IS). Typický systém TSE bude mít v případech IS tendenci vydávat signál, který způsobí falešné poplachy. To je vážný problém pro praktické nasazení systémů TSE. Tento dokument si klade za cíl lépe porozumět tomu, jak dobře mohou systémy TSE zvládat případy IS. Zvažujeme dva přístupy, jak se vypořádat s IS, (1) trénovat systém na přímý výstup nulových signálů nebo (2) detekovat IS pomocí extra modulu pro ověřování mluvčích. Provádíme rozsáhlé experimentální srovnání těchto schémat z hlediska výkonu extrakce a detekce IS pomocí datové sady LibriMix a odhalujeme jejich klady a zápory.

Rok
2022
Strany
216-220
Časopis
Proceedings of Interspeech - on-line, č. 9, ISSN 1990-9772
Sborník
Proceedings of the Annual Conference of the International Speech Communication Association, INTERSPEECH
Konference
Interspeech Conference, Incheon, KR
Vydavatel
International Speech Communication Association
Místo
Incheon, KR
DOI
EID Scopus
BibTeX
@INPROCEEDINGS{FITPUB12855,
   author = "Marc Delcroix and Keisuke Kinoshita and Tsubasa Ochiai and Kate\v{r}ina \v{Z}mol\'{i}kov\'{a} and Hiroshi Sato and Tomohiro Nakatani",
   title = "Listen only to me! How well can target speech extraction handle false alarms?",
   pages = "216--220",
   booktitle = "Proceedings of the Annual Conference of the International Speech Communication Association, INTERSPEECH",
   journal = "Proceedings of Interspeech - on-line",
   number = 9,
   year = 2022,
   location = "Incheon, KR",
   publisher = "International Speech Communication Association",
   ISSN = "1990-9772",
   doi = "10.21437/Interspeech.2022-11252",
   language = "english",
   url = "https://www.fit.vut.cz/research/publication/12855"
}
Nahoru