Detail projektu
NTT - Speech enhancement front-end for robust automatic speech recognition with large amount of training data
Období řešení: 1. 1. 2021 - 31. 12. 2021
Typ projektu: smluvní výzkum
Objednatel: NTT Corporation
Název česky
Parametrizace s obohacováním řeči pro robustní automatické rozpoznávání řeči s velkým objemem trénovacích dat
Typ
smluvní výzkum
Klíčová slova
rozpoznávání řeči, odolnost, velký objem dat,
Abstrakt
Cílem společného výzkumu je vyvinout technologie parametrizace s obohacováním řeči pro robustní automatické rozpoznávání řeči s velkým objemem trénovacích dat v rámci spolupráce mezi VUT a NTT. Práce je založena na nízkodimenzionálních reprezentacích dat (embeddings) produkovaných neuronovými sítěmi v různých místech řetězce zpracování.
Řešitelé
Žmolíková Kateřina, Ing., Ph.D.
(UPGM FIT VUT)
, hlavní řešitel
Černocký Jan, prof. Dr. Ing. (UPGM FIT VUT) , spoluřešitel
Kocour Martin, Ing. (UPGM FIT VUT)
Švec Ján, Ing. (UPGM FIT VUT)
Černocký Jan, prof. Dr. Ing. (UPGM FIT VUT) , spoluřešitel
Kocour Martin, Ing. (UPGM FIT VUT)
Švec Ján, Ing. (UPGM FIT VUT)
Publikace
2021
- DELCROIX Marc, ŽMOLÍKOVÁ Kateřina, OCHIAI Tsubasa, KINOSHITA Keisuke a NAKATANI Tomohiro. Speaker activity driven neural speech extraction. In: ICASSP, IEEE International Conference on Acoustics, Speech and Signal Processing - Proceedings. Toronto: IEEE Signal Processing Society, 2021, s. 6099-6103. ISBN 978-1-7281-7605-5. Detail