Detail projektu
NTT - Speech enhancement front-end for robust automatic speech recognition with large amount of training data
Období řešení: 1. 10. 2017 - 30. 9. 2018
Typ projektu: smluvní výzkum
Objednatel: NTT Corporation
Název česky
NTT - Parametrizace s obohacováním řeči pro robustní automatické rozpoznávání řeči s velkým objemem trénovacích dat
Typ
smluvní výzkum
Klíčová slova
rozpoznávání řeči, odolnost, velký objem dat,
Abstrakt
Cílem společného výzkumu je vyvinout technologie parametrizace s obohacováním řeči pro robustní automatické rozpoznávání řeči s velkým objemem trénovacích dat v rámci spolupráce mezi VUT a NTT. Práce je založena na nízkodimenzionálních reprezentacích dat (embeddings) produkovaných neuronovými sítěmi v různých místech řetězce zpracování.
Řešitelé
Žmolíková Kateřina, Ing., Ph.D.
(UPGM FIT VUT)
, hlavní řešitel
Černocký Jan, prof. Dr. Ing. (UPGM FIT VUT) , spoluřešitel
Černocký Jan, prof. Dr. Ing. (UPGM FIT VUT) , spoluřešitel
Publikace
2018
- ROHDIN Johan A., SILNOVA Anna, DIEZ Sánchez Mireia, PLCHOT Oldřich, MATĚJKA Pavel a BURGET Lukáš. End-to-End DNN Based Speaker Recognition Inspired by i-Vector and PLDA. In: Proceedings of ICASSP. Calgary: IEEE Signal Processing Society, 2018, s. 4874-4878. ISBN 978-1-5386-4658-8. Detail
- DELCROIX Marc, ŽMOLÍKOVÁ Kateřina, KINOSHITA Keisuke, OGAWA Atsunori a NAKATANI Tomohiro. Single Channel Target Speaker Extraction and Recognition with Speaker Beam. In: Proceedings of ICASSP 2018. Calgary: IEEE Signal Processing Society, 2018, s. 5554-5558. ISBN 978-1-5386-4658-8. Detail
- DELCROIX Marc, ŽMOLÍKOVÁ Kateřina, KINOSHITA Keisuke, ARAKI Shoko, OGAWA Atsunori a NAKATANI Tomohiro. SpeakerBeam: A New Deep Learning Technology for Extracting Speech of a Target Speaker Based on the Speaker's Voice Characteristics. NTT Technical Review, roč. 16, č. 11, 2018, s. 19-24. ISSN 1348-3447. Detail
2017
- ŽMOLÍKOVÁ Kateřina, DELCROIX Marc, KINOSHITA Keisuke, HIGUCHI Takuya, OGAWA Atsunori a NAKATANI Tomohiro. Learning Speaker Representation for Neural Network Based Multichannel Speaker Extraction. In: Proceedings of ASRU 2017. Okinawa: IEEE Signal Processing Society, 2017, s. 8-15. ISBN 978-1-5090-4788-8. Detail
- ŽMOLÍKOVÁ Kateřina. Summary report of project "Speech enhancement front-end for robust automatic speech recognition with large amount of training data" for Year 2017. Brno: NTT Corporation, 2017. Detail