Výzkum užitečný pro společnost.
Detail projektu
Technologie zpracování řeči pro efektivní komunikaci člověk-počítač
Období řešení: 1. 1. 2011 - 31. 12. 2014
Typ projektu: grant
Kód: TA01011328
Agentura: Technologická agentura České republiky
Program: Program aplikovaného výzkumu a experimentálního vývoje ALFA
rozpoznávání řeči, elektronické slovníky, obrana a bezpečnost, mobilní zařízení, dialogové systémy, CRM, eLearning
Cílem projektu je vyvinout pokročilé techniky pro rozpoznávání řeči a nasadit je v praktických aplikacích: vyhledávání v elektronickém slovníku na mobilních zařízeních, diktování překladů, v bezpečnosti a obraně, v dialogových systémech, systémech péče o zákazníky (CRM, helpdesk apod.) a v audiovizuálním přístupu k výukovým materiálům.
Hannemann Mirko, Dipl.-Ing. (UPGM FIT VUT) , spoluřešitel
Heřmanský Hynek, prof. Ing., Dr.Eng. (UPGM FIT VUT) , spoluřešitel
Szőke Igor, Ing., Ph.D. (UPGM FIT VUT) , spoluřešitel
Žižka Josef, Ing. (UPGM FIT VUT) , spoluřešitel
Karafiát Martin, Ing., Ph.D. (UPGM FIT VUT)
Ondel Yang Lucas Antoine Francois, Mgr., Ph.D. (UPGM FIT VUT)
2015
- ONDEL Yang Lucas Antoine Francois, ANGUERA Xavier a LUQUE Jordi. MASK+: Data-driven regions selection for acoustic fingerprinting. In: Proceedings of 2015 IEEE International Conference on Acoustics, Speech and Signal Processing. South Brisbane, Queensland: IEEE Signal Processing Society, 2015, s. 335-339. ISBN 978-1-4673-6997-8. Detail
2014
- KARAFIÁT Martin, GRÉZL František, VESELÝ Karel, HANNEMANN Mirko, SZŐKE Igor a ČERNOCKÝ Jan. BUT 2014 Babel System: Analysis of adaptation in NN based systems. In: Proceedings of Interspeech 2014. Singapore: International Speech Communication Association, 2014, s. 3002-3006. ISBN 978-1-63439-435-2. Detail
- KARAFIÁT Martin, VESELÝ Karel, SZŐKE Igor, BURGET Lukáš, GRÉZL František, HANNEMANN Mirko a ČERNOCKÝ Jan. BUT ASR System for BABEL Surprise Evaluation 2014. In: Proceedings of 2014 Spoken Language Technology Workshop. South Lake Tahoe, Nevada: IEEE Signal Processing Society, 2014, s. 501-506. ISBN 978-1-4799-7129-9. Detail
- KARAFIÁT Martin, GRÉZL František, HANNEMANN Mirko a ČERNOCKÝ Jan. BUT Neural Network Features for Spontaneous Vietnamese in BABEL. In: Proceedings of ICASSP 2014. Florencie: IEEE Signal Processing Society, 2014, s. 5659-5663. ISBN 978-1-4799-2892-7. Detail
- GLEMBEK Ondřej, MA Jeff, MATĚJKA Pavel, ZHANG Bing, PLCHOT Oldřich, BURGET Lukáš a MATSOUKAS Spyros. Domain adaptation via within-class covariance correction in I-vector based speaker recognition systems. In: Proceedings of ICASSP 2014. Florencie: IEEE Signal Processing Society, 2014, s. 4060-4064. ISBN 978-1-4799-2892-7. Detail
- MARTÍNEZ González David, BURGET Lukáš, STAFYLAKIS Themos, LEI Yun, KENNY Patrick a LLEIDA Eduardo. Unscented Transform For Ivector-based Noisy Speaker Recognition. In: Proceedings of ICASSP 2014. Florencie: IEEE Signal Processing Society, 2014, s. 4070-4074. ISBN 978-1-4799-2892-7. Detail
2013
- LEI Yun, BURGET Lukáš a SCHEFFER Nicolas. A Noise Robust I-Vector Extractor Using Vector Taylor Series For Speaker Recognition. In: Proceedings of ICASSP 2013. Vancouver: IEEE Signal Processing Society, 2013, s. 6788-6791. ISBN 978-1-4799-0355-9. Detail
- RATH Shakti P., BURGET Lukáš, KARAFIÁT Martin, GLEMBEK Ondřej a ČERNOCKÝ Jan. A Region-specific Feature-space Transformation for Speaker Adaptation and Singularity Analysis of Jacobian Matrix. In: Proceedings of Interspeeech 2013. Lyon: International Speech Communication Association, 2013, s. 1228-1232. ISBN 978-1-62993-443-3. ISSN 2308-457X. Detail
- PLCHOT Oldřich, MATSOUKAS Spyros, MATĚJKA Pavel, DEHAK Najim, MA Jeff, CUMANI Sandro, GLEMBEK Ondřej, HEŘMANSKÝ Hynek, MESGARANI Nima, SOUFIFAR Mehdi Mohammad, THOMAS Samuel, ZHANG Bing a ZHOU Xinhui a kol. Developing A Speaker Identification System For The DARPA RATS Project. In: Proceedings of ICASSP 2013. Vancouver: IEEE Signal Processing Society, 2013, s. 6768-6772. ISBN 978-1-4799-0355-9. Detail
- RATH Shakti P., POVEY Daniel, VESELÝ Karel a ČERNOCKÝ Jan. Improved Feature Processing for Deep Neural Networks. In: Proceedings of Interspeech 2013. Lyon: International Speech Communication Association, 2013, s. 109-113. ISBN 978-1-62993-443-3. ISSN 2308-457X. Detail
- EGOROVA Ekaterina, VESELÝ Karel, KARAFIÁT Martin, JANDA Miloš a ČERNOCKÝ Jan. Manual and Semi-Automatic Approaches to Building a Multilingual Phoneme Set. In: Proceedings of ICASSP 2013. Vancouver: IEEE Signal Processing Society, 2013, s. 7324-7328. ISBN 978-1-4799-0355-9. Detail
2012
- RATH Shakti P., KARAFIÁT Martin, GLEMBEK Ondřej a ČERNOCKÝ Jan. A factorized representation of FMLLR transform based on QR-decomposition. In: Proceedings of Interspeech 2012. Portland, Oregon: International Speech Communication Association, 2012, s. 1-4. ISBN 978-1-62276-759-5. ISSN 1990-9772. Detail
- DEORAS Anoop, MIKOLOV Tomáš, KOMBRINK Stefan a CHURCH Kenneth. Approximate inference: A sampling based modeling technique to capture complex dependencies in a language model. Speech Communication, roč. 2012, č. 8, s. 1-16. ISSN 0167-6393. Detail
- SZŐKE Igor, FAPŠO Michal a VESELÝ Karel. BUT2012 Approaches for Spoken Web Search - MediaEval 2012. In: Working Notes Proceedings of the MediaEval 2012 Workshop. Pisa: CEUR-WS.org, 2012, s. 1-2. ISSN 1613-0073. Detail
- SOUFIFAR Mehdi Mohammad, CUMANI Sandro, BURGET Lukáš a ČERNOCKÝ Jan. Discriminative Classifiers for Phonotactic Language Recognition with iVectors. In: Proc. International Conference on Acoustics, Speech, and Signal Processing 2012. Kyoto: IEEE Signal Processing Society, 2012, s. 4853-4856. ISBN 978-1-4673-0044-5. Detail
- SZŐKE Igor, FAPŠO Michal, ŽIŽKA Josef, BERAN Vítězslav a ČERNOCKÝ Jan. Efektivní přístup ke znalostem v audio-vizuálních záznamech. In: Proceedings of the Annual Database Conference. Praha: Technická univerzita v Košiciach, 2012, s. 57-74. ISBN 978-80-553-1049-7. Detail
- POVEY Daniel, HANNEMANN Mirko, BOULIANNE Gilles, BURGET Lukáš, GHOSHAL Arnab, JANDA Miloš, KARAFIÁT Martin, KOMBRINK Stefan, MOTLÍČEK Petr, QIAN Yanmin, RIEDHAMMER Korbinian, VESELÝ Karel a VU Ngoc Thang. Generating Exact Lattices in The WFST Framework. In: Proceedings of 2012 IEEE International Conference on Acoustics, Speech and Signal Processing. Kyoto: IEEE Signal Processing Society, 2012, s. 4213-4216. ISBN 978-1-4673-0044-5. Detail
- KOMBRINK Stefan, MIKOLOV Tomáš, KARAFIÁT Martin a BURGET Lukáš. Improving Language Models for ASR Using Translated In-domain Data. In: Proceedings of 2012 IEEE International Conference on Acoustics, Speech and Signal Processing. Kyoto: IEEE Signal Processing Society, 2012, s. 4405-4408. ISBN 978-1-4673-0044-5. Detail
- CUMANI Sandro, PLCHOT Oldřich a KARAFIÁT Martin. Independent Component Analysis and MLLR Transforms for Speaker Identification. In: Proc. International Conference on Acoustics, Speech, and Signal P. Kyoto: IEEE Signal Processing Society, 2012, s. 4365-4368. ISBN 978-1-4673-0044-5. Detail
- KARAFIÁT Martin, JANDA Miloš, ČERNOCKÝ Jan a BURGET Lukáš. Region Dependent Linear Transforms in Multilingual Speech Recognition. In: Proc. International Conference on Acoustics, Speech, and Signal Processing 2012. Kyoto: IEEE Signal Processing Society, 2012, s. 4885-4888. ISBN 978-1-4673-0044-5. Detail
- VESELÝ Karel, KARAFIÁT Martin, GRÉZL František, JANDA Miloš a EGOROVA Ekaterina. The Language-Independent Bottleneck Features. In: Proceedings of IEEE 2012 Workshop on Spoken Language Technology. Miami: IEEE Signal Processing Society, 2012, s. 336-341. ISBN 978-1-4673-5124-9. Detail
2011
- DEORAS Anoop, MIKOLOV Tomáš a CHURCH Kenneth. A Fast Re-scoring Strategy to Capture Long-Distance Dependencies. In: Proceedings of the 2011 Conference on Empirical Methods in Natural Language Processing July 2011 Edinburgh, Scotland, UK. Edinburgh: Association for Computational Linguistics, 2011, s. 1116-1127. ISBN 978-1-937284-11-4. Detail
- VESELÝ Karel, KARAFIÁT Martin a GRÉZL František. Convolutive Bottleneck Network Features for LVCSR. In: Proceedings of ASRU 2011. Big Island, Hawaii: IEEE Signal Processing Society, 2011, s. 42-47. ISBN 978-1-4673-0366-8. Detail
- MIKOLOV Tomáš, DEORAS Anoop, KOMBRINK Stefan, BURGET Lukáš a ČERNOCKÝ Jan. Empirical Evaluation and Combination of Advanced Language Modeling Techniques. In: Proceedings of Interspeech 2011. Florence: International Speech Communication Association, 2011, s. 605-608. ISBN 978-1-61839-270-1. ISSN 1990-9772. Detail
- GRÉZL František a KARAFIÁT Martin. Integrating recent MLP feature extraction techniques into TRAP architecture. In: Proceedings of Interspeech 2011. Florence: International Speech Communication Association, 2011, s. 1229-1232. ISBN 978-1-61839-270-1. ISSN 1990-9772. Detail
- KARAFIÁT Martin, BURGET Lukáš, MATĚJKA Pavel, GLEMBEK Ondřej a ČERNOCKÝ Jan. iVector-Based Discriminative Adaptation for Automatic Speech Recognition. In: Proceedings of ASRU 2011. Hilton Waikoloa Village, Big Island, Hawaii: IEEE Signal Processing Society, 2011, s. 152-157. ISBN 978-1-4673-0366-8. Detail
- KOMBRINK Stefan, MIKOLOV Tomáš, KARAFIÁT Martin a BURGET Lukáš. Recurrent Neural Network based Language Modeling in Meeting Recognition. In: Proceedings of Interspeech 2011. Florence: International Speech Communication Association, 2011, s. 2877-2880. ISBN 978-1-61839-270-1. ISSN 1990-9772. Detail
- MIKOLOV Tomáš, KOMBRINK Stefan, DEORAS Anoop, BURGET Lukáš a ČERNOCKÝ Jan. RNNLM - Recurrent Neural Network Language Modeling Toolkit. In: Proceedings of ASRU 2011. Hilton Waikoloa Village, Big Island, Hawaii: IEEE Signal Processing Society, 2011, s. 1-4. ISBN 978-1-4673-0366-8. Detail
- MIKOLOV Tomáš, DEORAS Anoop, POVEY Daniel, BURGET Lukáš a ČERNOCKÝ Jan. Strategies for Training Large Scale Neural Network Language Models. In: Proceedings of ASRU 2011. Hilton Waikoloa Village, Big Island, Hawaii: IEEE Signal Processing Society, 2011, s. 196-201. ISBN 978-1-4673-0366-8. Detail
- POVEY Daniel, GHOSHAL Arnab, BOULIANNE Gilles, BURGET Lukáš, GLEMBEK Ondřej, GOEL Nagendra K., HANNEMANN Mirko, MOTLÍČEK Petr, QIAN Yanmin, SCHWARZ Petr, SILOVSKÝ Jan, STEMMER Georg a VESELÝ Karel. The Kaldi Speech Recognition Toolkit. In: Proceedings of ASRU 2011. Hilton Waikoloa Village Resort, Hawaii: IEEE Signal Processing Society, 2011, s. 1-4. ISBN 978-1-4673-0366-8. Detail
- GRÉZL František. The Role of Neural Network Size in TRAP/HATS Feature Extraction. In: Proceedings Text, Speech and Dialogue 2011. LNAI 6836, roč. 2011. Plzeň: Springer Verlag, 2011, s. 315-322. ISBN 978-3-642-23537-5. ISSN 0302-9743. Detail
2014
- Audiovizuální prohlížeč přednášek, prototyp, 2014
Autoři: Žižka Josef, Szőke Igor, Fapšo Michal Detail
2012
- KALDI toolkit pro rozpoznávání řeči, software, 2012
Autoři: Povey Daniel, Ghoshal Arnab, Boulianne Gilles, Burget Lukáš, Glembek Ondřej, Goel Nagendra K., Hannemann Mirko, Motlíček Petr, Qian Yanmin, Schwarz Petr, Silovský Jan, Stemmer Georg, Veselý Karel Detail