Detail projektu
Teorie a aplikace odhadu posteriorních pravděpodobností fonémů ve zpracování řeči
Období řešení: 1. 1. 2009 - 31. 12. 2011
Typ projektu: grant
Kód: GP102/09/P635
Agentura: Grantová agentura České republiky
Program: Doktorské granty
zpracování řeči, rozpoznávání řeči, rozpoznávání fonémů, pravděpodobnostní parametry
Značná pozornost v základním výzkumu zpracování řeči je věnována odhadování posteriorních pravděpodobností diskrétních řečových jednotek - fonémů. Odhady se uplatňují v parametrizaci signálu (posterior features), fonotaktických modelech (rozpoznávání jazyka), ve tvorbě fonémových svazů pro vyhledávání klíčových slov i v dalších aplikacích. Cílem tohoto projektu je vytvořit rychlý a spolehlivý systém pro odhad posteriorních pravděpodobností fonémů, který umožní snížení chybovosti systémů využívajících takových odhadů. Projekt se bude věnovat parametrizaci, diskriminativním transformacím, architekturám klasifikátorů a technikám trénování. Kvalita bude vyhodnocována především v mezinárodních evaluacích organizovaných americkým Národním úřadem pro standardizaci a technologie NIST.
Kopecký Jiří, Bc. (FIT VUT) , spoluřešitel
Plchot Oldřich, Ing., Ph.D. (UPGM FIT VUT) , spoluřešitel
2012
- HAIN Thomas, BURGET Lukáš, DINES John, GARNER Phillip N., GRÉZL František, EL Hannani Asmaa, HUIJBREGTS Marijn, KARAFIÁT Martin, LINCOLN Mike a WAN Vincent. Transcribing Meetings with the AMIDA System. IEEE Transactions on Audio, Speech, and Language Processing, roč. 20, č. 2, 2012, s. 486-498. ISSN 1558-7916. Detail
2011
- VESELÝ Karel, KARAFIÁT Martin a GRÉZL František. Convolutive Bottleneck Network Features for LVCSR. In: Proceedings of ASRU 2011. Big Island, Hawaii: IEEE Signal Processing Society, 2011, s. 42-47. ISBN 978-1-4673-0366-8. Detail
- MIKOLOV Tomáš, DEORAS Anoop, KOMBRINK Stefan, BURGET Lukáš a ČERNOCKÝ Jan. Empirical Evaluation and Combination of Advanced Language Modeling Techniques. In: Proceedings of Interspeech 2011. Florence: International Speech Communication Association, 2011, s. 605-608. ISBN 978-1-61839-270-1. ISSN 1990-9772. Detail
- BOŘIL Hynek, GRÉZL František a HANSEN John H. Front-End Compensation Methods for LVCSR Under Lombard Effect. In: Proceedings of Interspeech 2011. Florence: International Speech Communication Association, 2011, s. 1257-1260. ISBN 978-1-61839-270-1. ISSN 1990-9772. Detail
- GRÉZL František a KARAFIÁT Martin. Integrating recent MLP feature extraction techniques into TRAP architecture. In: Proceedings of Interspeech 2011. Florence: International Speech Communication Association, 2011, s. 1229-1232. ISBN 978-1-61839-270-1. ISSN 1990-9772. Detail
- KOCKMANN Marcel, FERRER Luciana, BURGET Lukáš a ČERNOCKÝ Jan. iVector Fusion of Prosodic and Cepstral Features for Speaker Verification. In: Proceedings of Interspeech 2011. Florence: International Speech Communication Association, 2011, s. 265-268. ISBN 978-1-61839-270-1. ISSN 1990-9772. Detail
- KOMBRINK Stefan, MIKOLOV Tomáš, KARAFIÁT Martin a BURGET Lukáš. Recurrent Neural Network based Language Modeling in Meeting Recognition. In: Proceedings of Interspeech 2011. Florence: International Speech Communication Association, 2011, s. 2877-2880. ISBN 978-1-61839-270-1. ISSN 1990-9772. Detail
- GRÉZL František, KARAFIÁT Martin a JANDA Miloš. Study of Probabilistic and Bottle-Neck Features in Multilingual Environment. In: Proceedings of ASRU 2011. Hilton Waikoloa Village, Big Island, Hawaii: IEEE Signal Processing Society, 2011, s. 359-364. ISBN 978-1-4673-0366-8. Detail
- GRÉZL František. The Role of Neural Network Size in TRAP/HATS Feature Extraction. In: Proceedings Text, Speech and Dialogue 2011. LNAI 6836, roč. 2011. Plzeň: Springer Verlag, 2011, s. 315-322. ISBN 978-3-642-23537-5. ISSN 0302-9743. Detail
2010
- SZŐKE Igor, GRÉZL František, ČERNOCKÝ Jan a FAPŠO Michal. Acoustic keyword spotter - optimization from end-user perspective. In: Proceedings of the 2010 IEEE Spoken Language Technology Workshop. IEEE Catalog Number: CFP 10SLT-USB. Berkeley, California: IEEE Signal Processing Society, 2010, s. 177-181. ISBN 978-1-4244-7902-3. Detail
- GRÉZL František a KARAFIÁT Martin. Hierarchical Neural Net Architectures for Feature Extraction in ASR. In: Proceedings of the 11th Annual Conference of the International Speech Communication Association (INTERSPEECH 2010). Makuhari, Chiba: International Speech Communication Association, 2010, s. 1201-1204. ISBN 978-1-61782-123-3. ISSN 1990-9772. Detail
- HAIN Thomas, BURGET Lukáš, DINES John, GARNER Phillip N., EL Hannani Asmaa, HUIJBREGTS Marijn, KARAFIÁT Martin, LINCOLN Mike a WAN Vincent. The AMIDA 2009 Meeting Transcription System. In: Proceedings of the 11th Annual Conference of the International Speech Communication Association (INTERSPEECH 2010). Makuhari, Chiba: International Speech Communication Association, 2010, s. 358-361. ISBN 978-1-61782-123-3. ISSN 1990-9772. Detail
2009
- GRÉZL František a ČERNOCKÝ Jan. Audio Surveillance through Known Event Classification. Radioengineering, roč. 18, č. 4, 2009, s. 671-675. ISSN 1210-2512. Detail
- GRÉZL František, KARAFIÁT Martin a BURGET Lukáš. Investigation into bottle-neck features for meeting speech recognition. In: Proc. Interspeech 2009. Brighton: International Speech Communication Association, 2009, s. 2947-2950. ISBN 978-1-61567-692-7. ISSN 1990-9772. Detail