Detail projektu
Neural Representations in multi-modal and multi-lingual modeling
Období řešení: 1. 1. 2019 - 31. 12. 2023
Typ projektu: grant
Kód: GX19-26934X
Agentura: Grantová agentura České republiky
Program: Grantové projekty exelence v základním výzkumu EXPRO - 2019
hluboké strojové učení;neuronové sítě;spojité reprezentace;zpracování přirozeného jazyka;zpracování řeči a textu;strojový překlad; multimodalita;mnohojazyčnost
Projekt NEUREM3 spojuje základní výzkum v oblasti zpracování mluvené řeči (speech processing, SP) a přirozeného jazyka (natural language processing, NLP) s důrazem na vícejazyčnost a multi-modalitu (zpracování řeči a textu s podporou obrazové informace). V jádru současných metod hlubokého strojového učení leží spojité vektorové reprezentace, které si neuronové samy budují během trénování. Ačkoli empiricky dosahují neuronové sítě často vynikajících výsledků, znalosti a pochopení získaných reprezentací jsou nedostatečné. NEUREM3 má ambici tuto mezeru vyplnit a studovat neuronové reprezentace pro jednotky textu a řeči různého rozsahu (od fonémů a písmen až po proslovy a dokumenty) a reprezentace získané pro izolované úlohy i více úloh současně (multi-tasking). NEUREM3 vylepší architektury i techniky trénování neuronových sítí, aby je bylo možné trénovat je na neúplných nebo nekoherentních datech.
Karafiát Martin, Ing., Ph.D. (UPGM FIT VUT) , spoluřešitel
Veselý Karel, Ing., Ph.D. (UPGM FIT VUT) , spoluřešitel
Baskar Murali K. (UPGM FIT VUT)
Beneš Karel, Ing. (UPGM FIT VUT)
2021
- LANDINI Federico Nicolás, LOZANO Díez Alicia, BURGET Lukáš, DIEZ Sánchez Mireia, SILNOVA Anna, ŽMOLÍKOVÁ Kateřina, GLEMBEK Ondřej, MATĚJKA Pavel, STAFYLAKIS Themos a BRUMMER Niko. BUT System Description for The Third DIHARD Speech Diarization Challenge. In: Proceedings available at Dihard Challenge Github. on-line by LDC and University of Pennsylvania, 2021, s. 1-5. Detail
2020
- MATĚJKA Pavel, PLCHOT Oldřich, GLEMBEK Ondřej, BURGET Lukáš, ROHDIN Johan A., ZEINALI Hossein, MOŠNER Ladislav, SILNOVA Anna, NOVOTNÝ Ondřej, DIEZ Sánchez Mireia a ČERNOCKÝ Jan. 13 years of speaker recognition research at BUT, with longitudinal analysis of NIST SRE. Computer Speech and Language, roč. 2020, č. 63, s. 1-15. ISSN 0885-2308. Detail
- ALAM Jahangir, BOULIANNE Gilles, BURGET Lukáš, DAHMANE Mohamed, DIEZ Sánchez Mireia, GLEMBEK Ondřej, LALONDE Marc, LOZANO Díez Alicia, MATĚJKA Pavel, MIZERA Petr, MOŠNER Ladislav, NOISEUX Cédric, MONTEIRO Joao, NOVOTNÝ Ondřej, PLCHOT Oldřich, ROHDIN Johan A., SILNOVA Anna, SLAVÍČEK Josef, STAFYLAKIS Themos, ST-CHARLES Pierre-Luc, WANG Shuai a ZEINALI Hossein. Analysis of ABC Submission to NIST SRE 2019 CMN and VAST Challenge. In: Proceedings of Odyssey 2020 The Speaker and Language Recognition Workshop. Tokyo: International Speech Communication Association, 2020, s. 289-295. ISSN 2312-2846. Detail
- DIEZ Sánchez Mireia, BURGET Lukáš, LANDINI Federico Nicolás a ČERNOCKÝ Jan. Analysis of Speaker Diarization based on Bayesian HMM with Eigenvoice Priors. IEEE/ACM TRANSACTIONS ON AUDIO, SPEECH AND LANGUAGE PROCESSING, roč. 28, č. 1, s. 355-368. ISSN 2329-9290. Detail
- ZULUAGA-GOMEZ Juan, MOTLÍČEK Petr, ZHAN Qingran, VESELÝ Karel a BRAUN Rudolf. Automatic Speech Recognition Benchmark for Air-Traffic Communications. In: Proceedings of Interspeech 2020. Sanghai: International Speech Communication Association, 2020, s. 2297-2301. ISSN 1990-9772. Detail
- BURGET Lukáš, GLEMBEK Ondřej, LOZANO Díez Alicia, MATĚJKA Pavel, NOVOTNÝ Ondřej, PLCHOT Oldřich, PULUGUNDLA Bhargav, ROHDIN Johan A., SILNOVA Anna a VESELÝ Karel. BUT System Description to SdSV Challenge 2020. In: Proceedings of Short-duration Speaker Verification Challenge 2020 Workshop. Shanghai, on-line event of Interspeech 2020 Conference, 2020, s. 1-5. Detail
- LOZANO Díez Alicia, SILNOVA Anna, PULUGUNDLA Bhargav, ROHDIN Johan A., VESELÝ Karel, BURGET Lukáš, PLCHOT Oldřich, GLEMBEK Ondřej, NOVOTNÝ Ondřej a MATĚJKA Pavel. BUT Text-Dependent Speaker Verification System for SdSV Challenge 2020. In: Proceedings of the Annual Conference of the International Speech Communication Association, INTERSPEECH. Sanghai: International Speech Communication Association, 2020, s. 761-765. ISSN 1990-9772. Detail
- WANG Shuai, ROHDIN Johan A., PLCHOT Oldřich, BURGET Lukáš, YU Kai a ČERNOCKÝ Jan. Investigation of Specaugment for Deep Speaker Embedding Learning. In: ICASSP, IEEE International Conference on Acoustics, Speech and Signal Processing - Proceedings. Barcelona: IEEE Signal Processing Society, 2020, s. 7139-7143. ISBN 978-1-5090-6631-5. Detail
- SILNOVA Anna, BRUMMER Niko, ROHDIN Johan A., STAFYLAKIS Themos a BURGET Lukáš. Probabilistic embeddings for speaker diarization. In: Proceedings of Odyssey 2020 The Speaker and Language Recognition Workshop. Tokyo: International Speech Communication Association, 2020, s. 24-31. ISSN 2312-2846. Detail
2019
- ZEINALI Hossein, ČERNOCKÝ Jan a BURGET Lukáš. A multi purpose and large scale speech corpus in Persian and English for speaker and speech Recognition: the DeepMine database. In: IEEE Automatic Speech Recognition and Understanding Workshop - Proceedings (ASRU). Sentosa, Singapore: IEEE Signal Processing Society, 2019, s. 397-402. ISBN 978-1-7281-0306-8. Detail
- ALAM Jahangir, BOULIANNE Gilles, BURGET Lukáš, GLEMBEK Ondřej, LOZANO Díez Alicia, MATĚJKA Pavel, MIZERA Petr, MOŠNER Ladislav, NOVOTNÝ Ondřej, PLCHOT Oldřich, ROHDIN Johan A., SILNOVA Anna, SLAVÍČEK Josef, STAFYLAKIS Themos, WANG Shuai, ZEINALI Hossein, DAHMANE Mohamed, ST-CHARLES Pierre-Luc, LALONDE Marc, NOISEUX Cédric a MONTEIRO Joao. ABC System Description for NIST Multimedia Speaker Recognition Evaluation 2019. In: Proceedings of NIST 2019 SRE Workshop. Sentosa, Singapore: National Institute of Standards and Technology, 2019, s. 1-7. Detail
- MATĚJKA Pavel, PLCHOT Oldřich, ZEINALI Hossein, MOŠNER Ladislav, SILNOVA Anna, BURGET Lukáš, NOVOTNÝ Ondřej a GLEMBEK Ondřej. Analysis of BUT Submission in Far-Field Scenarios of VOiCES 2019 Challenge. In: Proceedings of Interspeech. Graz: International Speech Communication Association, 2019, s. 2448-2452. ISSN 1990-9772. Detail
- NOVOTNÝ Ondřej, PLCHOT Oldřich, GLEMBEK Ondřej, ČERNOCKÝ Jan a BURGET Lukáš. Analysis of DNN Speech Signal Enhancement for Robust Speaker Recognition. Computer Speech and Language, roč. 2019, č. 58, s. 403-421. ISSN 0885-2308. Detail
- DIEZ Sánchez Mireia, BURGET Lukáš, WANG Shuai, ROHDIN Johan A. a ČERNOCKÝ Jan. Bayesian HMM based x-vector clustering for Speaker Diarization. In: Proceedings of Interspeech. Graz: International Speech Communication Association, 2019, s. 346-350. ISSN 1990-9772. Detail
- ONDEL Lucas Antoine Francois, VYDANA Hari K., BURGET Lukáš a ČERNOCKÝ Jan. Bayesian Subspace Hidden Markov Model for Acoustic Unit Discovery. In: Proceedings of Interspeech 2019. Graz: International Speech Communication Association, 2019, s. 261-265. ISSN 1990-9772. Detail
- ZEINALI Hossein, WANG Shuai, SILNOVA Anna, MATĚJKA Pavel a PLCHOT Oldřich. BUT System Description to VoxCeleb Speaker Recognition Challenge 2019. In: Proceedings of The VoxCeleb Challange Workshop 2019. Graz, 2019, s. 1-4. Detail
- ROHDIN Johan A., SILNOVA Anna, DIEZ Sánchez Mireia, PLCHOT Oldřich, MATĚJKA Pavel, BURGET Lukáš a GLEMBEK Ondřej. End-to-end DNN based text-independent speaker recognition for long and short utterances. Computer Speech and Language, roč. 2020, č. 59, s. 22-35. ISSN 0885-2308. Detail
- NOVOTNÝ Ondřej, PLCHOT Oldřich, GLEMBEK Ondřej a BURGET Lukáš. Factorization of Discriminatively Trained i-Vector Extractor for Speaker Recognition. In: Proceedings of Interspeech. Graz: International Speech Communication Association, 2019, s. 4330-4334. ISSN 1990-9772. Detail
- WANG Shuai, ROHDIN Johan A., BURGET Lukáš, PLCHOT Oldřich, QIAN Yanmin, YU Kai a ČERNOCKÝ Jan. On the Usage of Phonetic Information for Text-independent Speaker Embedding Extraction. In: Proceedings of Interspeech. Graz: International Speech Communication Association, 2019, s. 1148-1152. ISSN 1990-9772. Detail
- STAFYLAKIS Themos, ROHDIN Johan A., PLCHOT Oldřich, MIZERA Petr a BURGET Lukáš. Self-supervised speaker embeddings. In: Proceedings of Interspeech. Graz: International Speech Communication Association, 2019, s. 2863-2867. ISSN 1990-9772. Detail
- ŽMOLÍKOVÁ Kateřina, DELCROIX Marc, KINOSHITA Keisuke, OCHIAI Tsubasa, NAKATANI Tomohiro, BURGET Lukáš a ČERNOCKÝ Jan. SpeakerBeam: Speaker Aware Neural Network for Target Speaker Extraction in Speech Mixtures. IEEE Journal of Selected Topics in Signal Processing, roč. 13, č. 4, s. 800-814. ISSN 1932-4553. Detail
2020
- Bayesovské shlukování x-vektorů založené na HMM - VBx, software, 2020
Autoři: Diez Sánchez Mireia, Landini Federico Nicolás, Burget Lukáš Detail