Detail projektu
Robustní zpracování nahrávek pro operativu a bezpečnost
Období řešení: 1. 10. 2020 - 30. 9. 2025
Typ projektu: grant
Kód: VJ01010108
Agentura: Ministerstvo vnitra České republiky
Program: PROGRAM STRATEGICKÁ PODPORA ROZVOJE BEZPEČNOSTNÍHO VÝZKUMU ČR 2019-2025 (IMPAKT 1) PODPROGRAMU 1 SPOLEČNÉ VÝZKUMNÉ PROJEKTY (BV IMP1/1VS)
rozpoznávání řeči, robustní, nahrávky, operativa, bezpečnost
Cílem projektu je zvýšení kompetencí, sjednocení a větší koordinace dvou předních českých výzkumných pracovišť, v oboru dolování informací z řeči z reálných nahrávek pro oblast bezpečnosti a úzká spolupráce s bezpečnostními sbory na uvádění výsledků výzkumu do praxe vyšetřování a zpravodajství. Tento cíl zahrnuje posun v robustním automatickém rozpoznávání řeči (ASR), trénování/adaptaci ASR pro různá prostředí, určení kdy kdo mluví v nahrávce (diarizace) a výzkum prohledávání nahrávek pomocí akustických dotazů (Query by Example)
Diez Sánchez Mireia, M.Sc., Ph.D. (UPGM FIT VUT) , spoluřešitel
Matějka Pavel, Ing., Ph.D. (UPGM FIT VUT) , spoluřešitel
Szőke Igor, Ing., Ph.D. (UPGM FIT VUT) , spoluřešitel
Beneš Karel, Ing. (UPGM FIT VUT)
Brukner Jan, Ing. (UPGM FIT VUT)
Kesiraju Santosh (UPGM FIT VUT)
Malenovský Vladimír, Ing., Ph.D. (UPGM FIT VUT)
Mošner Ladislav, Ing. (UPGM FIT VUT)
Pálka Petr, Bc. (UPGM FIT VUT)
Plchot Oldřich, Ing., Ph.D. (UPGM FIT VUT)
Schwarz Petr, Ing., Ph.D. (UPGM FIT VUT)
Silnova Anna, MSc., Ph.D. (UPGM FIT VUT)
Švec Ján, Ing. (UPGM FIT VUT)
Veselý Karel, Ing., Ph.D. (UPGM FIT VUT)
2024
- HAN Jiangyu, LANDINI Federico Nicolás, ROHDIN Johan A., DIEZ Sánchez Mireia, BURGET Lukáš, CAO Yuhang, LU Heng a ČERNOCKÝ Jan. Diacorrect: Error Correction Back-End for Speaker Diarization. In: ICASSP 2024 - 2024 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP). Seoul: IEEE Signal Processing Society, 2024, s. 11181-11185. ISBN 979-8-3503-4485-1. Detail
- LANDINI Federico Nicolás, DIEZ Sánchez Mireia, STAFYLAKIS Themos a BURGET Lukáš. DiaPer: End-to-End Neural Diarization With Perceiver-Based Attractors. IEEE Transactions on Audio, Speech, and Language Processing, roč. 32, č. 7, 2024, s. 3450-3465. ISSN 1558-7916. Detail
- KLEMENT Dominik, DIEZ Sánchez Mireia, LANDINI Federico Nicolás, BURGET Lukáš, SILNOVA Anna, DELCROIX Marc a TAWARA Naohiro. Discriminative Training of VBx Diarization. In: ICASSP, IEEE International Conference on Acoustics, Speech and Signal Processing - Proceedings. Seoul: IEEE Signal Processing Society, 2024, s. 11871-11875. ISBN 979-8-3503-4485-1. Detail
2023
- SILNOVA Anna, SLAVÍČEK Josef, MOŠNER Ladislav, KLČO Michal, PLCHOT Oldřich, MATĚJKA Pavel, PENG Junyi, STAFYLAKIS Themos a BURGET Lukáš. ABC System Description for NIST LRE 2022. In: Proceedings of NIST LRE 2022 Workshop. Washington DC: National Institute of Standards and Technology, 2023, s. 1-5. Detail
- MATĚJKA Pavel, SILNOVA Anna, SLAVÍČEK Josef, MOŠNER Ladislav, PLCHOT Oldřich, KLČO Michal, PENG Junyi, STAFYLAKIS Themos a BURGET Lukáš. Description and Analysis of ABC Submission to NIST LRE 2022. In: Proceedings of the Annual Conference of the International Speech Communication Association, INTERSPEECH. Dublin: International Speech Communication Association, 2023, s. 511-515. ISSN 1990-9772. Detail
- STAFYLAKIS Themos, MOŠNER Ladislav, KAKOUROS Sofoklis, PLCHOT Oldřich, BURGET Lukáš a ČERNOCKÝ Jan. Extracting speaker and emotion information from self-supervised speech models via channel-wise correlations. In: 2022 IEEE Spoken Language Technology Workshop, SLT 2022 - Proceedings. Doha: IEEE Signal Processing Society, 2023, s. 1136-1143. ISBN 978-1-6654-7189-3. Detail
- MOŠNER Ladislav, PLCHOT Oldřich, PENG Junyi, BURGET Lukáš a ČERNOCKÝ Jan. Multi-Channel Speech Separation with Cross-Attention and Beamforming. In: Proceedings of the Annual Conference of the International Speech Communication Association, INTERSPEECH. Dublin: International Speech Communication Association, 2023, s. 1693-1697. ISSN 1990-9772. Detail
- LANDINI Federico Nicolás, DIEZ Sánchez Mireia, LOZANO Díez Alicia a BURGET Lukáš. Multi-Speaker and Wide-Band Simulated Conversations as Training Data for End-to-End Neural Diarization. In: Proceedings of ICASSP 2023. Rhodes Island: IEEE Signal Processing Society, 2023, s. 1-5. ISBN 978-1-7281-6327-7. Detail
- PENG Junyi, STAFYLAKIS Themos, GU Rongzhi, PLCHOT Oldřich, MOŠNER Ladislav, BURGET Lukáš a ČERNOCKÝ Jan. Parameter-Efficient Transfer Learning of Pre-Trained Transformer Models for Speaker Verification Using Adapters. In: ICASSP, IEEE International Conference on Acoustics, Speech and Signal Processing - Proceedings. Rhodes Island: IEEE Signal Processing Society, 2023, s. 1-5. ISBN 978-1-7281-6327-7. Detail
- KAKOUROS Sofoklis, STAFYLAKIS Themos, MOŠNER Ladislav a BURGET Lukáš. Speech-Based Emotion Recognition with Self-Supervised Models Using Attentive Channel-Wise Correlations and Label Smoothing. In: Proceedings of ICASSP 2023. Rhodes Island: IEEE Signal Processing Society, 2023, s. 1-5. ISBN 978-1-7281-6327-7. Detail
2022
- SILNOVA Anna, STAFYLAKIS Themos, MOŠNER Ladislav, PLCHOT Oldřich, ROHDIN Johan A., MATĚJKA Pavel, BURGET Lukáš, GLEMBEK Ondřej a BRUMMER Johan Nikolaas Langenhoven. Analyzing speaker verification embedding extractors and back-ends under language and channel mismatch. In: Proceedings of The Speaker and Language Recognition Workshop (Odyssey 2022). Beijing: International Speech Communication Association, 2022, s. 9-16. Detail
- KOCOUR Martin, UMESH Jahnavi, KARAFIÁT Martin, ŠVEC Ján, LOPEZ Fernando, BENEŠ Karel, DIEZ Sánchez Mireia, SZŐKE Igor, LUQUE Jordi, VESELÝ Karel, BURGET Lukáš a ČERNOCKÝ Jan. BCN2BRNO: ASR System Fusion for Albayzin 2022 Speech to Text Challenge. In: Proceedings of IberSpeech 2022. Granada: International Speech Communication Association, 2022, s. 276-280. Detail
- ALAM Jahangir, BURGET Lukáš, GLEMBEK Ondřej, MATĚJKA Pavel, MOŠNER Ladislav, PLCHOT Oldřich, ROHDIN Johan A., SILNOVA Anna a STAFYLAKIS Themos a kol. Development of ABC systems for the 2021 edition of NIST Speaker Recognition evaluation. In: Proceedings of The Speaker and Language Recognition Workshop (Odyssey 2022). Beijing: International Speech Communication Association, 2022, s. 346-353. Detail
- LANDINI Federico Nicolás, LOZANO Díez Alicia, DIEZ Sánchez Mireia a BURGET Lukáš. From Simulated Mixtures to Simulated Conversations as Training Data for End-to-End Neural Diarization. In: Proceedings of the Annual Conference of the International Speech Communication Association, INTERSPEECH. Incheon: International Speech Communication Association, 2022, s. 5095-5099. ISSN 1990-9772. Detail
- MOŠNER Ladislav, PLCHOT Oldřich, BURGET Lukáš a ČERNOCKÝ Jan. Multi-Channel Speaker Verification with Conv-Tasnet Based Beamformer. In: ICASSP, IEEE International Conference on Acoustics, Speech and Signal Processing - Proceedings. Singapore: IEEE Signal Processing Society, 2022, s. 7982-7986. ISBN 978-1-6654-0540-9. Detail
- MOŠNER Ladislav, PLCHOT Oldřich, BURGET Lukáš a ČERNOCKÝ Jan. Multisv: Dataset for Far-Field Multi-Channel Speaker Verification. In: ICASSP, IEEE International Conference on Acoustics, Speech and Signal Processing - Proceedings. Singapore: IEEE Signal Processing Society, 2022, s. 7977-7981. ISBN 978-1-6654-0540-9. Detail
- BRUMMER Johan Nikolaas Langenhoven, SWART Albert du Preez, MOŠNER Ladislav, SILNOVA Anna, PLCHOT Oldřich, STAFYLAKIS Themos a BURGET Lukáš. Probabilistic Spherical Discriminant Analysis: An Alternative to PLDA for length-normalized embeddings. In: Proceedings of the Annual Conference of the International Speech Communication Association, INTERSPEECH. Incheon: International Speech Communication Association, 2022, s. 1446-1450. ISSN 1990-9772. Detail
- STAFYLAKIS Themos, MOŠNER Ladislav, PLCHOT Oldřich, ROHDIN Johan A., SILNOVA Anna, BURGET Lukáš a ČERNOCKÝ Jan. Training Speaker Embedding Extractors Using Multi-Speaker Audio with Unknown Speaker Boundaries. In: Proceedings of the Annual Conference of the International Speech Communication Association, INTERSPEECH. Incheon: International Speech Communication Association, 2022, s. 605-609. ISSN 1990-9772. Detail
2021
- LANDINI Federico Nicolás, GLEMBEK Ondřej, MATĚJKA Pavel, ROHDIN Johan A., BURGET Lukáš, DIEZ Sánchez Mireia a SILNOVA Anna. Analysis of the BUT Diarization System for Voxconverse Challenge. In: ICASSP 2021 - 2021 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP). Toronto, Ontario: IEEE Signal Processing Society, 2021, s. 5819-5823. ISBN 978-1-7281-7605-5. Detail
- KARAFIÁT Martin, VESELÝ Karel, ČERNOCKÝ Jan, PROFANT Ján, NYTRA Jiří, HLAVÁČEK Miroslav a PAVLÍČEK Tomáš. Analysis of X-Vectors for Low-Resource Speech Recognition. In: ICASSP 2021 - 2021 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP). Toronto, Ontario: IEEE Signal Processing Society, 2021, s. 6998-7002. ISBN 978-1-7281-7605-5. Detail
2023
- SW3 ASR pro akusticky náročná prostředí, software, 2023
Autoři: Šmídl Luboš, Karafiát Martin, Švec Jan, Lehečka Jan, Mošner Ladislav, Brukner Jan Detail
2022
- SW2 Robustní diarizace, software, 2022
Autoři: Karafiát Martin, Diez Sánchez Mireia, Švec Jan, Černocký Jan, Szőke Igor, Šmídl Luboš, Zajíc Zbyněk Detail
2021
- SW1: ASR asijského jazyka, software, 2021
Autoři: Karafiát Martin, Lehečka Jan, Szőke Igor, Šmídl Luboš, Švec Jan Detail