Detail projektu
Jazykověda, umělá inteligence a jazykové a řečové technologie: od výzkumu k aplikacím
Období řešení: 1. 1. 2025 – 31. 12. 2028
Typ projektu: grant
Kód: EH23_020/0008518
Agentura: Evropská unie
Program: MEZISEKTOROVÁ SPOLUPRÁCE
Umělá inteligence, jazykové a řečové technologie
Cílem projektu "Umělá inteligence a jazykové a řečové technologie: od výzkumu
k aplikacím" je:
1. Prohloubení a realizace spolupráce mezi výzkumnými organizacemi a aplikační
sférou: konkrétně mezi Univerzitou Karlovou (Ústav formální a aplikované
lingvistiky MFF UK); Vysokým učením technickým v Brně (Fakulta informačních
technologií, FIT VUT) a firmami Phonexia s.r.o.; Mamma AI Coolma, s.r.o.
a Phrase, a.s. například ve věci vzájemné výměny znalostí, ověření parametrů
výzkumných výsledků pro jejich uplatnění v praxi a získání přístupu podniků
k hraničnímu poznání a pokročilým metodám, modelům a technologiím.
2. Realizace naplánovaného komplexního výzkumného záměru a čtyřech pracovních
balíčků (WP) ve spolupráci se subjekty aplikační sféry, zejména s Phonexia
s.r.o.; Mamma AI Coolma, s.r.o. a Phrase a.s. a s dalšími spolupracujícími
subjekty.
3. Příprava a podání společně zpracovaných projektových žádostí se subjekty
z aplikační sféry: zejména v oblastech navazujících na plánované čtyři pracovní
balíčky v rámci VZ1, a to účastí v národních i mezinárodních soutěžích/programech
či v přístupových projektech ke kapacitám velkých výzkumných infrastruktur
4. Zapojení zástupců aplikační sféry do výuky: zejména potom odborníků z Phonexia
s.r.o.; Mamma AI Coolma, s.r.o. a Phrase a.s., případně dalších spolupracujících
subjektů v tématech souvisejících s navrženou výzkumnou agendou.
Burget Lukáš, doc. Ing., Ph.D. (UPGM)
Diez Sánchez Mireia, M.Sc., Ph.D. (UPGM)
Han Jiangyu (UPGM)
Heřmanský Hynek, prof. Ing., Dr. Eng. (UPGM)
Jírovec Martin, Ing. (DFIT-děkan)
Kesiraju Santosh, Ph.D. (UPGM)
Kocmanová Martina, Ing. (VCIT)
Kudla Radim, Ing. (UPGM)
Mošner Ladislav, Ing., Ph.D. (UPGM)
Polok Alexander, Ing. (UPGM)
Singh Prachi, B.Tech., Ph.D. (UPGM)
Szőke Igor, Ing., Ph.D. (UPGM)
Vendrame Katia, Ing. (UPGM)
2026
- POLOK, A.; KLEMENT, D.; KOCOUR, M.; HAN, J.; LANDINI, F.; YUSUF, B.; WIESNER, M.; KHUDANPUR, S.; ČERNOCKÝ, J.; BURGET, L. DiCoW: Diarization-Conditioned Whisper for Target Speaker Automatic Speech Recognition. COMPUTER SPEECH AND LANGUAGE, 2026, vol. 95, no. 1,
p. 1-19. Detail
2025
- AKKIRAJU, B.; POTHULA, A.; KESIRAJU, S.; VUPPALA, A. IIITH-BUT system for IWSLT 2025 low-resource Bhojpuri to Hindi speech translation. Proceedings of the 22nd International Conference on Spoken Language Translation (IWSLT 2025). Vienna, Austria: Association for Computational Linguistics, 2025.
p. 333-339. ISBN: 979-8-89176-272-5. Detail - Alexander Polok, Jiangyu Han, Dominik Klement, Samuele Cornell, Jan Černocký, Lukáš Burget. BUT System for the MLC-SLM Challenge. ISCA: ISCA, 2025.
p. 23-27. Detail - BARAHONA, S.; SILNOVA, A.; MOŠNER, L.; PENG, J.; PLCHOT, O.; ROHDIN, J.; ZHANG, L.; HAN, J.; PALKA, P.; LANDINI, F.; BURGET, L.; STAFYLAKIS, T.; CUMANI, S.; BOBOŠ, D.; HLAVAČEK, M.; KODOVSKY, M.; PAVLIČEK, T. Analysis of ABC Frontend Audio Systems for the NIST-SRE24. In Proceedings of the Annual Conference of the International Speech Communication Association Interspeech. Interspeech. Rotterdam: International Speech Communication Association, 2025.
p. 5763-5767. Detail - CUMANI, S.; SILNOVA, A.; BARAHONA, S.; MOŠNER, L.; PLCHOT, O.; ROHDIN, J. Analysis of the ABC classification backends for NIST SRE24. In Proceedings of the Annual Conference of the International Speech Communication Association Interspeech. Interspeech. Rotterdam: International Speech Communication Association, 2025.
p. 3978-3982. Detail - HAN, J.; LANDINI, F.; ROHDIN, J.; SILNOVA, A.; DIEZ SÁNCHEZ, M.; BURGET, L. Leveraging Self-Supervised Learning for Speaker Diarization. In ICASSP, IEEE International Conference on Acoustics, Speech and Signal Processing - Proceedings. Hyderabad: IEEE Signal Processing Society, 2025.
p. 1-5. ISBN: 979-8-3503-6874-1. Detail - HAN, J.; LANDINI, F.; ROHDIN, J.; SILNOVA, A.; DIEZ, M.; ČERNOCKÝ, J.; BURGET, L. Fine-tune Before Structured Pruning: Towards Compact and Accurate Self-Supervised Models for Speaker Diarization. In Proceedings of the Annual Conference of the International Speech Communication Association Interspeech. Interspeech. Rotterdam, The Netherlands: International Speech Communication Association, 2025.
p. 1583-1587. Detail - HEGDE, P.; KESIRAJU, S.; ŠVEC, J.; SEDLÁČEK, Š.; YUSUF, B.; PLCHOT, O.; DEEPAK, K.; ČERNOCKÝ, J. Factors affecting the in-context learning abilities of LLMs for dialogue state tracking. In Proceedings of the Annual Conference of the International Speech Communication Association Interspeech. Interspeech. Rotterdam, The Netherlands: International Speech Communication Association, 2025.
p. 4818-4822. Detail - LI, J.; MAK, M.; ROHDIN, J.; LEE, K.; HERMANSKY, H. Bayesian Learning for Domain-Invariant Speaker Verification and Anti-Spoofing. In Proceedings of the Annual Conference of the International Speech Communication Association Interspeech. Interspeech. Rotterdam: International Speech Communication Association, 2025.
p. 1123-1127. Detail - PÁLKA, P.; LANDINI, F.; KLEMENT, D.; DIEZ SÁNCHEZ, M.; SILNOVA, A.; BURGET, L.; DELCROIX, M. Joint Training of Speaker Embedding Extractor, Speech and Overlap Detection for Diarization. Palermo: IEEE Signal Processing Society, 2025.
p. 31-35. ISBN: 978-9-46-459362-4. Detail - PENG, J.; ASHIHARA, T.; DELCROIX, M.; OCHIAI, T.; PLCHOT, O.; ARAKI, S.; ČERNOCKÝ, J. TS-SUPERB: A Target Speech Processing Benchmark for Speech Self-Supervised Learning Models. In ICASSP, IEEE International Conference on Acoustics, Speech and Signal Processing - Proceedings. Hyderabad: IEEE Signal Processing Society, 2025.
p. 1-5. ISBN: 979-8-3503-6874-1. Detail - PENG, J.; MOŠNER, L.; ZHANG, L.; PLCHOT, O.; STAFYLAKIS, T.; BURGET, L.; ČERNOCKÝ, J. CA-MHFA: A Context-Aware Multi-Head Factorized Attentive Pooling for SSL-Based Speaker Verification. In ICASSP, IEEE International Conference on Acoustics, Speech and Signal Processing - Proceedings. Hyderabad: IEEE Signal Processing Society, 2025.
p. 1-5. ISBN: 979-8-3503-6874-1. Detail - POLOK, A.; KLEMENT, D.; WIESNER, M.; KHUDANPUR, S.; ČERNOCKÝ, J.; BURGET, L. Target Speaker ASR with Whisper. In ICASSP, IEEE International Conference on Acoustics, Speech and Signal Processing - Proceedings. Hyderabad: IEEE Signal Processing Society, 2025.
p. 1-5. ISBN: 979-8-3503-6874-1. Detail - POTHULA, A.; AKKIRAJU, B.; BANDARUPALLI, S.; D, C.; KESIRAJU, S.; VUPPALA, A. End-to-End Speech Translation for Low-Resource Languages Using Weakly Labeled Data. In Interspeech 2025. Interspeech. Rotterdam: ISCA, 2025.
p. 41-45. Detail - SEDLÁČEK, Š.; YUSUF, B.; ŠVEC, J.; HEGDE, P.; KESIRAJU, S.; PLCHOT, O.; ČERNOCKÝ, J. Approaching Dialogue State Tracking via Aligning Speech Encoders and LLMs. In Proceedings of the Annual Conference of the International Speech Communication Association Interspeech. Interspeech. Rotterdam, The Netherlands: International Speech Communication Association, 2025.
p. 1748-1752. Detail
2024
- AN ATTENTION-BASED BACKEND ALLOWING EFFICIENT FINE-TUNING OF TRANSFORMER MODELS FOR SPEAKER VERIFICATION, software, 2024
Autoři: PENG, J.; PLCHOT, O.; STAFYLAKIS, T.; MOŠNER, L.; BURGET, L.; ČERNOCKÝ, J. - DiariZen, software, 2024
Autoři: HAN, J.; PÁLKA, P. - DiCoW: Diarization-Conditioned Whisper for Target Speaker Automatic Speech Recognition, software, 2024
Autoři: Polok, A., Klement, D., Kocour, M.