Detail projektu
Jazyková paměť regionů České republiky. Metody strojového učení pro uchování, dokumentaci a prezentaci nářečí českého jazyka
Období řešení: 1. 3. 2023 - 31. 12. 2027
Typ projektu: grant
Kód: DH23P03OVV010
Agentura: Ministerstvo kultury České republiky
Program: NAKI III program na podporu aplikovaného výzkumu v oblasti národní a kulturní identity na léta 2023 až 2030
Český jazyk, dialekty, dialektologie, umělá inteligence, řečová a jazyková data, automatická identifikace nářečí, automatické rozpoznávání řeči, interaktivní mapy, jazyková paměť regionů
Jazyk je základním spojovacím prvkem každého národa a jeho teritoriální nářečí jsou důležitou součástí regionální identity. V moderním světě nářečí postupně mizí, jejich variabilita se zmenšuje a postupně se asimilují do jazyka představovaného mainstreamovými médii a internetem. Kvůli značným nákladům na pořizování a anotaci trénovacích jazykových dat mají nářečí prakticky nulovou podporu v moderních technologiích umělé inteligence (AI) a strojového učení (ML) reprezentovaných především automatickým rozpoznáváním řeči (ASR). V České republice se studiu nářečí věnuje dialektologické oddělení ÚJČ AV ČR, které je jediným akademickým pracovištěm systematicky se zabývajícím výzkumem nespisovných útvarů českého národního jazyka. Toto pracoviště ale postrádá jakékoliv moderní technologie pro automatické zpracování, uchování, dokumentaci a prezentaci nářečí. Výstupy dialektologického oddělení jsou navíc dostupné především odborné veřejnosti, chybí ale moderní interaktivní webové aplikace nebo služby využitelné širokou veřejností. Projekt, který je navržený specialisty na ASR (VUT), dialektology (ÚJČ) a odborníky na interaktivní mapové zobrazování (UPOL), si klade za cíl adaptovat existující technologie a vyvinout nové postupy pro automatické zpracování, uchování, dokumentaci a prezentaci nářečí českého jazyka. Nejprve bude zpracována podrobná metodika pro převod strukturovaných znalostí z dialektologie do strojového učení, kde je dominantní práce s daty. Stávající Archiv zvukových záznamů nářečních promluv (budovaný v ÚJČ od r. 1952 do současnosti a obsahující nahrávky s celkovou délkou záznamu přes 750 hodin) bude doplněn metadaty a bude připraven pro strojové učení. Zároveň jako prerekvizitu vyvineme software pro detekci dialektu na základě audionahrávky.
Plchot Oldřich, Ing., Ph.D. (UPGM FIT VUT) , spoluřešitel
Kocour Martin, Ing. (UPGM FIT VUT)
Kotolan Martin (CVT FIT VUT)
Yusuf Bolaji (UPGM FIT VUT)
Žižka Josef, Ing. (UPGM FIT VUT)
2024
- BENEŠ Karel, KOCOUR Martin a BURGET Lukáš. Hystoc: Obtaining Word Confidences for Fusion of End-To-End ASR Systems. In: ICASSP, IEEE International Conference on Acoustics, Speech and Signal Processing - Proceedings. Seoul: IEEE Signal Processing Society, 2024, s. 11276-11280. ISBN 979-8-3503-4485-1. Detail
2023
- MATĚJKA Pavel, SILNOVA Anna, SLAVÍČEK Josef, MOŠNER Ladislav, PLCHOT Oldřich, KLČO Michal, PENG Junyi, STAFYLAKIS Themos a BURGET Lukáš. Description and Analysis of ABC Submission to NIST LRE 2022. In: Proceedings of the Annual Conference of the International Speech Communication Association, INTERSPEECH. Dublin: International Speech Communication Association, 2023, s. 511-515. ISSN 1990-9772. Detail