Téma disertační práce

Celostní systémy pro diarizaci mluvčích

Ak. rok 2024/2025

Školitel: Burget Lukáš, doc. Ing., Ph.D.

Školitel specialista: Diez Sánchez Mireia, M.Sc., Ph.D.

Ústav: Ústav počítačové grafiky a multimédií

Programy:
Informační technologie (DIT) - prezenční studium
Information Technology (DIT-EN) - prezenční studium

Diarizace mluvčích (SD, určení, kdo kdy mluvil) je důležitou součástí vytěžování řečových dat a umělé inteligence (AI). Je zásadní pro následné algoritmy, např. automatické rozpoznávání řeči (ASR). Současná SD funguje dobře za mnoha podmínek, ale nedokáže si poradit s překrývající se řečí. více než dvěma mluvčími a realistickými nahrávky (různé akustické podmínky a styly mluvy). Většina současných SD navíc charakterizuje mluvčí pouze na základě akustické informace. Budoucí SD bude pro zvýšení přesnosti využívat amalgám vstupů, a využívat všech dostupné informačních zdrojů. Toto PhD téma navrhuje významný posun směrem k tomuto cíli. Vyvineme nové architektury, které rozšíří end-to-end SD na různé scénáře s více úlohami. Navrhujeme také integraci zpracování signálů z několika vstupů (mikrofonů) využívající vzájemně se doplňující informace. Konečným cílem projektu je spojit všechny tyto systémy do jednotného rámce, který podstatně zlepší přesnost SD.

Nahoru