Detail výsledku
SW3 ASR pro akusticky náročná prostředí
Karafiát Martin, Ing., Ph.D., UPGM (FIT)
Švec Jan, Ing., Ph.D.
Lehečka Jan
Mošner Ladislav, Ing., UPGM (FIT)
Brukner Jan, Ing., UPGM (FIT)
Systém pro rozpoznávání řeči (ASR) asijského jazyka založený na moderních přístupech pro trénování. WAV2VEC model byl natrénován na obecných nahrávkách a dotrénován na vietnamských nahrávkách, které byly dále rozšířeny o množení (augmentace) dat pro náročné akustické podmínky. Tímto bylo dosaženo žádané robustnosti. Součástí výsledku je model na odstranění šumu z nahrávky. Výsledkem je aplikace využívající "Docker" kontejner a spustitelná z příkazové řádky (command line) na standardní distribuci Linuxu nebo Windows.
An Asian language speech recognition (ASR) system based on modern training approaches. The WAV2VEC model was trained on general recordings and retrained on Vietnamese recordings, further extended by data augmentation for demanding acoustic conditions. This achieved the desired robustness. Part of the result is a model for removing noise from the recording (deNoiser). The result is an application that uses a "Docker" container and can be run from the command line on a standard Linux or Windows distribution.
ASR; rozpoznávání řeči; docker
ASR; speech recognition; docker
Pro stažení kontaktujte: https://www.fit.vut.cz/person/karafiat/ nebo http://www.kky.zcu.cz/en/people/smidl-lubos
Pro informace o licenčních podmínkách prosím kontaktujte: Ing. Martina Kocmanová, Výzkumné centrum informačních technologií, Fakulta informačních technologií VUT v Brně, Božetěchova 2, 612 66 Brno, tel. 541 141 466.
Podpořeno z projektu Ministerstva vnitra České republiky Robustní zpracování nahrávek pro operativu a bezpečnost (ROZKAZ), č. VJ01010108