Detail publikace

Použití mluvených korpusů ve vývoji systému pro rozpoznávání českých přednášek

MIKOLOV Tomáš, OPARIN Ilya, GLEMBEK Ondřej, BURGET Lukáš, KARAFIÁT Martin a ČERNOCKÝ Jan. Použití mluvených korpusů ve vývoji systému pro rozpoznávání českých přednášek. Praha: Univerzita Karlova, 2007.
Název anglicky
Use of spoken corpora in the development of system for recognition of Czech lectures
Typ
prezentace,poster
Jazyk
čeština
Autoři
Mikolov Tomáš, Ing. (UPGM FIT VUT)
Oparin Ilya (ZČU v Plzni)
Glembek Ondřej, Ing., Ph.D. (UPGM FIT VUT)
Burget Lukáš, doc. Ing., Ph.D. (UPGM FIT VUT)
Karafiát Martin, Ing., Ph.D. (UPGM FIT VUT)
Černocký Jan, prof. Dr. Ing. (UPGM FIT VUT)
URL
Klíčová slova

rozpoznávání řeči

Abstrakt

Článek je o použití mluvených korpusů ve vývoji systému pro rozpoznávání českých přednášek

Anotace

Skupina automatického zpracování mluvené řeči na Fakultě informačních technologií VUT v Brně - Speech@FIT - je aktivní v mnoha oblastech automatického zpracování mluvené řeči jako je přepis na text, detekce klíčových slov, ověřování mluvčího a identifikace jazyka. V poslední době se zabývá rozpoznáváním spontánní mluvené řeči v přednáškách. Tento příspěvek se zabývá použitím českých mluvených korpusů pro trénování jazykového modelu pro přednášky. Ukázali jsme, že jazykové modely trénované na mluvených korpusech předčí modely trénované čistě na textových datech. Ještě lepších výsledků bylo ovšem dosaženo s daty přímo z cílové domény rozpoznávání. Experimentální výsledky jsou ukázány na perplexitě jazykového modelu na cílových datech a na konečné úspěšnosti rozpoznávání.

Rok
2007
Strany
1-5
Konference
Čeština v mluveném korpusu, Praha, Ústav Českého národního korpusu FF UK, CZ
Vydavatel
Univerzita Karlova
Místo
Praha, CZ
Nahoru