Detail výsledku

Použití mluvených korpusů ve vývoji systému pro rozpoznávání českých přednášek

MIKOLOV, T.; OPARIN, I.; GLEMBEK, O.; BURGET, L.; KARAFIÁT, M.; ČERNOCKÝ, J. Použití mluvených korpusů ve vývoji systému pro rozpoznávání českých přednášek. Praha: Univerzita Karlova, 2007. s. 1-5.

Název anglicky

Use of spoken corpora in the development of system for recognition of Czech lectures

Typ

prezentace, poster

Jazyk

česky

Autoři

Mikolov Tomáš, Ing., Ph.D., UPGM (FIT)
Oparin Ilya
Glembek Ondřej, Ing., Ph.D., UPGM (FIT)
Burget Lukáš, doc. Ing., Ph.D., UPGM (FIT)
Karafiát Martin, Ing., Ph.D., UPGM (FIT)
Černocký Jan, prof. Dr. Ing., UPGM (FIT)

Abstrakt

Článek je o použití mluvených korpusů ve vývoji systému pro rozpoznávání českých přednášek

Abstrakt anglicky

The paper is on the use of spoken corpora in the development of system for recognition of Czech lectures

Klíčová slova

rozpoznávání řeči

Klíčová slova anglicky

speech recognition

URL

https://www.fit.vut.cz/research/group/speech/public/publi/2007/mikolov_czech…

Anotace

Skupina automatického zpracování mluvené řeči na Fakultě informačních technologií VUT v Brně - Speech@FIT - je aktivní v mnoha oblastech automatického zpracování mluvené řeči jako je přepis na text, detekce klíčových slov, ověřování mluvčího a identifikace jazyka. V poslední době se zabývá rozpoznáváním spontánní mluvené řeči v přednáškách. Tento příspěvek se zabývá použitím českých mluvených korpusů pro trénování jazykového modelu pro přednášky. Ukázali jsme, že jazykové modely trénované na mluvených korpusech předčí modely trénované čistě na textových datech. Ještě lepších výsledků bylo ovšem dosaženo s daty přímo z cílové domény rozpoznávání. Experimentální výsledky jsou ukázány na perplexitě jazykového modelu na cílových datech a na konečné úspěšnosti rozpoznávání.

Rok

2007

Strany

1–5

Konference

Čeština v mluveném korpusu

Vydavatel

Univerzita Karlova

Místo

Praha

BibTeX

@misc{BUT63693,
  author="Tomáš {Mikolov} and Ilya {Oparin} and Ondřej {Glembek} and Lukáš {Burget} and Martin {Karafiát} and Jan {Černocký}",
  title="Použití mluvených korpusů ve vývoji systému pro rozpoznávání českých přednášek",
  year="2007",
  pages="1--5",
  publisher="Univerzita Karlova",
  address="Praha",
  url="http://www.fit.vutbr.cz/research/groups/speech/publi/2007/mikolov_czech_reco_cmk_2007.pdf"
}

Projekty

Interaktivní detektor klíčových slov, GAČR, Postdoktorandské granty, GP102/06/P383, zahájení: 2006-01-01, ukončení: 2008-12-31, ukončen
Nové směry ve výzkumu a využití hlasových technologií, GAČR, Standardní projekty, GA102/05/0278, zahájení: 2005-01-01, ukončení: 2007-12-31, ukončen
Výzkum informačních technologií z hlediska bezpečnosti, MŠMT, Institucionální prostředky SR ČR (např. VZ, VC), MSM0021630528, zahájení: 2007-01-01, ukončení: 2013-12-31, řešení

Výzkumné skupiny

Výzkumná skupina dolování dat z řeči BUT Speech@FIT (VZ SPEECH)

Pracoviště

Ústav počítačové grafiky a multimédií (UPGM)