Result Details
Efektivní přístup ke znalostem v audio-vizuálních záznamech
Fapšo Michal, Ing., Ph.D.
Žižka Josef, Ing., DCGM (FIT)
Beran Vítězslav, doc. Ing., Ph.D., DCGM (FIT)
Černocký Jan, prof. Dr. Ing., DCGM (FIT)
Množstvíaudiovizuálních dat seneustále zvětšuje.Část znich obsahuje důležité informace- záznamy přednášek, konferencí, kurzů atd. Tato data jsou všakpro současné vyhledávače (Google, Seznam) neviditelná. Pokudpotřebujeme nalézt záznam, který se týká konkrétníproblematiky nebo se jen potřebujeme rychle zorientovat v záznamu,současné vyhledávače nám mnoho nepomohou. V první částipřednášky se podíváme, jak zviditelnit audiovizuální záznamyprezentací pro standardní textové vyhledávače. Z technickéhohlediska si ukážeme, jak vypadá celkové schéma systému, a pakse podrobněji podíváme na jednotlivé komponenty. Zejména nakomponentu automatického rozpoznávače řeči (převod audia dotextu s časováním), a komponentu automatické synchronizace arozpoznání slajdů s videem (převod videa do textu s časováním).Dále si ukážeme, jak jsou zpracována audiovizuální datareprezentována pro vyhledávací engine Lucene. V druhé částipřednášky se zaměřímena prezentaciuživatelům, a také na zpětnou vazbu od uživatelů. Systém jeprakticky nasazen na Fakultě informačních technologií VUT v Brně,a také pro několik velkých konferencí.
Theamount of audiovisual data in growing. Part of the data as lecture orconference recordings contain important information. However thisinformation is hidden and unreachable for standard web crawlers asGoogle. This paper deals with a system, which makes the informationavailable for standard text based indexers and searchers. It is doneby conversion of speech and video into text. Description of theaudiovisual indexing and search system is provided in the first partof this paper. We briefly describe the speech-to-text and slidesynchronization components. Next, the description of an indexingengine is given. The engine is capable to index not only text butalso timing and probability of recognized speech. The second part isaimed at practical issues like user interface and customer feedback.
audiovizuální záznam,převod řeči do textu, převod obrazu do textu, indexace avyhledávání, web
audiovisual recording, speech-to-text, image-to-text, indexing and search, web
The amount of audiovisual data in growing. Part of the data as lecture or conference recordings contain important information. However this information is hidden and unreachable for standard web crawlers as Google. This paper deals with a system, which makes the information available for standard text based indexers and searchers. It is done by conversion of speech and video into text. Description of the audiovisual indexing and search system is provided in the first part of this paper. We briefly describe the speech-to-text and slide synchronization components. Next, the description of an indexing engine is given. The engine is capable to index not only text but also timing and probability of recognized speech. The second part is aimed at practical issues like user interface and customer feedback.
@inproceedings{BUT97053,
author="Igor {Szőke} and Michal {Fapšo} and Josef {Žižka} and Vítězslav {Beran} and Jan {Černocký}",
title="Efektivní přístup ke znalostem v audio-vizuálních záznamech",
booktitle="Proceedings of the Annual Database Conference",
year="2012",
pages="57--74",
publisher="Technická univerzita v Košiciach",
address="Praha",
isbn="978-80-553-1049-7",
url="https://www.fit.vut.cz/research/publication/10172/"
}
Language-independent spoken term detection, GACR, Postdoktorandské granty, GPP202/12/P567, start: 2012-01-01, end: 2014-12-31, completed
Security-Oriented Research in Information Technology, MŠMT, Institucionální prostředky SR ČR (např. VZ, VC), MSM0021630528, start: 2007-01-01, end: 2013-12-31, running
Technologies of speech processing for efficient human-machine communication, TAČR, Program aplikovaného výzkumu a experimentálního vývoje ALFA, TA01011328, start: 2011-01-01, end: 2014-12-31, completed