Detail publikace
Efektivní přístup ke znalostem v audio-vizuálních záznamech
Fapšo Michal, Ing. (UPGM FIT VUT)
Žižka Josef, Ing. (UPGM FIT VUT)
Beran Vítězslav, doc. Ing., Ph.D. (UPGM FIT VUT)
Černocký Jan, prof. Dr. Ing. (UPGM FIT VUT)
audiovizuální záznam, převod řeči do textu, převod obrazu do textu, indexace a vyhledávání, web
Množství audiovizuálních dat se neustále zvětšuje. Část z nich obsahuje důležité informace - záznamy přednášek, konferencí, kurzů atd. Tato data jsou však pro současné vyhledávače (Google, Seznam) neviditelná. Pokud potřebujeme nalézt záznam, který se týká konkrétní problematiky nebo se jen potřebujeme rychle zorientovat v záznamu, současné vyhledávače nám mnoho nepomohou. V první části přednášky se podíváme, jak zviditelnit audiovizuální záznamy prezentací pro standardní textové vyhledávače. Z technického hlediska si ukážeme, jak vypadá celkové schéma systému, a pak se podrobněji podíváme na jednotlivé komponenty. Zejména na komponentu automatického rozpoznávače řeči (převod audia do textu s časováním), a komponentu automatické synchronizace a rozpoznání slajdů s videem (převod videa do textu s časováním). Dále si ukážeme, jak jsou zpracována audiovizuální data reprezentována pro vyhledávací engine Lucene. V druhé části přednášky se zaměříme na prezentaci uživatelům, a také na zpětnou vazbu od uživatelů. Systém je prakticky nasazen na Fakultě informačních technologií VUT v Brně, a také pro několik velkých konferencí.
Množství audiovizuálních dat se neustále zvětšuje. Část z nich obsahuje důležité informace - záznamy přednášek, konferencí, kurzů atd. Tato data jsou však pro současné vyhledávače (Google, Seznam) neviditelná. Pokud potřebujeme nalézt záznam, který se týká konkrétní problematiky nebo se jen potřebujeme rychle zorientovat v záznamu, současné vyhledávače nám mnoho nepomohou. V první části přednášky se podíváme, jak zviditelnit audiovizuální záznamy prezentací pro standardní textové vyhledávače. Z technického hlediska si ukážeme, jak vypadá celkové schéma systému, a pak se podrobněji podíváme na jednotlivé komponenty. Zejména na komponentu automatického rozpoznávače řeči (převod audia do textu s časováním), a komponentu automatické synchronizace a rozpoznání slajdů s videem (převod videa do textu s časováním). Dále si ukážeme, jak jsou zpracována audiovizuální data reprezentována pro vyhledávací engine Lucene. V druhé části přednášky se zaměříme na prezentaci uživatelům, a také na zpětnou vazbu od uživatelů. Systém je prakticky nasazen na Fakultě informačních technologií VUT v Brně, a také pro několik velkých konferencí.
@INPROCEEDINGS{FITPUB10172, author = "Igor Sz\H{o}ke and Michal Fap\v{s}o and Josef \v{Z}i\v{z}ka and V\'{i}t\v{e}zslav Beran and Jan \v{C}ernock\'{y}", title = "Efektivn\'{i} p\v{r}\'{i}stup ke znalostem v audio-vizu\'{a}ln\'{i}ch z\'{a}znamech", pages = "57--74", booktitle = "Proceedings of the Annual Database Conference", year = 2012, location = "Praha, CZ", publisher = "The University of Technology Ko\v{s}ice", ISBN = "978-80-553-1049-7", language = "czech", url = "https://www.fit.vut.cz/research/publication/10172" }