Detail publikace
Learning Document Embeddings Along With Their Uncertainties
Plchot Oldřich, Ing., Ph.D. (UPGM FIT VUT)
Burget Lukáš, doc. Ing., Ph.D. (UPGM FIT VUT)
Gangashetty Suryakanth V (IIIT)
Bayesovské metody, embeddingy, identifikace tématu.
Většina technik modelování textu přináší pouze bodové odhady vložení dokumentů a nedostatek zachycení nejistoty odhadů. Tyto nejistoty dávají představu o tom, jak dobře vložení představují dokument. Představujeme Bayesiánský podprostorový multinomiální model (Bayesian SMM), generativní log-lineární model, který se učí reprezentovat dokumenty ve formě Gaussových distribucí, čímž zakóduje nejistotu v jeho kovarianci. V navrhovaném Bayesian SMM se navíc věnujeme běžně se vyskytujícímu problému neporušitelnosti, který se objevuje během variační inference v modelech smíšeného logitu. Představujeme také generativní Gaussianův lineární klasifikátor pro identifikaci témat, který využívá nejistotu při vkládání dokumentů. Naše vnitřní hodnocení pomocí míry zmatenosti ukazuje, že navrhovaný bayesovský SMM lépe vyhovuje neviditelným testovacím datům ve srovnání s nejmodernějším modelem neurálních variačních dokumentů na (Fisher) řeči a (20Newsgroups) textových korpusech. Naše experimenty s identifikací témat ukazují, že navrhované systémy jsou robustní až příliš vhodné pro neviditelná data testů. Výsledky ID tématu ukazují, že navrhovaný model překonává nejmodernější nekontrolované tematické modely a dosahuje srovnatelných výsledků s nejmodernějšími plně supervizovanými diskriminačními modely.
@ARTICLE{FITPUB12343, author = "Santosh Kesiraju and Old\v{r}ich Plchot and Luk\'{a}\v{s} Burget and V Suryakanth Gangashetty", title = "Learning Document Embeddings Along With Their Uncertainties", pages = "2319--2332", journal = "IEEE/ACM TRANSACTIONS ON AUDIO, SPEECH AND LANGUAGE PROCESSING", volume = 2020, number = 28, year = 2020, ISSN = "2329-9290", doi = "10.1109/TASLP.2020.3012062", language = "english", url = "https://www.fit.vut.cz/research/publication/12343" }