Detail publikace

Learning Document Embeddings Along With Their Uncertainties

KESIRAJU Santosh, PLCHOT Oldřich, BURGET Lukáš a GANGASHETTY Suryakanth V. Learning Document Embeddings Along With Their Uncertainties. IEEE/ACM TRANSACTIONS ON AUDIO, SPEECH AND LANGUAGE PROCESSING, roč. 2020, č. 28, s. 2319-2332. ISSN 2329-9290. Dostupné z: https://ieeexplore.ieee.org/document/9149686
Název česky
Učení embeddingů dokumentů včetně nejistoty
Typ
článek v časopise
Jazyk
angličtina
Autoři
Kesiraju Santosh (UPGM FIT VUT)
Plchot Oldřich, Ing., Ph.D. (UPGM FIT VUT)
Burget Lukáš, doc. Ing., Ph.D. (UPGM FIT VUT)
Gangashetty Suryakanth V (IIIT)
URL
Klíčová slova

Bayesovské metody, embeddingy, identifikace tématu.

Abstrakt

Většina technik modelování textu přináší pouze bodové odhady vložení dokumentů a nedostatek zachycení nejistoty odhadů. Tyto nejistoty dávají představu o tom, jak dobře vložení představují dokument. Představujeme Bayesiánský podprostorový multinomiální model (Bayesian SMM), generativní log-lineární model, který se učí reprezentovat dokumenty ve formě Gaussových distribucí, čímž zakóduje nejistotu v jeho kovarianci. V navrhovaném Bayesian SMM se navíc věnujeme běžně se vyskytujícímu problému neporušitelnosti, který se objevuje během variační inference v modelech smíšeného logitu. Představujeme také generativní Gaussianův lineární klasifikátor pro identifikaci témat, který využívá nejistotu při vkládání dokumentů. Naše vnitřní hodnocení pomocí míry zmatenosti ukazuje, že navrhovaný bayesovský SMM lépe vyhovuje neviditelným testovacím datům ve srovnání s nejmodernějším modelem neurálních variačních dokumentů na (Fisher) řeči a (20Newsgroups) textových korpusech. Naše experimenty s identifikací témat ukazují, že navrhované systémy jsou robustní až příliš vhodné pro neviditelná data testů. Výsledky ID tématu ukazují, že navrhovaný model překonává nejmodernější nekontrolované tematické modely a dosahuje srovnatelných výsledků s nejmodernějšími plně supervizovanými diskriminačními modely.

Rok
2020
Strany
2319-2332
Časopis
IEEE/ACM TRANSACTIONS ON AUDIO, SPEECH AND LANGUAGE PROCESSING, roč. 2020, č. 28, ISSN 2329-9290
Vydavatel
IEEE Signal Processing Society
DOI
UT WoS
000562410300004
EID Scopus
BibTeX
@ARTICLE{FITPUB12343,
   author = "Santosh Kesiraju and Old\v{r}ich Plchot and Luk\'{a}\v{s} Burget and V Suryakanth Gangashetty",
   title = "Learning Document Embeddings Along With Their Uncertainties",
   pages = "2319--2332",
   journal = "IEEE/ACM TRANSACTIONS ON AUDIO, SPEECH AND LANGUAGE PROCESSING",
   volume = 2020,
   number = 28,
   year = 2020,
   ISSN = "2329-9290",
   doi = "10.1109/TASLP.2020.3012062",
   language = "english",
   url = "https://www.fit.vut.cz/research/publication/12343"
}
Nahoru