Detail publikace
Implementing Random Indexing on GPU
Modely založené na vektorových prostorech (také word space nebo term space modely) jsou algebraické modely, používané pro reprezentaci dokumentů pomocí vektorů termů. V poslední době jim byla věnováno mnoho pozornosti díky jejich širokému spektru aplikací jako například filtrování a extrakce informací, indexování a přiřazení relevance. Oproti ostatním modelům mohou být výhodnější protože jsou matematicky dobře definované a existuje velká množina nástrojů pro jejich manipulaci.
Random indexing je jedna z metod, použitelná pro výpočet vector space modelu ze sady dokumentů, založená na statistice distribuce spoluvýskytu jednotlivých termů. Aby tato metoda dala použitelné výsledky, je třeba velkého množství dat a značná výpočetní síla.
Zde prezentujeme efektivní implementaci algoritmu random indexing na GPU, dovolující rychlé trénování i na velkých datasetech. Je omezená jen množstvím paměti, dostupné na GPU, avšak jsou navrženy i metody jak toto omezení obejít. Bylo dosaženo zrychlení řádově desetkrát pro trénování z náhodných seed vektorů, a ještě větší pro přetrénování. Implementace škáluje dobře jak s délkou term tak i seed vektorů.
@INPROCEEDINGS{FITPUB9711, author = "Luk\'{a}\v{s} Polok and Pavel Smr\v{z}", title = "Implementing Random Indexing on GPU", pages = "134--142", booktitle = "Proceedings of the 19th High Performance Computing Symposium", series = "HPC '11", year = 2011, location = "Boston, US", publisher = "SCS Publication House", ISBN = "978-1-61782-840-9", language = "english", url = "https://www.fit.vut.cz/research/publication/9711" }