Detail publikace
Are we meeting a deadline? classification goal achievement in time in the presence of imbalanced data
Zdráhal Zdeněk (OPEN)
Zendulka Jaroslav, doc. Ing., CSc. (UIFS FIT VUT)
Článek se zabývá problémem konečného souboru entit, u kterých je požadováno dosažení cíle v předem stanoveném termínu. Například skupina studentů má předložit úlohu do specifikovaného data. Chceme predikovat, které entity v termínu cíl splní. Prediktivní modely jsou vytvořeny pouze na základě údajů z této populace. Predikce jsou prováděny v různých okamžicích s přihlédnutím k aktualizovaným údajům o entitách. Prvním příspěvkem článku je formální popis problému. Důležitou vlastnosyí navrhované metody tvorby modelu je využití vlastností entit, které již cíle dosáhly. Takový přístup nazýváme "Self-Learning". Vzhledem k tomu, že obvykle jen několik entit dosáhlo cíle na začátku a jejich počet postupně narůstá, problém z podstaty nevyvážený. Abychom zmírnili dopad nevyváženosti, zlepšili jsme metodu Self-Learning řešením ztráty informace a několika technikami vzorkování. Původní metoda Self-Learning a její modifikace byly vyhodnoceny v případové studii pro predikci odevzdání prvních úloh ve vysokoškolských kurzech distančního vzdělávání. Výsledky ukazují, že navrhovaná vylepšení překonávají dva specifikované bázové modely a původní metodu Self-Learning a také to, že nejlepších výsledků při řešení problému nevyváženosti bylo dosaženo použitím technik vycházejících z dané aplikační domény. Použitím Wilcoxonova testu jsme také prokázali, že tato zlepšení jsou statisticky významná.
@ARTICLE{FITPUB11826, author = "Martin Hlosta and Zden\v{e}k Zdr\'{a}hal and Jaroslav Zendulka", title = "Are we meeting a deadline? classification goal achievement in time in the presence of imbalanced data", pages = "278--295", journal = "Knowledge-Based Systems", volume = 2018, number = 160, year = 2018, ISSN = "0950-7051", doi = "10.1016/j.knosys.2018.07.021", language = "english", url = "https://www.fit.vut.cz/research/publication/11826" }