Detail výsledku

Constrained Classification of Large Imbalanced Data by Logistic Regression and Genetic Algorithm

HLOSTA, M.; STRÍŽ, R.; KUPČÍK, J.; ZENDULKA, J.; HRUŠKA, T. Constrained Classification of Large Imbalanced Data by Logistic Regression and Genetic Algorithm. International Journal of Machine Learning and Computing, 2013, vol. 2013, no. 3, p. 214-218. ISSN: 2010-3700.
Typ
článek v časopise
Jazyk
anglicky
Autoři
Hlosta Martin, Ing., Ph.D., UIFS (FIT)
Stríž Rostislav, Ing., UIFS (FIT)
Kupčík Jan, Ing., UIFS (FIT)
Zendulka Jaroslav, doc. Ing., CSc., UIFS (FIT)
Hruška Tomáš, prof. Ing., CSc., UIFS (FIT)
Abstrakt

Imbalance in data classification is a frequently discussedproblem that is not well handled by classical classification techniques. Theproblem we tackled was to learn binary classification model from large data withaccuracy constraint for the minority class. We propose a new meta-learningmethod that creates initial models using cost-sensitive learning by logisticregression and uses these models as initial chromosomes for genetic algorithm. Themethod has been successfully tested on a large real-world data set from ourinternet security research. Experiments prove that our method always leads tobetter results than usage of logistic regression or genetic algorithm alone. Moreover,this method produces easily understandable classification model.

Klíčová slova

Imbalanced data, classification, genetic algorithm, logistic regression

URL
Rok
2013
Strany
214–218
Časopis
International Journal of Machine Learning and Computing, roč. 2013, č. 3, ISSN 2010-3700
BibTeX
@article{BUT103468,
  author="Martin {Hlosta} and Rostislav {Stríž} and Jan {Kupčík} and Jaroslav {Zendulka} and Tomáš {Hruška}",
  title="Constrained Classification of Large Imbalanced Data by Logistic Regression and Genetic Algorithm",
  journal="International Journal of Machine Learning and Computing",
  year="2013",
  volume="2013",
  number="3",
  pages="214--218",
  issn="2010-3700",
  url="http://www.ijmlc.org/index.php?m=content&c=index&a=show&catid=36&id=304"
}
Soubory
Projekty
Centrum excelence IT4Innovations, MŠMT, Operační program Výzkum a vývoj pro inovace, ED1.1.00/02.0070, zahájení: 2011-01-01, ukončení: 2015-12-31, ukončen
Pokročilé rozpoznávání a prezentace multimediálních dat, VUT, Vnitřní projekty VUT, FIT-S-11-2, zahájení: 2011-01-01, ukončení: 2013-12-31, ukončen
Systém pro zvýšení bezpečnosti v prostředí Internetu analýzou šíření škodlivého kódu, TAČR, Program aplikovaného výzkumu a experimentálního vývoje ALFA, TA01010858, zahájení: 2011-01-01, ukončení: 2013-12-31, ukončen
Výzkum informačních technologií z hlediska bezpečnosti, MŠMT, Institucionální prostředky SR ČR (např. VZ, VC), MSM0021630528, zahájení: 2007-01-01, ukončení: 2013-12-31, řešení
Výzkumné skupiny
Pracoviště
Nahoru