Result Details
Nalezení slovních kořenů v češtině
Hellebrand David, Ing.
Hrušecký Michal
Bartík Vladimír, Ing., Ph.D., DIFS (FIT)
Cílem bylo vytvořit stematizační algoritmus pro český jazyk
založený na gramatických pravidlech jako doplněk k metodám používa-
jícím slovník pro vyhledávání a dolování českého textu. Článek obsahuje
základy slovotvorby českého jazyka pro různé slovní druhy, popis problematiky stematizace a několika stematizačních a lematizačních algoritmů.
Hlavním přínosem této práce je Snowball implementace stematizačního
algoritmu českého jazyka na základě kompletní sady všech předpon a
přípon, které se mohou v českém jazyce vyskytovat.
The goal was to create an algorithm for stemming Czech language based on
grammatical rules, in addition to methods using vocabulary for retrieval and
mining of Czech texts. The article includes the basics of Czech word formation
for different word classes, description of problems and several stemming and lemmatization algorithms. The main contribution of this work is the implementation
of the Snowball stemming algorithm for the Czech language based on complete
sets of all prefixes and suffixes, which may occur in Czech words.
Lemmatization, stemmization, Snowball, Czech, grammar.
@article{BUT91156,
author="Petr {Chmelař} and David {Hellebrand} and Michal {Hrušecký} and Vladimír {Bartík}",
title="Nalezení slovních kořenů v češtině",
journal="CEUR Workshop Proceedings",
year="2011",
volume="2011",
number="802",
pages="1--12",
issn="1613-0073",
url="http://www.ceur-ws.org/Vol-802"
}