Detail výsledku

Nalezení slovních kořenů v češtině

CHMELAŘ, P.; HELLEBRAND, D.; HRUŠECKÝ, M.; BARTÍK, V. Nalezení slovních kořenů v češtině. Znalosti 2011: Sborník příspěvků 10. ročníku konference. Stará Lesná: VŠB Technická univerzita Ostrava, 2011. s. 66-77. ISBN: 978-80-248-2369-0.
Název anglicky
Czech Stemming Algorithm
Typ
článek ve sborníku konference
Jazyk
česky
Autoři
Chmelař Petr, Ing., UIFS (FIT)
Hellebrand David, Ing.
Hrušecký Michal
Bartík Vladimír, Ing., Ph.D., UIFS (FIT)
Abstrakt

Cílem bylo vytvořit stematizační algoritmus pro český jazyk založený na gramatických pravidlech jako doplněk k metodám používajícím slovník pro vyhledávání a dolování českého textu. Článek obsahuje základy slovotvorby českého jazyka pro různé slovní druhy, popis problematiky stematizace a několika stematizačních a lematizačních algoritmů. Hlavním přínosem této práce je Snowball implementace stematizačního algoritmu českého jazyka na základě kompletní sady všech předpon a přípon, které se mohou v českém jazyce vyskytovat.

Abstrakt anglicky

The goal was to create an algorithm for stemming Czech language based on grammatical rules, in addition to methods using vocabulary for retrieval and mining of Czech texts. The article includes the basics of Czech word formation for different word classes, description of problems and several stemming and lemmatization algorithms. The main contribution of this work is the implementation of the Snowball stemming algorithm for the Czech language based on complete sets of all prefixes and suffixes, which may occur in Czech words.

Klíčová slova

Lemmatizace, stematizace, Snowball, český jazyk, gramatika.

Klíčová slova anglicky

Lemmatization, stemming, Snowball, Czexh language, grammar.

Rok
2011
Strany
66–77
Sborník
Znalosti 2011: Sborník příspěvků 10. ročníku konference
Konference
Znalosti 2011
ISBN
978-80-248-2369-0
Vydavatel
VŠB Technická univerzita Ostrava
Místo
Stará Lesná
BibTeX
@inproceedings{BUT76258,
  author="Petr {Chmelař} and David {Hellebrand} and Michal {Hrušecký} and Vladimír {Bartík}",
  title="Nalezení slovních kořenů v češtině",
  booktitle="Znalosti 2011: Sborník příspěvků 10. ročníku konference",
  year="2011",
  pages="66--77",
  publisher="VŠB Technická univerzita Ostrava",
  address="Stará Lesná",
  isbn="978-80-248-2369-0"
}
Projekty
Výzkum informačních technologií z hlediska bezpečnosti, MŠMT, Institucionální prostředky SR ČR (např. VZ, VC), MSM0021630528, zahájení: 2007-01-01, ukončení: 2013-12-31, řešení
Výzkumné skupiny
Pracoviště
Nahoru