Detail práce

Analýza recenzí výrobků

Diplomová práce Student: Klocok Andrej Akademický rok: 2019/2020 Vedoucí: Smrž Pavel, doc. RNDr., Ph.D.
Jazyk práce
slovenský
Abstrakt

Zákazníci internetových obchodov generujú obrovské množstvo informácii o službách a produktoch pomocou recenzií, ktoré sú dôležitým zdrojom spätnej väzby. Táto diplomová práca sa zaoberá vytvorením systému pre analýzu recenzií výrobkov a obchodov v českom jazyku. Popisuje doterajšie spôsoby analýzy sentimentu a naväzuje na aktuálne riešenia. Výsledný systém implementuje automatické sťahovanie dát a ich indexáciu, následne analýzu sentimentu spolu so sumarizáciou textu v podobe zhlukovania podobných viet na základe vektorovej reprezentácie textu. Súčasťou je aj grafické užívateľské rozhranie vo forme webovej stránky. Počas semestra bol vytvorený dataset recenzií s celkovým počtom prevyšujúci šesť miliónov recenzií spolu s rozhraním na jednoduchý export dát.

Klíčová slova

spracovanie prirodzeného jazyka, recenzia, analýza sentimentu, klasifikácia, extrakcia dát z webu, strojové učenie, reprezentácia textu

Ústav
Studijní program
Informační technologie, obor Informační systémy
Soubory
Stav
obhájeno, hodnocení C
Obhajoba
17. července 2020
Oponent
Průběh obhajoby

Student nejprve prezentoval výsledky, kterých dosáhl v rámci své práce. Komise se poté seznámila s hodnocením vedoucího a posudkem oponenta práce. Student následně odpověděl na otázky oponenta a na další otázky přítomných. Komise se na základě posudku oponenta, hodnocení vedoucího, přednesené prezentace a odpovědí studenta na položené otázky rozhodla práci hodnotit stupněm C.

Otázky u obhajoby
  1. V technické zprávě píšete (pod napisem "Predspracovanie dát" na str. 27-28):
    """
    Síce aktuálne riešenia mapovania sekvencií do vektorového priestoru využívajú vlastné tokenizery, ako napríklad kúsky slov, je vhodné tieto dáta tokenizovať, lemantizovať, poprípade previesť do kmeňového tvaru (stem), odstrániť stop slová, pre ďalšie spracovanie.
    """,
    ale už nepíšete, proč je vhodné data tokenizovat vlastním způsobem. Mohl byste toto objasnit?
  2. Na str. 29 zmiňujete pojmy "pretrénovanie" a "pred-trénovanie" v tom samém významu, což považuji za chybu (tato chyba se vyskytuje vícekrát, domnívám se tedy, že se nejedná o překlep). Mohl byste vysvětlit pojmy "přetrénování" (over-training) a "předtrénování" (pre-training) v kontextu neuronových sítí?
  3. Jak dlouho vám trvalo vytvořit dataset?
  4. Zkoušel jste web Heureka.cz kontaktovat?
Komise
Rogalewicz Adam, doc. Mgr., Ph.D. (UITS FIT VUT), předseda
Bartík Vladimír, Ing., Ph.D. (UIFS FIT VUT), člen
Chudý Peter, doc. Ing., Ph.D. MBA (UPGM FIT VUT), člen
Peringer Petr, Dr. Ing. (UITS FIT VUT), člen
Rychlý Marek, RNDr., Ph.D. (UIFS FIT VUT), člen
Veselý Vladimír, Ing., Ph.D. (UIFS FIT VUT), člen
Citace
KLOCOK, Andrej. Analýza recenzí výrobků. Brno, 2020. Diplomová práce. Vysoké učení technické v Brně, Fakulta informačních technologií. 2020-07-17. Vedoucí práce Smrž Pavel. Dostupné z: https://www.fit.vut.cz/study/thesis/22451/
BibTeX
@mastersthesis{FITMT22451,
    author = "Andrej Klocok",
    type = "Diplomov\'{a} pr\'{a}ce",
    title = "Anal\'{y}za recenz\'{i} v\'{y}robk\r{u}",
    school = "Vysok\'{e} u\v{c}en\'{i} technick\'{e} v Brn\v{e}, Fakulta informa\v{c}n\'{i}ch technologi\'{i}",
    year = 2020,
    location = "Brno, CZ",
    language = "slovak",
    url = "https://www.fit.vut.cz/study/thesis/22451/"
}
Nahoru