Detail práce

Recegnition of Repeating SMS Patterns

Bakalářská práce Student: Kočalka Jakub Akademický rok: 2020/2021 Vedoucí: Holík Lukáš, doc. Mgr., Ph.D.
Název česky
Rozpoznávání opakujících se vzorů SMS zpráv
Jazyk práce
anglický
Abstrakt

Vďaka pokroku v rozpoznávaní spamu v e-mailoch a zvyšovaní povedomia používateľov smerujú spameri k menej preskúmaným médiám. Jedným z nich je \emph{short messaging service} (SMS). Táto služba poskytuje užívateľom možnosť reagovať na správy v krátkom čase a v skoro ľubovolnom prostredí. Tieto vlastnosti sú atraktívne aj pre legitímne podniky, ktoré potrebujú svojim klinetom zasielať krátke hromadné správy. Aj keď sú tieto správy z pohladu koncového užívateľa vyžiadané, pre poskytovateľa služieb SMS môžu predstavovať stratu, pretože tieto podniky často zneužívajú neobmedzené SMS plány určené pre bežných zákazníkov, aby sa vyhli plateniu za pre nich určené, ale drahšie produkty. Je preto žiaduce vedieť rozpoznať nevyžiadané aj vyžiadané hromadné správy. Hromadné správy sa zvyčajne generujú zo šablóny. Cieľom tejto práce je navrhnúť zhlukovací algoritmus ktorý správy analyzuje ako sekvencie lexikálnych jednotiek (slov), a vyhodnotiť jeho efektivitu v porovnaní s \emph{locality sensitivity hashing} metódou ktorá správy analyzuje ako reťazce symbolov. Práca vyhodnocuje vhodnosť algoritmu Smith-Waterman pre túto úlohu. Práca popisuje, prečo je Smith-Waterman (a ďalšie lokálne zarovnávania) nevhodný, a ako je možné ho nahradiť algoritmom Needleman-Wunsch (globálnym zarovnávaním), aby sa dosiahli oveľa lepšie výsledky. Výsledný algoritmus dokáže uspokojivo zhlukovať skutočné správy do kampaní a funguje dobre aj v situáciách, kde \emph{locality sensitivity hashing} kampane fragmentuje.

Klíčová slova

Smith-Waterman, Needleman-Wunsch, SMS, spam, zarovnanie sekvencií, zhlukovanie reťazcov

Ústav
Studijní program
Informační technologie
Soubory
Stav
obhájeno, hodnocení D
Obhajoba
24. srpna 2021
Oponent
Průběh obhajoby

Student nejprve prezentoval výsledky, kterých dosáhl v rámci své práce. Komise se poté seznámila s hodnocením vedoucího a posudkem oponenta práce. Student následně odpověděl na otázky oponenta a na další otázky přítomných. Komise se na základě posudku oponenta, hodnocení vedoucího, přednesené prezentace a odpovědí studenta na položené otázky rozhodla práci hodnotit stupněm D.

Otázky u obhajoby
  1. Jak jste testoval kvalitu získané klasifikace SMS spamů (tj. detekci kampaní a získané přiřazení spamů)? Lze toto testování nějak automatizovat? 
  2. Můžete rigorózně ukázat, že navržený přístup je lepší než aktuální řešení použité ve firmě Mavenir s.r.o založené na specializovaných hashovacích funkcích?
  3. Jaký je vliv jednotlivých "hyper-parametrů" navrženého přístupu na výslednou kvalitu klasifikace SMS spamů.
  4. Jak bude vaše práce dál použita?
Komise
Hruška Tomáš, prof. Ing., CSc. (UIFS FIT VUT), předseda
Bidlo Michal, doc. Ing., Ph.D. (UPSY FIT VUT), člen
Grézl František, Ing., Ph.D. (UPGM FIT VUT), člen
Herout Adam, prof. Ing., Ph.D. (UPGM FIT VUT), člen
Smrčka Aleš, Ing., Ph.D. (UITS FIT VUT), člen
Citace
KOČALKA, Jakub. Recegnition of Repeating SMS Patterns. Brno, 2021. Bakalářská práce. Vysoké učení technické v Brně, Fakulta informačních technologií. 2021-08-24. Vedoucí práce Holík Lukáš. Dostupné z: https://www.fit.vut.cz/study/thesis/24169/
BibTeX
@bachelorsthesis{FITBT24169,
    author = "Jakub Ko\v{c}alka",
    type = "Bakal\'{a}\v{r}sk\'{a} pr\'{a}ce",
    title = "Recegnition of Repeating SMS Patterns",
    school = "Vysok\'{e} u\v{c}en\'{i} technick\'{e} v Brn\v{e}, Fakulta informa\v{c}n\'{i}ch technologi\'{i}",
    year = 2021,
    location = "Brno, CZ",
    language = "english",
    url = "https://www.fit.vut.cz/study/thesis/24169/"
}
Nahoru