Detail práce
Detekce škodlivých doménových jmen
Bakalářská práce pojednává o detekování uměle vygenerovaných doménových jmen (DGA). Vygenerované adresy slouží jako komunikační prostředek mezi útočníkem a nakaženým počítačem. Detekcí můžeme odhalit a vystopovat nakažené počítače v síti. Samotné detekci předchází prostudování technik strojového učení, které budou následně aplikovány při tvorbě detektoru. Pro vytvoření výsledného klasifikátoru v podobě rozhodovacího stromu bylo potřeba analyzovat podobu DGA adres. Na základě jejich charakteristiky se extrahovaly atributy, podle kterých se bude výsledný klasifikátor rozhodovat. Po natrénování klasifikačního modelu na trénovací sadě byl klasifikátor implementován v cílové platformě NEMEA jako detekční modul. Po finálních optimalizacích a testování jsme dosáhli úspěšnosti klasifikátoru 99%, což je velmi pozitivní výsledek. NEMEA modul je připraven pro nasazení do reálného provozu, aby mohl detekovat bezpečnostní incidenty. Kromě NEMEA modulu byl dodatečně vytvořen model na predikování úspěšnosti datových sad s doménovými jmény. Model je natrénován na základě charakteristiky datové sady a úspěšnosti DGA detektoru, jehož chování chceme predikovat.
strojové učení, doménová jména, rozhodovací strom, botnet, detekce umělých domén, binární klasifikace, síťová bezpečnost, NEMEA, DGA
Student nejprve prezentoval výsledky, kterých dosáhl v rámci své práce. Komise se poté seznámila s hodnocením vedoucího a posudkem oponenta práce. Student následně odpověděl na otázky oponenta a na další otázky přítomných. Komise se na základě posudku oponenta, hodnocení vedoucího, přednesené prezentace a odpovědí studenta na položené otázky rozhodla práci hodnotit stupněm "A".
- Ve své práci jste se zmínil o použití nástrojů host a whois pro rezoluci DNS jmen. Zmínil jste také, že použití těchto nástrojů je příliš pomalé, a proto nevhodné. Uvažoval jste o použití těchto nástrojů paralelním způsobem?
- Jaké vzorky DGA (různý malware používá různé generátory) jste použil ve svých souborech dat? Použil jste vzorky pouze jednoho typu, nebo mix řekněme 100 různých? V teoretické části uvádíte například Bambenek nebo Netlab 360, ale v praktické části jsem si nevšiml, jaké konkrétní DGA vzory jste použil.
- Komise, například: Zkoušel jste korelace mezi "features"?
- Komise, například: Generoval jste sám jména položek?
Hliněná Dana, doc. RNDr., Ph.D. (UMAT FEKT VUT), člen
Kořenek Jan, doc. Ing., Ph.D. (UPSY FIT VUT), člen
Křena Bohuslav, Ing., Ph.D. (UITS FIT VUT), člen
Szőke Igor, Ing., Ph.D. (UPGM FIT VUT), člen
@bachelorsthesis{FITBT23737, author = "Ji\v{r}\'{i} Setinsk\'{y}", type = "Bakal\'{a}\v{r}sk\'{a} pr\'{a}ce", title = "Detekce \v{s}kodliv\'{y}ch dom\'{e}nov\'{y}ch jmen", school = "Vysok\'{e} u\v{c}en\'{i} technick\'{e} v Brn\v{e}, Fakulta informa\v{c}n\'{i}ch technologi\'{i}", year = 2021, location = "Brno, CZ", language = "czech", url = "https://www.fit.vut.cz/study/thesis/23737/" }