Detail publikace
Towards Evaluating Quality of Datasets for Network Traffic Domain
Hynek Karel, Ing. (FIT ČVUT)
Soukup Dominik, Ing. (FIT ČVUT)
Tisovčík Peter, Ing. (UPSY FIT VUT)
Datová sada; Kvalita dat; Analýza síťového provozu
Tento článek se zabývá kvalitou datových sad síťového provozu vytvořených pro trénování a ověřování metod klasifikace a detekce strojového učení. Přirozeně existuje dlouhá epocha výzkumu zaměřeného na kvalitu dat; zaměřuje se však především na konzistenci dat, validitu, přesnost a další metriky, které jsou pro případy použití síťového provozu nedostatečné. Nárůst využití strojového učení v aplikacích pro monitorování sítě vyžaduje novou metodiku pro vyhodnocovací datové sady. Je potřeba vyhodnotit a porovnat vzorky toků zachycené za různých podmínek a rozhodnout o použitelnosti již zachycených a anotovaných dat. Tento článek si klade za cíl vysvětlit případ použití tvorby datových sad, navrhnout definice týkající se kvality datových sad síťového provozu a nakonec popsat rámec pro analýzu datových sad.
@INPROCEEDINGS{FITPUB12640, author = "Tom\'{a}\v{s} \v{C}ejka and Karel Hynek and Dominik Soukup and Peter Tisov\v{c}\'{i}k", title = "Towards Evaluating Quality of Datasets for Network Traffic Domain", pages = "264--268", booktitle = "Proceedings of the 17th International Conference on Network Service Management (CNSM 2021)", year = 2021, location = "Izmir, TR", publisher = "Institute of Electrical and Electronics Engineers", ISBN = "978-3-903176-36-2", doi = "10.23919/CNSM52442.2021.9615601", language = "english", url = "https://www.fit.vut.cz/research/publication/12640" }