Detail práce

Bioinformatic Tool for Classification of Bacteria into Taxonomic Categories Based on the Sequence of 16S rRNA Gene

Diplomová práce Student: Valešová Nikola Akademický rok: 2018/2019 Vedoucí: Smatana Stanislav, Ing.
Název česky
Bioinformatický nástroj pro klasifikaci bakterií do taxonomických kategorií na základě sekvence genu 16S rRNA
Jazyk práce
anglický
Abstrakt

Tato práce se zabývá problematikou automatizované klasifikace a rozpoznávání bakterií po získání jejich DNA procesem sekvenování. V rámci této práce je navržena a popsána nová metoda klasifikace založená na základě segmentu 16S rRNA. Představený princip je vytvořen podle stromové struktury taxonomických kategorií a používá známé algoritmy strojového učení pro klasifikaci bakterií do jedné ze tříd na nižší taxonomické úrovni. Součástí práce je dále implementace popsaného algoritmu a vyhodnocení jeho přesnosti predikce. Přesnost klasifikace různých typů klasifikátorů a jejich nastavení je prozkoumána a je určeno nastavení, které dosahuje nejlepších výsledků. Přesnost implementovaného algoritmu je také porovnána s několika existujícími metodami. Během validace dosáhla implementovaná aplikace KTC více než 45% přesnosti při predikci rodu na datových sadách BLAST 16S i BLAST V4. Na závěr je zmíněno i několik možností vylepšení a rozšíření stávající implementace algoritmu.

Klíčová slova

Strojové učení, metagenomika, klasifikace baterií, fylogenetický strom, taxonomie, 16S rRNA, sekvenování DNA, scikit-learn

Ústav
Studijní program
Informační technologie, obor Inteligentní systémy
Soubory
Stav
obhájeno, hodnocení A
Obhajoba
17. června 2019
Oponent
Průběh obhajoby

Studentka nejprve prezentovala výsledky, kterých dosáhla v rámci své práce. Komise se poté seznámila s hodnocením vedoucího a posudkem oponenta práce. Studentka následně odpověděla na otázky oponenta a na další otázky přítomných. Komise se na základě posudku oponenta, hodnocení vedoucího, přednesené prezentace a odpovědí studentky na položené otázky rozhodla práci hodnotit stupněm A.

Otázky u obhajoby
  • Proč je nástroj TOP přesnější než váš model? Mohlo by to souviset se ztrátou informace při použití k-merového spektra?
  • U algoritmu NMDK vybíráte N prvků k-merového spektra s největšími rozdíly. Co kdyby se použili všechny prvky k-merového spektra, které by měly rozdíl větší než pevně stanovený práh? Mohlo by to vést ke zlepšení klasifikace?
  • Existuje publikace s algoritmem ITS a zkoušela jste se sním srovnat?
  • Jaká je výpočetní náročnost Vašeho algoritmu?
  • Data sety jste si tvořila sama, nebo jste použila existující?
Komise
Zbořil František, doc. Ing., Ph.D. (UITS FIT VUT), předseda
Bidlo Michal, doc. Ing., Ph.D. (UPSY FIT VUT), člen
Burget Lukáš, doc. Ing., Ph.D. (UPGM FIT VUT), člen
Grézl František, Ing., Ph.D. (UPGM FIT VUT), člen
Lucká Mária, prof. RNDr., Ph.D. (FIIT STU), člen
Rogalewicz Adam, doc. Mgr., Ph.D. (UITS FIT VUT), člen
Citace
VALEŠOVÁ, Nikola. Bioinformatic Tool for Classification of Bacteria into Taxonomic Categories Based on the Sequence of 16S rRNA Gene. Brno, 2019. Diplomová práce. Vysoké učení technické v Brně, Fakulta informačních technologií. 2019-06-17. Vedoucí práce Smatana Stanislav. Dostupné z: https://www.fit.vut.cz/study/thesis/21517/
BibTeX
@mastersthesis{FITMT21517,
    author = "Nikola Vale\v{s}ov\'{a}",
    type = "Diplomov\'{a} pr\'{a}ce",
    title = "Bioinformatic Tool for Classification of Bacteria into Taxonomic Categories Based on the Sequence of 16S rRNA Gene",
    school = "Vysok\'{e} u\v{c}en\'{i} technick\'{e} v Brn\v{e}, Fakulta informa\v{c}n\'{i}ch technologi\'{i}",
    year = 2019,
    location = "Brno, CZ",
    language = "english",
    url = "https://www.fit.vut.cz/study/thesis/21517/"
}
Nahoru