Detail práce

Platform for Biological Sequence Analysis Using Machine Learning

Bakalářská práce Student: Lacko Dávid Akademický rok: 2021/2022 Vedoucí: Martínek Tomáš, doc. Ing., Ph.D.
Název česky
Platforma pro analýzu biologických sekvencí s využitím strojového učení
Jazyk práce
anglický
Abstrakt

Strojové učenie má veľa aktívnych odvetví a jedným z nich je charakterizácia proteínov, pretože experimentálne získavanie charakteristík je drahé a časovo náročné, a taktiež preto, že každoročne sú publikované mnohé sady údajov vhodné na trénovanie takýchto prediktorov. Jedna z nedávno vyvinutých metód, nazývaná innov'SAR, ktorá bola použitá už v niekoľkých aplikáciách proteínového inžinierstva, kombinuje Fourierovu transformáciu z čiastočnou lineárnou regresiou. Avšak, jej implementácia nie je voľne dostupná a samotná metóda nebola štatisticky overená. Cieľom tejto práce je adresovať tieto nedostatky, implementovať túto metódu v jazyku Python, rozšíriť ju a zahrnúť do ľahko použiteľnej platformy, ktorá umožní trénovanie a testovanie modelov. Taktiež bolo vykonané testovanie štatistickej významnosti za účelom overenia dopadu nájdených závislostí medzi sekvenciami a vlastnosťami proteínov. Metóda sa osvedčila ako štatisticky významná so silnými závislosťami nájdenými medzi vstupmi a výstupmi. Novo zozbierané dátové sady haloalkán dehalogenáz sa použili na vytvorenie modelov s validačným skóre Q2 = 0.54 a Q2 = 0.77, čo je takmer dvojnásobné zlepšenie oproti základným modelom. Tieto modely majú potenciál na filtrovanie väčších databáz sekvencií a vyhľadávanie proteínov s potenciálne lepšími vlastnosťami.

Klíčová slova

strojové učenie, proteínové inžinierstvo, bioinformatika, PLS, haloalkán dehalogenázy

Ústav
Studijní program
Informační technologie
Soubory
Stav
obhájeno, hodnocení A
Obhajoba
14. června 2022
Oponent
Průběh obhajoby

Student nejprve prezentoval výsledky, kterých dosáhl v rámci své práce. Komise se poté seznámila s hodnocením vedoucího a posudkem oponenta práce. Student následně odpověděl na otázky oponenta a na další otázky přítomných. Komise se na základě posudku oponenta, hodnocení vedoucího, přednesené prezentace a odpovědí studenta na položené otázky rozhodla práci hodnotit stupněm A.

Otázky u obhajoby
  1. Jsou v uloženém modelu uchovány i vybrané vlastnosti z databáze AAindex, které byly při trénování modelu vyhodnoceny jako nejvhodnější?
Komise
Sekanina Lukáš, prof. Ing., Ph.D. (UPSY FIT VUT), předseda
Hradiš Michal, Ing., Ph.D. (UPGM FIT VUT), člen
Jaroš Jiří, doc. Ing., Ph.D. (UPSY FIT VUT), člen
Křivka Zbyněk, Ing., Ph.D. (UIFS FIT VUT), člen
Lengál Ondřej, Ing., Ph.D. (UITS FIT VUT), člen
Citace
LACKO, Dávid. Platform for Biological Sequence Analysis Using Machine Learning. Brno, 2022. Bakalářská práce. Vysoké učení technické v Brně, Fakulta informačních technologií. 2022-06-14. Vedoucí práce Martínek Tomáš. Dostupné z: https://www.fit.vut.cz/study/thesis/25037/
BibTeX
@bachelorsthesis{FITBT25037,
    author = "D\'{a}vid Lacko",
    type = "Bakal\'{a}\v{r}sk\'{a} pr\'{a}ce",
    title = "Platform for Biological Sequence Analysis Using Machine Learning",
    school = "Vysok\'{e} u\v{c}en\'{i} technick\'{e} v Brn\v{e}, Fakulta informa\v{c}n\'{i}ch technologi\'{i}",
    year = 2022,
    location = "Brno, CZ",
    language = "english",
    url = "https://www.fit.vut.cz/study/thesis/25037/"
}
Nahoru