Detail práce
Platform for Biological Sequence Analysis Using Machine Learning
Strojové učenie má veľa aktívnych odvetví a jedným z nich je charakterizácia proteínov, pretože experimentálne získavanie charakteristík je drahé a časovo náročné, a taktiež preto, že každoročne sú publikované mnohé sady údajov vhodné na trénovanie takýchto prediktorov. Jedna z nedávno vyvinutých metód, nazývaná innov'SAR, ktorá bola použitá už v niekoľkých aplikáciách proteínového inžinierstva, kombinuje Fourierovu transformáciu z čiastočnou lineárnou regresiou. Avšak, jej implementácia nie je voľne dostupná a samotná metóda nebola štatisticky overená. Cieľom tejto práce je adresovať tieto nedostatky, implementovať túto metódu v jazyku Python, rozšíriť ju a zahrnúť do ľahko použiteľnej platformy, ktorá umožní trénovanie a testovanie modelov. Taktiež bolo vykonané testovanie štatistickej významnosti za účelom overenia dopadu nájdených závislostí medzi sekvenciami a vlastnosťami proteínov. Metóda sa osvedčila ako štatisticky významná so silnými závislosťami nájdenými medzi vstupmi a výstupmi. Novo zozbierané dátové sady haloalkán dehalogenáz sa použili na vytvorenie modelov s validačným skóre Q2 = 0.54 a Q2 = 0.77, čo je takmer dvojnásobné zlepšenie oproti základným modelom. Tieto modely majú potenciál na filtrovanie väčších databáz sekvencií a vyhľadávanie proteínov s potenciálne lepšími vlastnosťami.
strojové učenie, proteínové inžinierstvo, bioinformatika, PLS, haloalkán dehalogenázy
Student nejprve prezentoval výsledky, kterých dosáhl v rámci své práce. Komise se poté seznámila s hodnocením vedoucího a posudkem oponenta práce. Student následně odpověděl na otázky oponenta a na další otázky přítomných. Komise se na základě posudku oponenta, hodnocení vedoucího, přednesené prezentace a odpovědí studenta na položené otázky rozhodla práci hodnotit stupněm A.
- Jsou v uloženém modelu uchovány i vybrané vlastnosti z databáze AAindex, které byly při trénování modelu vyhodnoceny jako nejvhodnější?
Hradiš Michal, Ing., Ph.D. (UPGM FIT VUT), člen
Jaroš Jiří, doc. Ing., Ph.D. (UPSY FIT VUT), člen
Křivka Zbyněk, Ing., Ph.D. (UIFS FIT VUT), člen
Lengál Ondřej, Ing., Ph.D. (UITS FIT VUT), člen
@bachelorsthesis{FITBT25037, author = "D\'{a}vid Lacko", type = "Bakal\'{a}\v{r}sk\'{a} pr\'{a}ce", title = "Platform for Biological Sequence Analysis Using Machine Learning", school = "Vysok\'{e} u\v{c}en\'{i} technick\'{e} v Brn\v{e}, Fakulta informa\v{c}n\'{i}ch technologi\'{i}", year = 2022, location = "Brno, CZ", language = "english", url = "https://www.fit.vut.cz/study/thesis/25037/" }