Detail práce

Mining of soluble enzymes from genomic databases

Disertační práce Student: Hon Jiří Akademický rok: 2021/2022 Vedoucí: Zendulka Jaroslav, doc. Ing., CSc.
Název česky
Dolování rozpustných enzymů z genomických databází
Jazyk práce
anglický
Abstrakt

Enzymy jsou proteiny urychlující chemické reakce s velkým potenciálem pro farmaceutický a obecně chemický průmysl. Enzymatická funkce je obvykle zajištěna několika nepostradatelnými aminokyselinami, které tvoří tzv. aktivní místo, kde se odehrává chemická reakce. V této práci jsou prezentovány dva integrované softwarové nástroje pro dolování a racionální výběr nových rozpustných enzymů - EnzymeMiner a SoluProt. EnzymeMiner slouží k hledání nových enzymů. Na vstupu vyžaduje jednu nebo více sekvencí zvoleného enzymu spolu se seznamem klíčových aminokyselin. Tento seznam slouží k zvýšení pravděpodobnosti, že nalezený enzym bude mít podobnou funkci jako vstupní enzym. Výstupem EnzymeMineru je množina anotovaných sekvencí nalezených v databázi. Za účelem ulehčení výběru několika málo kandidátů pro experimentální ověření v laboratoři integruje EnzymeMiner anotace z dostupných databází - informaci o zdrojovém organismu a prostředí, ve kterém se vyskytuje, a informaci o proteinových doménách, ze kterých se enzym skládá. Hlavním kritériem pro výběr kandidátů je rozpustnost predikovaná druhým prezentovaným nástrojem, SoluProtem.SoluProt je metoda založená na strojovém učení, která predikuje heterologní rozpustnou expresi proteinu v organismu Escherichia coli. Vstupem je sekvence a výstupem je pravděpodobnost, že protein bude exprimován v rozpustné formě. SoluProt využívá model gradient boosting machine a byl trénován na datové sadě odvozené od databáze TargetTrack. Při srovnání na vyvážené nezávislé datové sadě odvozené z databáze NESG dosáhl SoluProt přesnosti 58,5 % a hodnoty AUC 0,62, čímž lehce převyšuje ostatní existující nástroje. Nástroje EnzymeMiner i SoluProt jsou často využívány řadou uživatelů z oblasti proteinového inženýrství za účelem hledání nových rozpustných biokatalyzátorů chemických reakcí. Ty mají velký potenciál snížit energetickou náročnost a ekologickou zátěž mnoha průmyslových procesů.

Klíčová slova

dolování enzymů, rozpustnost proteinů, proteinové inženýrství, strojové učení

Ústav
Studijní program
Výpočetní technika a informatika, obor Výpočetní technika a informatika
Soubory
Stav
obhájeno
Obhajoba
22. března 2022
Citace
HON, Jiří. Mining of soluble enzymes from genomic databases. Brno, 2021. Disertační práce. Vysoké učení technické v Brně, Fakulta informačních technologií. 2022-03-22. Vedoucí práce Zendulka Jaroslav. Dostupné z: https://www.fit.vut.cz/study/phd-thesis/908/
BibTeX
@phdthesis{FITPT908,
    author = "Ji\v{r}\'{i} Hon",
    type = "Diserta\v{c}n\'{i} pr\'{a}ce",
    title = "Mining of soluble enzymes from genomic databases",
    school = "Vysok\'{e} u\v{c}en\'{i} technick\'{e} v Brn\v{e}, Fakulta informa\v{c}n\'{i}ch technologi\'{i}",
    year = 2022,
    location = "Brno, CZ",
    language = "english",
    url = "https://www.fit.vut.cz/study/phd-thesis/908/"
}
Nahoru