Detail práce

Posilované učení pro pohyb robota

Bakalářská práce Student: Hás David Akademický rok: 2021/2022 Vedoucí: Hradiš Michal, Ing., Ph.D.
Název anglicky
Reinforcement Learning for Mobile Robots
Jazyk práce
český
Abstrakt

Tato práce se zabývá využitím posilovaného učení pro pohyb robota v simulovaném fyzikálním prostředí. Pro posilované učení se jedná o náročné úlohy, kde agenti čelí několika výzvám. Jednou z nich je spojitý prostor akcí, jelikož agent obvykle ovlivňuje prostředí aplikací síly na jednotlivé klouby. Druhým problémem je, že části robota se často vzájemně ovlivňují složitým způsobem a navíc jsou ovlivněny gravitací, setrvačností a dalšími fyzikálními efekty. Z těchto a dalších důvodů nejsou pro tyto úlohy jednoduché algoritmy posilovaného učení vhodné. Jedním z relativně nových řešení je algoritmus Soft Actor-Critic (SAC), který se objevil současně s podobně performním TD3, a oba překonávají starší DDPG. Agent SAC je odměňován za více náhodné chování, jeho cílem je tedy kromě maximalizace odměny také maximalizace entropie. Tato práce ukazuje použití tohoto algoritmu při učení agenta na úloze robotického pohybu. Je popsána implementace s použitím frameworku PyTorch a úspěšnost algoritmu je vyhodnocena na úlohách z prostředí PyBullet a OpenAI Gym. Algoritmus je na závěr použit na vlastní upravené prostředí s robotem Atlas.

Klíčová slova

strojové učení, neronové sítě, posilované učení, hluboké učení, soft actor-critic, SAC, OpenAI Gym

Ústav
Studijní program
Informační technologie
Soubory
Stav
obhájeno, hodnocení D
Obhajoba
14. června 2022
Oponent
Průběh obhajoby

Student nejprve prezentoval výsledky, kterých dosáhl v rámci své práce. Komise se poté seznámila s hodnocením vedoucího a posudkem oponenta práce. Student následně odpověděl na otázky oponenta a na další otázky přítomných. Komise se na základě posudku oponenta, hodnocení vedoucího, přednesené prezentace a odpovědí studenta na položené otázky rozhodla práci hodnotit stupněm D.

Otázky u obhajoby

1) V práci hodnotíte úspěšnost (ve všech grafech) hodnotou "Reward". ta ale není v práci vlastně vysvětlena. Co je tedy onou hodnotou "Reward" uváděnou v grafech, jak se měří?
2) V závěru práce uvádíte, že robot Atlas byl při trénování úspěšný. Jak tuto "úspěšnost" může vnímat čtenář práce. Čím se vlastně projevuje, jak to pozná?
3) Má hodnota "Reward" nějaké teoretické maximum?

Komise
Čadík Martin, doc. Ing., Ph.D. (UPGM FIT VUT), předseda
Bařina David, Ing., Ph.D. (UPGM FIT VUT), člen
Burget Radek, doc. Ing., Ph.D. (UIFS FIT VUT), člen
Češka Milan, doc. RNDr., Ph.D. (UITS FIT VUT), člen
Mrázek Vojtěch, Ing., Ph.D. (UPSY FIT VUT), člen
Citace
HÁS, David. Posilované učení pro pohyb robota. Brno, 2022. Bakalářská práce. Vysoké učení technické v Brně, Fakulta informačních technologií. 2022-06-14. Vedoucí práce Hradiš Michal. Dostupné z: https://www.fit.vut.cz/study/thesis/23906/
BibTeX
@bachelorsthesis{FITBT23906,
    author = "David H\'{a}s",
    type = "Bakal\'{a}\v{r}sk\'{a} pr\'{a}ce",
    title = "Posilovan\'{e} u\v{c}en\'{i} pro pohyb robota",
    school = "Vysok\'{e} u\v{c}en\'{i} technick\'{e} v Brn\v{e}, Fakulta informa\v{c}n\'{i}ch technologi\'{i}",
    year = 2022,
    location = "Brno, CZ",
    language = "czech",
    url = "https://www.fit.vut.cz/study/thesis/23906/"
}
Nahoru