Téma disertační práce

Adresovanie obmedzení veľkých jazykových modelov

Ak. rok 2024/2025

Školitel: Gregor Michal, doc. Ing., Ph.D.

Programy:
Informační technologie (DIT) - kombinované studium
Information Technology (DIT-EN) - kombinované studium

Veľké jazykové modely (LLM) predstavujú silný nástroj, ktorý dokáže podporovať širokú škálu downstream úloh. Dajú sa použiť napr. v pokročilých konverzačných rozhraniach alebo v rôznych úlohách zahŕňajúcich vyhľadávanie, klasifikáciu, generovanie a ďalšie. K takýmto úlohám možno pristupovať prostredníctvom in-context učenia v zero-shot alebo few-shot režime alebo prostredníctvom dolaďovania (angl. fine-tuning) LLM na väčších dátových množinách (kvôli zníženiu požiadaviek na pamäť a diskový priestor zvyčajne pomocou techník PEFT (z angl. parameter-efficient fine-tuning)). Napriek ich bezprecedentným výsledkom na mnohých úlohách trpia LLM niekoľkými významnými obmedzeniami, ktoré v súčasnosti v mnohých doménach bránia ich bezpečnému a širokému použitiu. Tieto obmedzenia zahŕňajú napr. tendenciu generovať odpovede, ktoré nemajú oporu v tréningovom korpuse alebo vstupnom kontexte (halucinácie), ťažkosti pri manipulácii s extrémne dlhými kontextami (napr. celé knihy) či obmedzenou schopnosťou využívať iné dátové modality, ako je obraz, kde majú state-of-the-art modely napr. problém rozpoznávať jemné vizuálne koncepty. Cieľom výskumu je preskúmať takéto obmedzenia a – po zameraní sa na jedno alebo dve z nich – navrhnúť nové stratégie na ich zmiernenie. Také stratégie môžu zahŕňať napr.: • Posun režimu generovania bližšie k prístupom využívajúcim vyhľadávanie (angl. retrieval-based) a k neparametrickým jazykovým modelom; • Rozšírenie modelov o samoopravné mechanizmy či samohodnotiace pipeline-y; • Efektívna podpora pre dlhé kontexty; • Úplnejšie využitie multimodality, najmä v kontexte kombinácie obrazových a jazykových dát; vysetliteľnostná analýza modelov a návrh nových mechanizmov tréningu podporujúcich schopnosť rozpoznávať aj jemné vizuálne koncepty; • Nové techniky dolaďovania (angl. fine-tuning); • Zlepšenie a širšie využitie schopností LLM robiť logické odvodzovanie. Aplikačnou doménou môže byť napr. Podpora overovania faktov a boja proti dezinformáciám, kde je faktualita výstupov LLM absolútne kritická. Súvisiace publikácie: • Srba, I., Pecher, B., Tomlein, M., Moro, R., Stefancova, E., Simko, J. and Bielikova, M., 2022, July. Monant medical misinformation dataset: Mapping articles to fact-checked claims. In Proceedings of the 45th International ACM SIGIR Conference on Research and Development in Information Retrieval (pp. 2949-2959). https://dl.acm.org/doi/10.1145/3477495.3531726 • Pikuliak, M., Srba, I., Moro, R., Hromadka, T., Smolen, T., Melisek, M., Vykopal, I., Simko, J., Podrouzek, J. and Bielikova, M., 2023. Multilingual Previously Fact-Checked Claim Retrieval. https://arxiv.org/abs/2305.07991 Výskum bude doktorand vykonávať v rámci Kempelenovho inštitútu inteligentných technológií (KInIT v Bratislave v spolupráci s priemyselnými partnermi alebo výskumníkmi zo svetovo uznávaných výskumných skupín v rámci medzinárodných výskumných grantov. Predpokladá sa kombinovaná (externá) forma štúdia a pracovný pomer v KInIT.