Téma disertační práce

Meranie kvality výstupov veľkých jazykových modelov

Ak. rok 2024/2025

Programy:
Informační technologie (DIT) - kombinované studium
Information Technology (DIT-EN) - kombinované studium

S nástupom veľkých jazykových modelov (LLM) vyvstávajú výskumné otázky ako merať kvalitu a vlastnosti ich výstupov. Tieto merania sú dôležité pre porovnávanie a vylepšovanie modelov či ladenie ich vstupov (prompts). Niektoré techniky vyhodnocovania sa vzťahujú k špecifickým doménam a scenárom použitia (napr. ako presne model odpovedá na faktické otázky v konkrétnej doméne? ako dobre sa dajú generované príklady použiť na trénovanie malého modelu na konkrétnu úlohu?). Iné techniky sú všeobecnejšie (napr. aká je rozmanitosť parafráz generovaných LLM? ako jednoduché je detegovať, že je obsah generovaný?).

Prostredníctvom replikačných štúdií, porovnávacích experimentov, návrhov metrík, konštrukcie vstupov a iných prístupov, doktorand/ka posunie poznanie v metódach a experimentálnych metodológiách vyhodnocovania výstupov veľkých jazykových modelov. Za pozornosť pritom stoja dva všeobecné scenáre:

Generovanie a/alebo augmentácia datasetov, kedy sa LLM podnecujú relatívne malými vzorkami príkladov, aby vytvorili oveľa rozsiahlejšie súbory. Tento prístup je užitočný najmä v doménach a úlohách s malým množstvom dostupných originálnych (označkovaných) trénovacích dát (napr. doména detekcie dezinformácií).
Detekcia generovaného obsahu, kde sa využívajú stylometrické, štatistické, hlboko-učené či hybridné metódy na určovanie, či bol príklad obsahu generovaný alebo modifikovaný strojovo. Schopnosť detekcie generovaného obsahu je kľúčová pre mnoho scenárov z reálneho sveta (napr. detekcia dezinformácií alebo podvodov), ale prispieva aj do výskumných postupov (napr. pri zisťovaní prítomnosti generovaného obsahu v publikovaných datasetoch či vo vzorkách pochádzajúcich z crowdsourcingu).

Doktorand/ka si vyberie jeden z uvedených scenárov (no nebude ním obmedzený/á) a ďalej ho rozpracuje a primerane zúži na špecifické výskumné otázky, ktoré experimentálne overí.

Súvisiace publikácie:

Cegin, J., Simko, J. and Brusilovsky, P., 2023. ChatGPT to Replace Crowdsourcing of Paraphrases for Intent Classification: Higher Diversity and Comparable Model Robustness. Proceedings of the 2023 Conference on Empirical Methods in Natural Language Processing https://arxiv.org/pdf/2305.12947.pdf
Macko, D., Moro, R., Uchendu, A., Lucas, J.S., Yamashita, M., Pikuliak, M., Srba, I., Le, T., Lee, D., Simko, J. and Bielikova, M., 2023. MULTITuDE: Large-Scale Multilingual Machine-Generated Text Detection Benchmark. Proceedings of the 2023 Conference on Empirical Methods in Natural Language Processing https://arxiv.org/pdf/2310.13606.pdf

Výskum bude doktorand vykonávať v rámci Kempelenovho inštitútu inteligentných technológií (KInIT, https://kinit.sk) v Bratislave v spolupráci s priemyselnými partnermi alebo výskumníkmi zo svetovo uznávaných výskumných skupín. Predpokladá sa kombinovaná (externá) forma štúdia a pracovný pomer na plný úväzok v KInIT.