Detail práce

Adaptace jazykového modelu na cílovou doménu využívající stahování veřejných dat

Diplomová práce Student: Gregušová Sabína Akademický rok: 2021/2022 Vedoucí: Karafiát Martin, Ing., Ph.D.
Název anglicky
Domain Specific Data Crawling for Language Model Adaptation
Jazyk práce
český
Abstrakt

Cieľom práce je implementovať systém pre automatickú adaptáciu jazykového modelu pre Phonexia ASR systém. Systém prijíma vstupný súbor, ktorý analyzuje a vyberie vhodné výrazy pre webové vyhľadávanie. Každé webové vyhľadávanie prináša množinu dokumentov, ktoré podstupujú čistenie a filtrovanie. Výsledný webový korpus sa zmieša s Phonexia modelom a vykoná sa evaluácia. Pre odhad optimálnych parametrov boli vykonané viaceré experimenty pre hindštinu, češtinu a mandarínsku čínštinu. Výsledky experimentov boli pozitívne a implementovaný systém bol schopný znížiť perplexitu a Word Error Rate vo väčšine experimentov.

Klíčová slova

speech-to-text, automatické rozpoznávanie reči, jazykový model, adaptácia jazykového modelu, automatické prehľadávanie webu, automatické čistenie webových dokumentov, automatické vyhodnotenie webových dokumentov

Ústav
Studijní program
Informační technologie a umělá inteligence, specializace Zpracování zvuku, řeči a přirozeného jazyka
Soubory
Stav
obhájeno, hodnocení C
Obhajoba
17. června 2022
Oponent
Průběh obhajoby

Studentka nejprve prezentovala výsledky, kterých dosáhla v rámci své práce. Komise se poté seznámila s hodnocením vedoucího a posudkem oponenta práce. Studentka následně odpověděla na otázky oponenta a na další otázky přítomných. Komise se na základě posudku oponenta, hodnocení vedoucího, přednesené prezentace a odpovědí studentky na položené otázky rozhodla práci hodnotit stupněm C.

Otázky u obhajoby
  1. Zvažovala jste použití existujících nástrojů pro bloky Vašeho nástroje? Například Scrapy pro procházení webů a Hydra pro pokročilou práci s parametry?
  2. Máte v plánů publikovat celý nástroj, nebo aspoň jeho části veřejně?
  3. Pracovala jste i s neurálními jazykovými modely?
  4. Jaká je velikost českého slovníku, který jste použila?
Komise
Černocký Jan, prof. Dr. Ing. (UPGM FIT VUT), předseda
Hradiš Michal, Ing., Ph.D. (UPGM FIT VUT), člen
Janoušek Vladimír, doc. Ing., Ph.D. (UITS FIT VUT), člen
Kanich Ondřej, Ing., Ph.D. (UITS FIT VUT), člen
Rozman Jaroslav, Ing., Ph.D. (UITS FIT VUT), člen
Zbořil František, doc. Ing., Ph.D. (UITS FIT VUT), člen
Citace
GREGUŠOVÁ, Sabína. Adaptace jazykového modelu na cílovou doménu využívající stahování veřejných dat. Brno, 2022. Diplomová práce. Vysoké učení technické v Brně, Fakulta informačních technologií. 2022-06-17. Vedoucí práce Karafiát Martin. Dostupné z: https://www.fit.vut.cz/study/thesis/24957/
BibTeX
@mastersthesis{FITMT24957,
    author = "Sab\'{i}na Gregu\v{s}ov\'{a}",
    type = "Diplomov\'{a} pr\'{a}ce",
    title = "Adaptace jazykov\'{e}ho modelu na c\'{i}lovou dom\'{e}nu vyu\v{z}\'{i}vaj\'{i}c\'{i} stahov\'{a}n\'{i} ve\v{r}ejn\'{y}ch dat",
    school = "Vysok\'{e} u\v{c}en\'{i} technick\'{e} v Brn\v{e}, Fakulta informa\v{c}n\'{i}ch technologi\'{i}",
    year = 2022,
    location = "Brno, CZ",
    language = "czech",
    url = "https://www.fit.vut.cz/study/thesis/24957/"
}
Nahoru