Detail práce

Automated Factoid Question Answering and Fact-Checking in Natural Language

Disertační práce Student: Fajčík Martin Akademický rok: 2023/2024 Vedoucí: Smrž Pavel, doc. RNDr., Ph.D.
Název česky
Automatické odpovídání na faktické otázky a ověřování faktů v přirozeném jazyce
Jazyk práce
anglický
Abstrakt

Tato práce se zabývá dvěma problémy, které spoléhají na přesné pochopení faktických informací. Ve faktoidním zodpovídání otázek (QA) se práce zabýva třemi tématy. Nejprve je představena nová objektivní funkce a formulace složené pravděpodobnosti pro systémy, které extrahují odpověď jako textový úsek. Experimenty ukazují, že navrhovaná objektivní funkce se složeným pravděpodobnostním prostorem je Pareto optimální vůči jiným, běžně používaným objektivním funkcím. V druhé části se práce zabývá problematikou QA nad otevřenou doménou. Ukazuje vzájemně doplňující se vlastnosti extraktivních a abstraktivních přístupů a navrhuje nový modulární systém R2-D2, který slouží jako silný systém pro srovnání (baseline) v komunitě. V třetí části práce studuje vliv zmenšovaní korpusu pro vyhledávání pomocí mechanismu prořezávání při použití R2-D2. Experimenty ukazují, že u dvou populárních datových sad - NaturalQuestions a TriviaQA - lze odstranit dvě třetiny korpusu pro vyhledávání, aniž by došlo ke zhoršení výsledných odpovědí systému a 92 % lze odstranit se zhoršením pouze do -3 skóre přesné shody (exact match). Zjištené poznatky naznačují, že stejný mechanismus prořezávání je implicitně přítomen v moderních metodách učeného vyhledávání, jako je DPR. Dále v oblasti ověřování faktů se práce dotýká dvou témat. Jednak ukazuje, že předtrénované modely, které nepoužívají žádné ručně vytvořené příznaky nebo metadata, mohou dosáhnout konkurenceschopných výsledků v detekci postoje lidí k fámám. Vytvořený systém se konkrétně zaměřuje na zjišťování postojů k fámám ve vláknech sociálních sítí a určuje, jestli daný příspěvek ve vlákně podporuje, odmítá, zpochybňuje nebo komentuje fámu přítomnou v diskusním vláknu. Provedené experimenty ukazují, že použití pouze prvního příspevku vlákna a předchozího příspevku vlákna stačí k tomu, aby model určil aktuální postoj příspevku. Posledním tématem, kterým se práce zabývá, je ověřování faktů založené na vyhledávání podporující evidence. Je navržen systém Claim-Dissector, který společně identifikuje relevantní evidenci a určuje věrohodnost diskutabilního tvrzení. Navržený systém dokáže najít podpůrnou a vyvracející evidenci pro tvrzení v jakékoli jazykové granularitě, na úrovni tokenů, vět nebo odstavců, a propojit je interpretovatelným způsobem s verdiktem. Dále je ukázáno, že model umožňuje úspěšný přenos učení z hrubé granularity poskytnuté během učení na jemnou granularitu predikcí. Zejména je ukázano, že učení identifikace relevance na úrovni vět je dostatečné k získání relevantních zdůvodnění na úrovni tokenu a učení na úrovni bloku je dostatečné k získání relevantních zdůvodnění na úrovni vět. Silné výsledky systému Claim-Dissector jsou demonstrovány na 5 datových sadách, včetně nově shromážděné sady TLR-FEVER, a dvou různých předtrénovaných modelech. Kód pro všechny experimenty je k dispozici online.

Klíčová slova

odpovídaní na otázky, faktoidné zodpovídaní otázek, oveřovaní faktů, fact-checking, QA,FC, extraktivní zodpovídaní otázek, prořezávaní korpusu u QA, compound objective,TriviaQA,EfficientQA, NaturalQuestions, R2-D2, Claim-Dissector

Ústav
Studijní program
Výpočetní technika a informatika, obor Výpočetní technika a informatika
Soubory
Stav
obhájeno
Obhajoba
25. dubna 2024
Citace
FAJČÍK, Martin. Automated Factoid Question Answering and Fact-Checking in Natural Language. Brno, 2023. Disertační práce. Vysoké učení technické v Brně, Fakulta informačních technologií. 2024-04-25. Vedoucí práce Smrž Pavel. Dostupné z: https://www.fit.vut.cz/study/phd-thesis/1224/
BibTeX
@phdthesis{FITPT1224,
    author = "Martin Faj\v{c}\'{i}k",
    type = "Diserta\v{c}n\'{i} pr\'{a}ce",
    title = "Automated Factoid Question Answering and Fact-Checking in Natural Language",
    school = "Vysok\'{e} u\v{c}en\'{i} technick\'{e} v Brn\v{e}, Fakulta informa\v{c}n\'{i}ch technologi\'{i}",
    year = 2024,
    location = "Brno, CZ",
    language = "english",
    url = "https://www.fit.vut.cz/study/phd-thesis/1224/"
}
Nahoru