Detail publikace

Query-Based Keyphrase Extraction from Long Documents

DOČEKAL Martin a SMRŽ Pavel. Query-Based Keyphrase Extraction from Long Documents. In: The International FLAIRS Conference Proceedings. 2022, roč. 2022. Jensen Beach: LibraryPress@UF, 2022, s. 1-4. ISSN 2334-0762. Dostupné z: https://journals.flvc.org/FLAIRS/article/view/130737
Název česky
Extrakce klíčových frází z dlouhých dokumentů založená na dotazech
Typ
článek ve sborníku konference
Jazyk
angličtina
Autoři
URL
Klíčová slova

klíčová fráze,klíčové slovo, dlouhé dokumenty, extrakce klíčových frází založená na dotazech, BERT,transformer

Abstrakt

Ve zpracování přirozeného jazyka si modely založené na architektuře Transformer vynucují omezení velikosti vstupu, což může být problematické, když je třeba zpracovat dlouhé dokumenty. Tento článek překonává zmíněný problém, pro extrakci klíčových frází, rozdělením dlouhých dokumentů na části, přičemž zachovává globální kontext pomocí dotazu definujícího téma, pro které by měly být extrahovány relevantní klíčové fráze. Vyvinutý systém využívá před-trénovaný model BERT pro odhadování pravděpodobnosti, že daný rozsah textu tvoří klíčovou frázi. Experimentovali jsme s různými velikostmi kontextů na dvou populárních datových sadách Inspec a SemEval a také na nové rozsáhlé datové sadě. Prezentované výsledky ukazují, že kratší kontext s dotazem překoná delší kontext bez dotazu na dlouhých dokumentech.

Rok
2022
Strany
1-4
Časopis
The International FLAIRS Conference Proceedings, roč. 2022, č. 35, ISSN 2334-0762
Sborník
The International FLAIRS Conference Proceedings
Řada
2022
Konference
The 35th International FLAIRS Conference, Hutchinson Island, Jensen Beach, Florida, USA, US
Vydavatel
LibraryPress@UF
Místo
Jensen Beach, US
DOI
EID Scopus
BibTeX
@INPROCEEDINGS{FITPUB12744,
   author = "Martin Do\v{c}ekal and Pavel Smr\v{z}",
   title = "Query-Based Keyphrase Extraction from Long Documents",
   pages = "1--4",
   booktitle = "The International FLAIRS Conference Proceedings",
   series = "2022",
   journal = "The International FLAIRS Conference Proceedings",
   volume = 2022,
   number = 35,
   year = 2022,
   location = "Jensen Beach, US",
   publisher = "LibraryPress@UF",
   ISSN = "2334-0762",
   doi = "10.32473/flairs.v35i.130737",
   language = "english",
   url = "https://www.fit.vut.cz/research/publication/12744"
}
Nahoru