Detail publikace

BUT-FIT at SemEval-2020 Task 4: Multilingual commonsense

JON Josef, FAJČÍK Martin, DOČEKAL Martin a SMRŽ Pavel. BUT-FIT at SemEval-2020 Task 4: Multilingual commonsense. In: Proceedings of the Fourteenth Workshop on Semantic Evaluation. Barcelona: Association for Computational Linguistics, 2020, s. 374-390. ISBN 978-1-952148-31-6. Dostupné z: https://www.aclweb.org/anthology/2020.semeval-1.46/
Název česky
BUT-FIT na SemEval-2020 Úkol 4: Vícejazyčný zdravý rozum
Typ
článek ve sborníku konference
Jazyk
angličtina
Autoři
Jon Josef, Ing. (UPGM FIT VUT)
Fajčík Martin, Ing. (UPGM FIT VUT)
Dočekal Martin, Ing. (UPGM FIT VUT)
Smrž Pavel, doc. RNDr., Ph.D. (UPGM FIT VUT)
URL
Klíčová slova

Zpracování přirozeného jazyka, zdravý rozum, předtrénované jazykové modely, vícejazyčný, strojový překlad

Abstrakt

Zúčastnili jsme se všech podúkolů. V úkolech A a B jsou naše podání založena na předtrénovaných modelech pro reprezentaci jazyka (konkrétně ALBERT) a na augmentaci dat. Experimentovali jsme s řešením úkolu pro jiný jazyk, konkrétně češtinu, s využitím vícejazyčných modelů a strojového prekladu , nebo překladu vstupů modelu. Ukazujeme, že se silným systémem pro strojový překlad může být náš systém použit v jiném jazyce s malou ztrátou přesnosti. V podúkolu C se náš systém, založený na pretrénovaném modelu BART, umístil na 1. místě v hodnocení prostřednictvím BLEU skóre, nicméně ukazujeme, že korelace mezi BLEU a lidským hodnocením, ve kterém náš systém skončil na 4. místě, je nízká. Analyzujeme metriky použité při hodnocení a navrhujeme další skóre na základě modelu z podúkolu B, který dobře koreluje s naším lidským hodnocením, stejně jako metodu přeřazení výstupů založenou na stejném principu. Provedli jsme analýzu chyb a datový sad pro všechny dílčí úkoly a prezentujeme naše zjištění.

Rok
2020
Strany
374-390
Sborník
Proceedings of the Fourteenth Workshop on Semantic Evaluation
Konference
The 28th International Conference on Computational Linguistics, Barcelona (online), ES
ISBN
978-1-952148-31-6
Vydavatel
Association for Computational Linguistics
Místo
Barcelona, ES
EID Scopus
BibTeX
@INPROCEEDINGS{FITPUB12424,
   author = "Josef Jon and Martin Faj\v{c}\'{i}k and Martin Do\v{c}ekal and Pavel Smr\v{z}",
   title = "BUT-FIT at SemEval-2020 Task 4: Multilingual commonsense",
   pages = "374--390",
   booktitle = "Proceedings of the Fourteenth Workshop on Semantic Evaluation",
   year = 2020,
   location = "Barcelona, ES",
   publisher = "Association for Computational Linguistics",
   ISBN = "978-1-952148-31-6",
   language = "english",
   url = "https://www.fit.vut.cz/research/publication/12424"
}
Nahoru