Detail publikace
BUT Systems for IWSLT 2023 Marathi - Hindi Low Resource Speech Translation Task
Beneš Karel, Ing., Ph.D. (UPGM)
Tikhonov Maksim, Bc.
Černocký Jan, prof. Dr. Ing. (UPGM)
Marathi, Hindi, Low Resource, Speech, Translation
Tento článek popisuje systémy, které byly vytvořeny pro úlohu překladu řeči
s malými zdroji, z maráthštiny do hindštiny. Náš primární systém je založen na
systému přímého překladu řeči, zatímco kontrastní systém je kaskádový. Páteří
obou systémů je Hindsko-maráthský dvojjazyčný systém ASR natrénovaný na 2790
hodinách nedokonale přepsané řeči. Systém přímého překladu řeči byl přímo
inicializován z ASR a poté doladěn pro přímý překlad řeči (s pomocnou ztrátovou
funkcí CTC) na překlad. Model strojového překladu pro kaskádový systém je
inicializován z napříč-jazykového jazykového modelu, který byl následně doladěn
pomocí 1,6 milionu paralelních vět. Všechny naše systémy byly trénovány od nuly
na veřejně dostupných datových sadách. Nakonec používáme jazykový model pro
přeskórování n-nejlepších hypotéz. Náš primární systém dosáhl pořadě 30,5 a 39,6
BLEU, zatímco kontrastivní systém získal 21.7 a 28.6 BLEU na oficiální validační
a testovací sadě. Článek také uvádí analýzu několika experimentů, které byly
provedeny a nastiňuje strategie pro zlepšení překladu řeči ve scénářích s nízkými
zdroji.
@inproceedings{BUT185198,
author="Santosh {Kesiraju} and Karel {Beneš} and Maksim {Tikhonov} and Jan {Černocký}",
title="BUT Systems for IWSLT 2023 Marathi - Hindi Low Resource Speech Translation Task",
booktitle="20th International Conference on Spoken Language Translation, IWSLT 2023 - Proceedings of the Conference",
year="2023",
pages="227--234",
publisher="Association for Computational Linguistics",
address="Toronto (in-person and online)",
doi="10.18653/v1/2023.iwslt-1.19",
isbn="978-1-959429-84-5",
url="https://aclanthology.org/2023.iwslt-1.19.pdf"
}