Detail publikace
Strategies for Improving Low Resource Speech to Text Translation Relying on Pre-trained ASR Models
Sarvaš Marek, Bc. (UPGM FIT VUT)
Pavlíček Tomáš, Ing. (Phonexia)
Macaire Cécile (UGA)
Ciuba Alejandro ()
Tento článek představuje techniky a poznatky pro zlepšení výkonu nízkozdrojového překladu řeči do textu (ST). Provedli jsme experimenty se simulovanými i reallow nastaveními zdrojů, na jazykových párech angličtina - portugalština a tamasheq - francouzština. S použitím rámce kodér-dekodér pro ST naše výsledky ukazují, že vícejazyčný systém automatického rozpoznávání řeči funguje jako dobrá inicializace ve scénářích s nízkými zdroji. Kromě toho použití CTC jako dalšího cíle pro překlad během školení a dekódování pomáhá změnit pořadí vnitřních reprezentací a zlepšuje konečný překlad. Prostřednictvím našich experimentů se snažíme identifikovat různé faktory (inicializace, cíle a hyperparametry), které nejvíce přispívají ke zlepšení nastavení s nízkými zdroji. S pouhými 300 hodinami předtréninkových dat dosáhl náš model skóre 7,3 BLEU na údajích Tamasheq - French, čímž překonal předchozí publikované práce z IWSLT 2022 o 1,6 bodu.
@INPROCEEDINGS{FITPUB13109, author = "Santosh Kesiraju and Marek Sarva\v{s} and Tom\'{a}\v{s} Pavl\'{i}\v{c}ek and C\'{e}cile Macaire and Alejandro Ciuba", title = "Strategies for Improving Low Resource Speech to Text Translation Relying on Pre-trained ASR Models", pages = "2148--2152", booktitle = "Proceedings of the Annual Conference of the International Speech Communication Association, INTERSPEECH", journal = "Proceedings of Interspeech - on-line", volume = 2023, number = 08, year = 2023, location = "Dublin, IE", publisher = "International Speech Communication Association", ISSN = "1990-9772", doi = "10.21437/Interspeech.2023-2506", language = "english", url = "https://www.fit.vut.cz/research/publication/13109" }