Detail publikace

Strategies for Improving Low Resource Speech to Text Translation Relying on Pre-trained ASR Models

KESIRAJU Santosh, SARVAŠ Marek, PAVLÍČEK Tomáš, MACAIRE Cécile a CIUBA Alejandro. Strategies for Improving Low Resource Speech to Text Translation Relying on Pre-trained ASR Models. In: Proceedings of the Annual Conference of the International Speech Communication Association, INTERSPEECH. Dublin: International Speech Communication Association, 2023, s. 2148-2152. ISSN 1990-9772. Dostupné z: https://www.isca-speech.org/archive/pdfs/interspeech_2023/kesiraju23_interspeech.pdf
Název česky
Strategie pro zlepšení překladu řeči na text s omezenými zdroji zdroji založená na předtrénovaných modelech ASR
Typ
článek ve sborníku konference
Jazyk
angličtina
Autoři
Kesiraju Santosh (UPGM FIT VUT)
Sarvaš Marek, Bc. (UPGM FIT VUT)
Pavlíček Tomáš, Ing. (Phonexia)
Macaire Cécile (UGA)
Ciuba Alejandro ()
URL
Abstrakt

Tento článek představuje techniky a poznatky pro zlepšení výkonu nízkozdrojového překladu řeči do textu (ST). Provedli jsme experimenty se simulovanými i reallow nastaveními zdrojů, na jazykových párech angličtina - portugalština a tamasheq - francouzština. S použitím rámce kodér-dekodér pro ST naše výsledky ukazují, že vícejazyčný systém automatického rozpoznávání řeči funguje jako dobrá inicializace ve scénářích s nízkými zdroji. Kromě toho použití CTC jako dalšího cíle pro překlad během školení a dekódování pomáhá změnit pořadí vnitřních reprezentací a zlepšuje konečný překlad. Prostřednictvím našich experimentů se snažíme identifikovat různé faktory (inicializace, cíle a hyperparametry), které nejvíce přispívají ke zlepšení nastavení s nízkými zdroji. S pouhými 300 hodinami předtréninkových dat dosáhl náš model skóre 7,3 BLEU na údajích Tamasheq - French, čímž překonal předchozí publikované práce z IWSLT 2022 o 1,6 bodu.

Rok
2023
Strany
2148-2152
Časopis
Proceedings of Interspeech - on-line, roč. 2023, č. 8, ISSN 1990-9772
Sborník
Proceedings of the Annual Conference of the International Speech Communication Association, INTERSPEECH
Konference
Interspeech Conference, Dublin, IE
Vydavatel
International Speech Communication Association
Místo
Dublin, IE
DOI
EID Scopus
BibTeX
@INPROCEEDINGS{FITPUB13109,
   author = "Santosh Kesiraju and Marek Sarva\v{s} and Tom\'{a}\v{s} Pavl\'{i}\v{c}ek and C\'{e}cile Macaire and Alejandro Ciuba",
   title = "Strategies for Improving Low Resource Speech to Text Translation Relying on Pre-trained ASR Models",
   pages = "2148--2152",
   booktitle = "Proceedings of the Annual Conference of the International Speech Communication Association, INTERSPEECH",
   journal = "Proceedings of Interspeech - on-line",
   volume = 2023,
   number = 08,
   year = 2023,
   location = "Dublin, IE",
   publisher = "International Speech Communication Association",
   ISSN = "1990-9772",
   doi = "10.21437/Interspeech.2023-2506",
   language = "english",
   url = "https://www.fit.vut.cz/research/publication/13109"
}
Nahoru