Detail publikace

Unsupervised Word Segmentation from Discrete Speech Units in Low-Resource Settings

BOITO Marcely Z., YUSUF Bolaji, ONDEL Yang Lucas Antoine Francois, VILLAVICENCIO Aline a BESACIER Laurent. Unsupervised Word Segmentation from Discrete Speech Units in Low-Resource Settings. In: Proceedings of the the 1st Annual Meeting of the ELRA/ISCA Special Interest Group on Under-Resourced Languages. Marseile: European Language Resources Association, 2022, s. 1-9. ISBN 979-10-95546-91-7. Dostupné z: https://aclanthology.org/2022.sigul-1.1.pdf
Název česky
Slovní segmentace s učením dohledu založená na diskrétních řečových jednotkách ve scénářích s nedostatkem zdrojů
Typ
článek ve sborníku konference
Jazyk
angličtina
Autoři
Boito Marcely Z. (INRIA)
Yusuf Bolaji (UPGM FIT VUT)
Ondel Yang Lucas Antoine Francois, Mgr., Ph.D. (UPSAC)
Villavicencio Aline (UESSEX)
Besacier Laurent (UGA)
URL
Abstrakt

Dokumentace jazyků pomáhá předcházet zániku ohrožených dialektů, z nichž se jinak očekává, že se mnohé vytratí. se objeví na konci století. Při dokumentování ústních jazyků je nekontrolovaná segmentace slov (UWS) z řeči užitečný, ale náročný úkol. Spočívá ve výrobě časových razítek pro dělení výpovědí na odpovídající menší segmenty na slova, která se provádějí z fonetických přepisů, nebo v případě, že neexistují, z výstupu řeči bez dozoru diskretizační modely. Tyto diskretizační modely jsou trénovány pouze pomocí surové řeči a vytvářejí diskrétní řečové jednotky, které mohou použít pro následné (textové) úlohy. V tomto článku porovnáváme pět z těchto modelů: tři Bayesovské a dva neurální přístupy, s ohledem na využitelnost vyrobených jednotek pro UWS. Pro úlohu UWS experimentujeme se dvěma Modely využívající jako náš cílový jazyk Mboshi (Bantu C25), nespisovný jazyk z Konga-Brazzaville. Dodatečně, hlásíme výsledky pro finštinu, maďarštinu, rumunštinu a ruštinu ve stejně nenáročných nastaveních, s použitím pouhých 4 hodin řeči. Naše výsledky naznačují, že neurální modely pro diskretizaci řeči je v našem prostředí obtížné využít, a že by tomu tak mohlo být nutné je přizpůsobit tak, aby byla omezena délka sekvence. Naše nejlepší výsledky UWS získáváme použitím Bayesovských modelů, které produkují vysoké kvalitní, přesto komprimované, diskrétní reprezentace vstupního řečového signálu.

Rok
2022
Strany
1-9
Sborník
Proceedings of the the 1st Annual Meeting of the ELRA/ISCA Special Interest Group on Under-Resourced Languages
Konference
Language Resources and Evaluation Conference 2022, Marseile, FR
ISBN
979-10-95546-91-7
Vydavatel
European Language Resources Association
Místo
Marseile, FR
EID Scopus
BibTeX
@INPROCEEDINGS{FITPUB13152,
   author = "Z. Marcely Boito and Bolaji Yusuf and Francois Antoine Lucas Yang Ondel and Aline Villavicencio and Laurent Besacier",
   title = "Unsupervised Word Segmentation from Discrete Speech Units in Low-Resource Settings",
   pages = "1--9",
   booktitle = "Proceedings of the the 1st Annual Meeting of the ELRA/ISCA Special Interest Group on Under-Resourced Languages",
   year = 2022,
   location = "Marseile, FR",
   publisher = "European Language Resources Association",
   ISBN = "979-10-95546-91-7",
   language = "english",
   url = "https://www.fit.vut.cz/research/publication/13152"
}
Nahoru