Detail publikace

Auxiliary Loss Function for Target Speech Extraction and Recognition with Weak Supervision Based on Speaker Characteristics

ŽMOLÍKOVÁ Kateřina, DELCROIX Marc, RAJ Desh, WATANABE Shinji a ČERNOCKÝ Jan. Auxiliary Loss Function for Target Speech Extraction and Recognition with Weak Supervision Based on Speaker Characteristics. In: Proceedings of 2021 Interspeech. Brno: International Speech Communication Association, 2021, s. 1464-1468. ISSN 1990-9772. Dostupné z: https://www.isca-speech.org/archive/interspeech_2021/zmolikova21_interspeech.html
Název česky
Pomocná ztrátová funkce pro extrakci a rozpoznávání řeči cílového mluvčího se slabou supervizí založenou na charakteristice mluvčího
Typ
článek ve sborníku konference
Jazyk
angličtina
Autoři
Žmolíková Kateřina, Ing., Ph.D. (UPGM FIT VUT)
Delcroix Marc (NTT)
Raj Desh (JHU)
Watanabe Shinji, Dr. (JHU)
Černocký Jan, prof. Dr. Ing. (UPGM FIT VUT)
URL
Abstrakt

Systémy automatického rozpoznávání řeči se zhoršují v přítomnosti překrývající se řeči. Oblíbeným přístupem, jak to zmírnit, je cílová extrakce řeči. Extrakční systém je obvykle trénován pomocí ztrátové funkce měřící nesrovnalost mezi odhadovanou a referenční cílovou řečí. To často vede ke zkreslení cílového signálu, což je škodlivé pro přesnost rozpoznávání. Navíc je nutné mít silný dohled zajišťovaný paralelními daty sestávajícími z řečových směsí a signálů jednoho reproduktoru. Navrhujeme pomocnou ztrátovou funkci pro přetrénování cílové extrakce řeči. Skládá se ze dvou částí: za prvé, ztráta identity mluvčího, která vynutí, aby odhadovaná řeč měla správné charakteristiky mluvčího, a zadruhé, ztráta konzistence směsi, díky níž jsou extrahované zdroje součtem zpět do původní směsi. Jediným dohledem požadovaným pro navrhovanou ztrátu jsou charakteristiky reproduktoru získané z několika segmentů mluvených cílovým mluvčím. Díky takto slabému dohledu je ztráta vhodná pro adaptaci systému přímo na skutečné nahrávky. Ukazujeme, že navrhovaná ztráta poskytuje signály vhodnější pro rozpoznávání řeči a dále můžeme získat další vylepšení adaptací na cílová data. Celkově můžeme snížit chybovost slov na datové sadě LibriCSS z 27,4 % na 24,0 %.

Rok
2021
Strany
1464-1468
Časopis
Proceedings of Interspeech - on-line, roč. 2021, č. 8, ISSN 1990-9772
Sborník
Proceedings of 2021 Interspeech
Konference
Interspeech Conference, Brno, CZ
Vydavatel
International Speech Communication Association
Místo
Brno, CZ
DOI
UT WoS
000841879501116
EID Scopus
BibTeX
@INPROCEEDINGS{FITPUB12602,
   author = "Kate\v{r}ina \v{Z}mol\'{i}kov\'{a} and Marc Delcroix and Desh Raj and Shinji Watanabe and Jan \v{C}ernock\'{y}",
   title = "Auxiliary Loss Function for Target Speech Extraction and Recognition with Weak Supervision Based on Speaker Characteristics",
   pages = "1464--1468",
   booktitle = "Proceedings of 2021 Interspeech",
   journal = "Proceedings of Interspeech - on-line",
   volume = 2021,
   number = 8,
   year = 2021,
   location = "Brno, CZ",
   publisher = "International Speech Communication Association",
   ISSN = "1990-9772",
   doi = "10.21437/Interspeech.2021-986",
   language = "english",
   url = "https://www.fit.vut.cz/research/publication/12602"
}
Nahoru