Detail publikace

Training Speaker Embedding Extractors Using Multi-Speaker Audio with Unknown Speaker Boundaries

STAFYLAKIS Themos, MOŠNER Ladislav, PLCHOT Oldřich, ROHDIN Johan A., SILNOVA Anna, BURGET Lukáš a ČERNOCKÝ Jan. Training Speaker Embedding Extractors Using Multi-Speaker Audio with Unknown Speaker Boundaries. In: Proceedings of the Annual Conference of the International Speech Communication Association, INTERSPEECH. Incheon: International Speech Communication Association, 2022, s. 605-609. ISSN 1990-9772. Dostupné z: https://www.isca-speech.org/archive/pdfs/interspeech_2022/stafylakis22_interspeech.pdf
Název česky
Trénování extraktorů embeddingů mluvčích pro nahrávky s několika mluvčími s neznámou segmentací
Typ
článek ve sborníku konference
Jazyk
angličtina
Autoři
Stafylakis Themos (OMILIA)
Mošner Ladislav, Ing. (UPGM FIT VUT)
Plchot Oldřich, Ing., Ph.D. (UPGM FIT VUT)
Rohdin Johan A., Dr. (UPGM FIT VUT)
Silnova Anna, MSc., Ph.D. (UPGM FIT VUT)
Burget Lukáš, doc. Ing., Ph.D. (UPGM FIT VUT)
Černocký Jan, prof. Dr. Ing. (UPGM FIT VUT)
URL
Abstrakt

V tomto článku demonstrujeme metodu pro trénování extraktorů mluvčího pomocí slabé anotace. Přesněji řečeno, používáme kompletní nahrávky VoxCeleb a jména celebrit, které se na jednotlivých videích objevují, bez znalosti časových intervalů, v nichž se celebrity na videu objevují. Ukazujeme, že kombinací základního algoritmu diarizace mluvčích, který nevyžaduje žádné trénování ani ladění parametrů, modifikované ztráty s agregací nad segmenty a dvoustupňového tréninkového přístupu jsme schopni natrénovat konkurenceschopný extraktor s vloženými hláškami založený na síti ResNet. Nakonec experimentujeme se dvěma různými agregačními funkcemi a analyzujeme jejich chování z hlediska jejich gradientů.

Rok
2022
Strany
605-609
Časopis
Proceedings of Interspeech - on-line, roč. 2022, č. 9, ISSN 1990-9772
Sborník
Proceedings of the Annual Conference of the International Speech Communication Association, INTERSPEECH
Konference
Interspeech Conference, Incheon, KR
Vydavatel
International Speech Communication Association
Místo
Incheon, KR
DOI
UT WoS
000900724500123
EID Scopus
BibTeX
@INPROCEEDINGS{FITPUB12847,
  author = "Themos Stafylakis and Ladislav Mo\v{s}ner and Old\v{r}ich Plchot and A. Johan Rohdin and Anna Silnova and Luk\'{a}\v{s} Burget and Jan \v{C}ernock\'{y}",
  title = "Training Speaker Embedding Extractors Using Multi-Speaker Audio with Unknown Speaker Boundaries",
  pages = "605--609",
  booktitle = "Proceedings of the Annual Conference of the International Speech Communication Association, INTERSPEECH",
  journal = "Proceedings of Interspeech - on-line",
  volume = 2022,
  number = 9,
  year = 2022,
  location = "Incheon, KR",
  publisher = "International Speech Communication Association",
  ISSN = "1990-9772",
  doi = "10.21437/Interspeech.2022-10165",
  language = "english",
  url = "https://www.fit.vut.cz/research/publication/12847"
}
Nahoru