Detail publikace

DNN Based Embeddings for Language Recognition

LOZANO Díez Alicia, PLCHOT Oldřich, MATĚJKA Pavel a GONZALEZ-RODRIGUEZ Joaquin. DNN Based Embeddings for Language Recognition. In: Proceedings of ICASSP 2018. Calgary: IEEE Signal Processing Society, 2018, s. 5184-5188. ISBN 978-1-5386-4658-8.
Název česky
DNN Embeddings pro rozpoznávání jazyka
Typ
článek ve sborníku konference
Jazyk
angličtina
Autoři
Lozano Díez Alicia (UAM)
Plchot Oldřich, Ing., Ph.D. (UPGM FIT VUT)
Matějka Pavel, Ing., Ph.D. (UPGM FIT VUT)
Gonzalez-Rodriguez Joaquin (UAM)
URL
Abstrakt

V této práci představujeme systém identifikace jazyka (LID) založený na DNN embeddingech. V našem případě je embeddingem vektor s pevnou délkou (podobný i-vektoru), který představuje celou promluvu, ale na rozdíl od i-vektoru je navržen tak, aby obsahoval většinou informace relevantní pro cílovou úlohu (LID). Abychom získali tyto embeddingy, trénujeme hlubokou neuronovou síť (DNN) se sekvenční souhrnnou vrstvou pro klasifikaci jazyků. Zejména jsme trénovali DNN na základě obousměrných vrstev dlouhodobé krátkodobé paměti (BLSTM) rekurentní neurální sítě (RNN), jejichž výstupy po jednotlivých rámcích jsou shrnuty do průměrné a standardní odchylky. Po této vrstvě sdružování přidáme dvě plně spojené vrstvy, jejichž výstupy odpovídají vložení. Nakonec přidáme výstupní vrstvu softmax a trénujeme celou síť s cílem více tříd entropie rozlišovat mezi jazyky. Uvádíme naše výsledky na NIST LRE 2015 a porovnáváme výkon vložení a odpovídajících i-vektorů, oba modelovaných Gaussian Linear Classifier (GLC). Použití pouze vložení mělo za následek srovnatelný výkon s i-vektory a provedením fúze na úrovni skóre jsme dosáhli 7,3% relativního zlepšení oproti základní linii.

Rok
2018
Strany
5184-5188
Sborník
Proceedings of ICASSP 2018
Konference
IEEE International Conference on Acoustics, Speech and Signal Processing, Calgary, CA
ISBN
978-1-5386-4658-8
Vydavatel
IEEE Signal Processing Society
Místo
Calgary, CA
DOI
UT WoS
000446384605071
EID Scopus
BibTeX
@INPROCEEDINGS{FITPUB11723,
   author = "Alicia D\'{i}ez Lozano and Old\v{r}ich Plchot and Pavel Mat\v{e}jka and Joaquin Gonzalez-Rodriguez",
   title = "DNN Based Embeddings for Language Recognition",
   pages = "5184--5188",
   booktitle = "Proceedings of ICASSP 2018",
   year = 2018,
   location = "Calgary, CA",
   publisher = "IEEE Signal Processing Society",
   ISBN = "978-1-5386-4658-8",
   doi = "10.1109/ICASSP.2018.8462403",
   language = "english",
   url = "https://www.fit.vut.cz/research/publication/11723"
}
Nahoru