Detail výsledku

Tensorflow implementation of speaker recognition with x-vector topology

Vznik: 2019

Typ

software

Jazyk

anglicky

Autoři

Zeinali Hossein, Ph.D., UPGM (FIT)
Burget Lukáš, doc. Ing., Ph.D., UPGM (FIT)
Rohdin Johan Andréas, M.Sc., Ph.D., FIT (FIT), UPGM (FIT)
Stafylakis Themos
Černocký Jan, prof. Dr. Ing., UPGM (FIT)

Popis

This is a Tensorflow implementation of x-vector topology (speaker embedding). It uses Kaldi toolkit for data processing. We train the model using Tensorflow and also extract speaker embeddings (x-vectors) using it. This allow to train or retrain the system to the particular customer specific domain or provides the ability to modify the topology or training schema to achieve better performance for the specific domain.

This software is a result of Czech Ministry of Interior project "Dolování infoRmAcí z řeči Pořízené vzdÁlenými miKrofony - DRAPÁK", No. VI20152020025

Klíčová slova

Speaker recognition, speaker embedding, DNN, x-vectors, retraining

URL

https://github.com/BUTSpeechFIT/x-vector-kaldi-tf

Licence

Využití výsledku jiným subjektem je možné bez nabytí licence (výsledek není licencován)

Licenční poplatek

Poskytovatel licence na výsledek nepožaduje licenční poplatek

Soubory

pdf zeinali_icassp2019_0006141.pdf 197 kB

Projekty

Dolování infoRmAcí z řeči Pořízené vzdÁlenými miKrofony, MV, Bezpečnostní výzkum České republiky 2015-2020, VI20152020025, zahájení: 2015-10-01, ukončení: 2020-09-30, ukončen

Výzkumné skupiny

Výzkumná skupina dolování dat z řeči BUT Speech@FIT (VZ SPEECH)

Pracoviště

Ústav počítačové grafiky a multimédií (UPGM)