Detail práce

Non-Parallel Voice Conversion

Diplomová práce Student: Brukner Jan Akademický rok: 2019/2020 Vedoucí: Černocký Jan, prof. Dr. Ing.
Název česky
Non-Parallel Voice Conversion
Jazyk práce
anglický
Abstrakt

Cílem konverze hlasu (voice conversion, VC) je převést hlas zdrojového řečníka na hlas cílového řečníka. Technika je populární je u vtipných internetových videí, ale má také řadu seriózních využití, jako je dabování audiovizuálního materiálu a anonymizace hlasu (například pro ochranu svědků). Vzhledem k tomu, že může sloužit pro spoofing systémů identifikace hlasu, je také důležitým nástrojem pro vývoj detektorů spoofingu a protiopatření.  Modely VC byly dříve trénovány převážně na paralelních (tj. dva řečníci čtou stejný text) a na vysoce kvalitních audio materiálech. Cílem této práce bylo prozkoumat vývoj VC na neparalelních datech a na signálech nízké kvality, zejména z veřejně dostupné databáze VoxCeleb.

Práce vychází z moderní architektury AutoVC definované Qianem et al. Je založena na neurálních autoenkodérech, jejichž cílem je oddělit informace o obsahu a řečníkovi do samostatných nízkodimenzionýálních vektorových reprezentací (embeddingů). Cílová řeč se potom získá nahrazením embeddingu zdrojového řečníka embeddingem cílového řečníka. Qianova architektura byla vylepšena pro zpracování audio nízké kvality experimentováním s různými embeddingy řečníků (d-vektory vs. x-vektory), zavedením klasifikátoru řečníka z obsahových embeddingů v adversariálním schématu trénování neuronových sítí a laděním velikosti obsahového embeddingu tak, že jsme definovali informační bottle-neck v příslušné neuronové síti. Definovali jsme také další adversariální architekturu, která porovnává původní obsahové embeddingy s embeddingy získanými ze zkonvertované řeči. Výsledky experimentů prokazují, že neparalelní VC na nekvalitních datech je skutečně možná. Výsledná audia nebyla tak kvalitní případě hi fi vstupů, ale výsledky ověření řečníků po spoofingu výsledným systémem jasně ukázaly posun hlasových charakteristik směrem k cílovým řečníkům.

Klíčová slova

konverze hlasu, zpracování řeči, x-vektor, d-vektor, autoenkodér, verifikace, spoofing, wavenet, neuronové sítě

Ústav
Studijní program
Informační technologie, obor Počítačová grafika a multimédia
Soubory
Stav
obhájeno, hodnocení A
Obhajoba
15. července 2020
Oponent
Průběh obhajoby

Student nejprve prezentoval výsledky, kterých dosáhl v rámci své práce. Komise se poté seznámila s hodnocením vedoucího a posudkem oponenta práce. Student následně odpověděl na otázky oponenta a na další otázky přítomných. Komise se na základě posudku oponenta, hodnocení vedoucího, přednesené prezentace a odpovědí studenta na položené otázky rozhodla práci hodnotit stupněm A.

Otázky u obhajoby
  1. Zkuste zhodnotit jaké jsou v reálu výpočetní nároky vámi navrženého systému a jaké je teoretické nejmenší a případně reálné zpoždění při online konverzi. Je systém tohoto typu využitelný pro online spoofing útok a případné oklamání liveness testu?
  2. Ako probíhá liveness test u mluvčího?
Komise
Černocký Jan, prof. Dr. Ing. (UPGM FIT VUT), předseda
Bařina David, Ing., Ph.D. (UPGM FIT VUT), člen
Beran Vítězslav, doc. Ing., Ph.D. (UPGM FIT VUT), člen
Grézl František, Ing., Ph.D. (UPGM FIT VUT), člen
Herout Adam, prof. Ing., Ph.D. (UPGM FIT VUT), člen
Křivka Zbyněk, Ing., Ph.D. (UIFS FIT VUT), člen
Citace
BRUKNER, Jan. Non-Parallel Voice Conversion. Brno, 2020. Diplomová práce. Vysoké učení technické v Brně, Fakulta informačních technologií. 2020-07-15. Vedoucí práce Černocký Jan. Dostupné z: https://www.fit.vut.cz/study/thesis/19207/
BibTeX
@mastersthesis{FITMT19207,
    author = "Jan Brukner",
    type = "Diplomov\'{a} pr\'{a}ce",
    title = "Non-Parallel Voice Conversion",
    school = "Vysok\'{e} u\v{c}en\'{i} technick\'{e} v Brn\v{e}, Fakulta informa\v{c}n\'{i}ch technologi\'{i}",
    year = 2020,
    location = "Brno, CZ",
    language = "english",
    url = "https://www.fit.vut.cz/study/thesis/19207/"
}
Nahoru