Detail publikace
DPCCN: Densely-Connected Pyramid Complex Convolutional Network for Robust Speech Separation and Extraction
Long Yanhua (SHNU)
Burget Lukáš, doc. Ing., Ph.D. (UPGM FIT VUT)
Černocký Jan, prof. Dr. Ing. (UPGM FIT VUT)
V posledních letech byla navržena řada metod separace řeči v time-domain. Většina z nich je však velmi citlivá na prostředí a na úlohy k pokrytí široké domény. V tomhle článku, z hlediska časově-frekvenční domény navrhujeme hustě propojený pyramidový komplex konvoluční sítě, tzv DPCCN, za účelem zlepšení robustnosti separace řeči za komplikovaných podmínek. Dále zobecňujeme DPCCN na cílenou extrakci řeči (TSE) integrací nového speciálně navrženého kodér mluvčího. Kromě toho také zkoumáme robustnost DPCCN na úkoly TSE mezi doménami bez dohledu. Přístup za pomoci Mix-Remixu je navržen k přizpůsobení akustických charakteristik cílové domény pro jemné doladění modelu zdroje. Hodnotíme navržené metody nejen za hlučných a dozvukových podmínek v doméně, ale také v čistých, ale mezidoménových podmínkách. Výsledky ukazují, že pro separace a extrakce řeči, systémy založené na DPCCN dosáhují výrazně lepšího výkonu a robustnosti než v současnosti dominující metody v časové oblasti, zejména pro crossdoménové úlohy. Zejména jsme zjistili, že jemné ladění Mixture-Remix s DPCCN výrazně překonává TD-SpeakerBeam pro TSE mezi doménami bez dohledu, se zlepšením SISNR přibližně o 3,5 dB na testovací sadě cílové domény, bez jakéhokoli výkonu zdrojové domény degradace.
@INPROCEEDINGS{FITPUB12787, author = "Jiangyu Han and Yanhua Long and Luk\'{a}\v{s} Burget and Jan \v{C}ernock\'{y}", title = "DPCCN: Densely-Connected Pyramid Complex Convolutional Network for Robust Speech Separation and Extraction", pages = "7292--7296", booktitle = "ICASSP, IEEE International Conference on Acoustics, Speech and Signal Processing - Proceedings", year = 2022, location = "Singapore, SG", publisher = "IEEE Signal Processing Society", ISBN = "978-1-6654-0540-9", doi = "10.1109/ICASSP43922.2022.9747340", language = "english", url = "https://www.fit.vut.cz/research/publication/12787" }