Detail publikace

DPCCN: Densely-Connected Pyramid Complex Convolutional Network for Robust Speech Separation and Extraction

HAN Jiangyu, LONG Yanhua, BURGET Lukáš a ČERNOCKÝ Jan. DPCCN: Densely-Connected Pyramid Complex Convolutional Network for Robust Speech Separation and Extraction. In: ICASSP, IEEE International Conference on Acoustics, Speech and Signal Processing - Proceedings. Singapore: IEEE Signal Processing Society, 2022, s. 7292-7296. ISBN 978-1-6654-0540-9. Dostupné z: https://ieeexplore.ieee.org/document/9747340
Název česky
DPCCN: Hustě propojená pyramidální komplexní konvoluční síť pro robustní separaci a extrakci řeči
Typ
článek ve sborníku konference
Jazyk
angličtina
Autoři
Han Jiangyu (SHNU)
Long Yanhua (SHNU)
Burget Lukáš, doc. Ing., Ph.D. (UPGM FIT VUT)
Černocký Jan, prof. Dr. Ing. (UPGM FIT VUT)
URL
Abstrakt

V posledních letech byla navržena řada metod separace řeči v time-domain. Většina z nich je však velmi citlivá na prostředí a na úlohy k pokrytí široké domény. V tomhle článku, z hlediska časově-frekvenční domény navrhujeme hustě propojený pyramidový komplex konvoluční sítě, tzv DPCCN, za účelem zlepšení robustnosti separace řeči za komplikovaných podmínek. Dále zobecňujeme DPCCN na cílenou extrakci řeči (TSE) integrací nového speciálně navrženého kodér mluvčího. Kromě toho také zkoumáme robustnost DPCCN na úkoly TSE mezi doménami bez dohledu. Přístup za pomoci Mix-Remixu je navržen k přizpůsobení akustických charakteristik cílové domény pro jemné doladění modelu zdroje. Hodnotíme navržené metody nejen za hlučných a dozvukových podmínek v doméně, ale také v čistých, ale mezidoménových podmínkách. Výsledky ukazují, že pro separace a extrakce řeči, systémy založené na DPCCN dosáhují výrazně lepšího výkonu a robustnosti než v současnosti dominující metody v časové oblasti, zejména pro crossdoménové úlohy. Zejména jsme zjistili, že jemné ladění Mixture-Remix s DPCCN výrazně překonává TD-SpeakerBeam pro TSE mezi doménami bez dohledu, se zlepšením SISNR přibližně o 3,5 dB na testovací sadě cílové domény, bez jakéhokoli výkonu zdrojové domény degradace.

Rok
2022
Strany
7292-7296
Sborník
ICASSP, IEEE International Conference on Acoustics, Speech and Signal Processing - Proceedings
Konference
2022 IEEE INTERNATIONAL CONFERENCE ON ACOUSTICS, SPEECH AND SIGNAL PROCESSING (ICASSP), Singapore, SG
ISBN
978-1-6654-0540-9
Vydavatel
IEEE Signal Processing Society
Místo
Singapore, SG
DOI
UT WoS
000864187907119
EID Scopus
BibTeX
@INPROCEEDINGS{FITPUB12787,
   author = "Jiangyu Han and Yanhua Long and Luk\'{a}\v{s} Burget and Jan \v{C}ernock\'{y}",
   title = "DPCCN: Densely-Connected Pyramid Complex Convolutional Network for Robust Speech Separation and Extraction",
   pages = "7292--7296",
   booktitle = "ICASSP, IEEE International Conference on Acoustics, Speech and Signal Processing - Proceedings",
   year = 2022,
   location = "Singapore, SG",
   publisher = "IEEE Signal Processing Society",
   ISBN = "978-1-6654-0540-9",
   doi = "10.1109/ICASSP43922.2022.9747340",
   language = "english",
   url = "https://www.fit.vut.cz/research/publication/12787"
}
Nahoru