Detail publikace
Multi-Channel Speech Separation with Cross-Attention and Beamforming
Plchot Oldřich, Ing., Ph.D. (UPGM FIT VUT)
Peng Junyi, Msc. Eng. (UPGM FIT VUT)
Burget Lukáš, doc. Ing., Ph.D. (UPGM FIT VUT)
Černocký Jan, prof. Dr. Ing. (UPGM FIT VUT)
O původně jednokanálovou separaci zdroje začal být větší výzkumný zájem. Výsledkem byl obrovský pokrok. Vícekanálová (MC) separace přichází s novými výzvami neboť nepříznivé vnitřní podmínky, z ní činí důležitý obor zájmu. Snažíme se spojit slibné myšlenky z těchto dvou světů. Za prvé, stavíme MC modely rozšířením současné jednokanálové separace časových domén, které spoléhají na svou sílu. Náš přístup umožňuje opětovné použití předem trénovaných modelů do nichž vložíme navržené lehké referenční kanály s RCA pozorným slučovačem, jediný vyškolený modul. Skládá se ze dvou bloků: první umožňuje obsluhující různé části jiných kanálů w.r.t. odkaz jeden a druhý poskytuje kombinaci založenou na pozornosti kanály. Za druhé, stejně jako mnoho úspěšných modelů MC, náš systém obsahuje beamforming a umožňuje fúzi sítě a výstupy beamformeru. Srovnáváme náš přístup s SOTA modely na datové sadě SMS-WSJ a ukazují lépe popř podobný výkon.
@INPROCEEDINGS{FITPUB13108, author = "Ladislav Mo\v{s}ner and Old\v{r}ich Plchot and Junyi Peng and Luk\'{a}\v{s} Burget and Jan \v{C}ernock\'{y}", title = "Multi-Channel Speech Separation with Cross-Attention and Beamforming", pages = "1693--1697", booktitle = "Proceedings of the Annual Conference of the International Speech Communication Association, INTERSPEECH", journal = "Proceedings of Interspeech - on-line", volume = 2023, number = 08, year = 2023, location = "Dublin, IE", publisher = "International Speech Communication Association", ISSN = "1990-9772", doi = "10.21437/Interspeech.2023-2537", language = "english", url = "https://www.fit.vut.cz/research/publication/13108" }