Detail publikace
SpeakerBeam: A New Deep Learning Technology for Extracting Speech of a Target Speaker Based on the Speaker's Voice Characteristics
DELCROIX Marc, ŽMOLÍKOVÁ Kateřina, KINOSHITA Keisuke, ARAKI Shoko, OGAWA Atsunori a NAKATANI Tomohiro. SpeakerBeam: A New Deep Learning Technology for Extracting Speech of a Target Speaker Based on the Speaker's Voice Characteristics. NTT Technical Review, roč. 16, č. 11, 2018, s. 19-24. ISSN 1348-3447. Dostupné z: https://www.ntt-review.jp/archive/ntttechnical.php?contents=ntr201811all.pdf&mode=show_pdf
Název česky
SpeakerBeam: Nová technologie hlubokého učení pro extrakci řeči cílového mluvčího na základě jeho hlasových charakteristik
Typ
článek v časopise
Jazyk
angličtina
Autoři
Delcroix Marc (NTT)
Žmolíková Kateřina, Ing., Ph.D. (UPGM FIT VUT)
Kinoshita Keisuke (NTT)
Araki Shoko (NTT)
Ogawa Atsunori (NTT)
Nakatani Tomohiro (NTT)
Žmolíková Kateřina, Ing., Ph.D. (UPGM FIT VUT)
Kinoshita Keisuke (NTT)
Araki Shoko (NTT)
Ogawa Atsunori (NTT)
Nakatani Tomohiro (NTT)
URL
Abstrakt
V hlučném prostředí, například na koktejlovém večírku, se člověk může soustředit na poslech požadovaného řečníka, schopnost známá jako selektivní sluch. Současné přístupy vyvinuté k realizaci výpočetního selektivního slyšení vyžadují znalost polohy cílového řečníka, což omezuje jejich praktické využití. Tento článek představuje SpeakerBeam, přístup k výpočetnímu selektivnímu slyšení založený na hlubokém učení na základě charakteristik hlasu cílového mluvčího. SpeakerBeam vyžaduje pouze malé množství řečových dat od cílového mluvčího k výpočtu jeho hlasových charakteristik. Poté dokáže extrahovat řeč tohoto mluvčího bez ohledu na jeho polohu nebo počet mluvčích hovořících v pozadí.
Rok
2018
Strany
19-24
Časopis
NTT Technical Review, roč. 16, č. 11, ISSN 1348-3447
Vydavatel
NTT Corporation
EID Scopus
BibTeX
@ARTICLE{FITPUB12961, author = "Marc Delcroix and Kate\v{r}ina \v{Z}mol\'{i}kov\'{a} and Keisuke Kinoshita and Shoko Araki and Atsunori Ogawa and Tomohiro Nakatani", title = "SpeakerBeam: A New Deep Learning Technology for Extracting Speech of a Target Speaker Based on the Speaker's Voice Characteristics", pages = "19--24", journal = "NTT Technical Review", volume = 16, number = 11, year = 2018, ISSN = "1348-3447", language = "english", url = "https://www.fit.vut.cz/research/publication/12961" }