Detail publikace
SdSV Challenge 2020: Large-Scale Evaluation of Short-duration Speaker Verification
Lee Kong Aik (A*STAR)
Alam Jahangir (CRIM)
Burget Lukáš, doc. Ing., Ph.D. (UPGM FIT VUT)
Moderní přístupy k ověřování mluvčích představují projevy řeči jako vložení pevné délky. U těchto přístupů implicitně předpokládáme, že charakteristiky mluvčích jsou nezávislé na mluveném obsahu. Takový předpoklad obecně platí, když jsou uvedeny dostatečně dlouhé promluvy. V této souvislosti se embeddingy mluvčích, jako jsou i-vektor a x-vektor, ukázaly jako mimořádně efektivní. U krátkých projevů řeči (v řádu několika sekund) embeddingy mluvčích ukázaly významnou závislost na fonetickém obsahu. V tomto ohledu byla výzva SdSV 2020 organizována s širokým zaměřením na systematické měřítko a analýzu různých stupňů fonetické variability při ověřování mluvčích s krátkým trváním (SdSV). Kromě úkolů závislých na textu a na textu nezávislých obsahuje výzva neobvyklý a obtížný úkol ověření vícejazyčných mluvčích (angličtina vs. perština). Tento článek popisuje datovou sadu a úkoly, pravidla a protokoly hodnocení, metriku výkonu, základní systémy a výsledky výzev. Prezentujeme také poznatky získané z hodnocení a směrů budoucího výzkumu.
@INPROCEEDINGS{FITPUB12379, author = "Hossein Zeinali and Aik Kong Lee and Jahangir Alam and Luk\'{a}\v{s} Burget", title = "SdSV Challenge 2020: Large-Scale Evaluation of Short-duration Speaker Verification", pages = "731--735", booktitle = "Proceedings of the Annual Conference of the International Speech Communication Association, INTERSPEECH", journal = "Proceedings of Interspeech - on-line", volume = 2020, number = 10, year = 2020, location = "Shanghai, CN", publisher = "International Speech Communication Association", ISSN = "1990-9772", doi = "10.21437/Interspeech.2020-1485", language = "english", url = "https://www.fit.vut.cz/research/publication/12379" }