Detail publikace
Diffuse or Confuse: A Diffusion Deepfake Speech Dataset
deepfakes, deepfake řeč, dataset, difúze, detekce
Pokroky v oblasti umělé inteligence a strojového učení výrazně zlepšily generování syntetické řeči. Tento článek zkoumá difuzní modely, novou metodu pro vytváření realistické syntetické řeči. Vytváříme difuzní datovou sadu pomocí dostupných nástrojů a předem natrénovaných modelů. Kromě toho tato studie hodnotí kvalitu difuzně generovaných deepfake oproti nedifuzním a jejich potenciální hrozbu pro současné systémy detekce deepfake. Zjištění ukazují, že detekce deepfakes založených na difúzi je obecně srovnatelná s nedifúzními deepfakes, s určitou variabilitou v závislosti na architektuře detektoru. Překódování pomocí difuzních vokodérů vykazuje minimální dopad a celková kvalita řeči je srovnatelná s nedifuzními metodami.
@inproceedings{BUT189345,
author="Anton {Firc} and Kamil {Malinka} and Petr {Hanáček}",
title="Diffuse or Confuse: A Diffusion Deepfake Speech Dataset",
booktitle="2024 International Conference of the Biometrics Special Interest Group (BIOSIG)",
year="2024",
pages="1--7",
publisher="GI - Group for computer science",
address="Darmstadt",
doi="10.1109/BIOSIG61931.2024.10786752",
isbn="978-3-88579-749-4",
url="https://ieeexplore.ieee.org/document/10786752"
}