Zadání projektu do SUR 2024/2025
================================

Bodové ohodnocení: 25 bodů

Úkolem je natrénovat model pro identifikaci 31 různých osob z obrázku obličeje
a hlasové nahrávky. Trénovací vzory jsou k dispozici v archívu na adrese:

https://www.fit.vutbr.cz/study/courses/SUR/public/projekt_2024-2025/SUR_projekt2024-2025.zip

Tento archív obsahuje dva adresáře:

train
dev

a každý z těchto adresářů obsahuje podadresáře jejímiž názvy jsou čísla
od 1 do 31, která odpovídají jednotlivým třídám - osobám k identifikaci.
Každý podadresář obsahuje trénovací vzory pro danou třídu ve formátu PNG
a WAV.

Rozdělení dat do adresářů train a dev je možné použít pro trénování a
vyhodnocování úspěšnosti vyvíjeného rozpoznávače, toto rozdělení však není
závazné (např. pomocí technik jako je jackknifing lze efektivně trénovat
i testovat na všech datech). Při pokusech o jiné rozdělení dat může být
užitečné respektovat informace o tom, které trénovací vzory byly pořízený
v rámci jednoho nahrávacího sezení. Jméno každého souboru je rozděleno do
poli pomocí podtržítek (např. f401_01_f12_i0_0.png), kde první pole (f401)
je identifikátor osoby a druhé pole je číslo nahrávacího sezení (01).

Ke trénování rozpoznávačů můžete použít pouze tyto dodané trénovací data.
NENÍ POVOLENO jakékoli využití jiných externích řečových či obrázkových
dat, jakožto i použití již předtrénovaných modelů (např. pro extrakci
reprezentací (embeddings) obličejů nebo hlasu). 

Ostrá data, na kterých budou vaše systémy vyhodnoceny, budou k dispozici
v neděli, 4. května ráno. Tato data budu obsahovat řádově stovky souboru
ke zpracování. Vašim úkolem bude automaticky rozpoznat identity osob
v těchto souborech vašimi systémy (věřím Vám že nebudete podvádět a dívat se
na obrázky čí poslouchat nahrávky) a uploadovat soubory s výsledky do IS. 
Soubor s výsledky bude ASCII soubor s 33-mi poli na řádku oddělenými mezerou.
Tyto pole budou obsahovat popořadě následující údaje:

 - jméno segmentu (jméno souboru BEZ přípony .wav či .png)
 - tvrdé rozhodnutí o třídě, kterým bude celé číslo s hodnotou od 1 do 31.
 - následujících 31 polí bude popořadě obsahovat číselná skóre odpovídající
   logaritmickým pravděpodobnostem jednotlivých tříd 1 až 31. 
   (Pokud použijete klasifikátor jehož výstup se nedá interpretovat
   pravděpodobnostně, nastavte tato pole na hodnotu NaN.

V jakém programovacím jazyce budete implementovat váš rozpoznávač či pomocí
jakých nástrojů (spousta jich je volně k dispozici na Internetu) budete data
zpracovávat záleží jen na Vás. Odevzdat můžete několik souborů s výsledky
(např. pro systémy rozhodujícím se pouze na základě řečové nahrávky či pouze
obrázku). Maximálně však bude zpracováno 5 takových souborů. Každá skupina
musí odevzdat alespoň jeden systém (a výsledky) pro obrázky a jeden pro
nahrávky. Případně můžete odevzdat systém kombinující obě modality.

Soubory s výsledky můžete do pondělí 5. května 23:59 uploadovat do IS. Klíč
se správnými odpověďmi bude zveřejněn 6. května. Na poslední přednášce
7. května 2025 bychom měli analyzovat Vaše výsledky a řešení.

Na tomto projektu budete pracovat ve skupinách (1-2 lidí), do kterých
se můžete přihlásit ve IS. Jména souborů s výsledky pro jednotlivé
systémy volte tak, aby se podle nich dalo poznat o jaký systém
se jedná (např. audio_GMM, image_linear). Každá skupina uploadne
všechny soubory s výsledky zabalené do jednoho ZIP archívu se 
jménem login1_login2.zip či login1.zip, podle toho, kolik Vás
bude ve skupině. Kromě souborů s výsledky bude archív obsahovat
také adresář SRC/, do kterého uložíte soubory se zdrojovými kódy
implementovaných systémů. Dále bude archív obsahovat soubor dokumentace.pdf,
který bude v českém, slovenském nebo anglickém jazyce popisovat Vaše řešení
a umožní reprodukci Vaší práce. Důraz věnujte tomu, jak jste systémy během
jejich vývoje vyhodnocovali, a které techniky či rozhodnutí se pozitivně
projevily na úspěšnosti systému. Tento dokument bude také popisovat jak
získat Vaše výsledky pomocí přiloženého kódu. Bude tedy uvedeno jak Vaše
zdrojové kódy zkompilovat, jak vaše systémy spustit, kde hledat
výsledné soubory, jaké případné externí nástroje je nutné instalovat a
jak je přesně použít, atd. Očekávaný rozsah tohoto dokumentu jsou
3 strany A4. Do ZIP archívu prosím nepřikládejte evaluační data!

Inspiraci pro vaše systémy můžete hledat v archívu demonstračních příkladů
pro předmět SUR:

https://www.fit.vutbr.cz/study/courses/SUR/public/prednasky/demos/

Zvláště se podívejte na příklad detekce pohlaví z řeči: demo_genderID.py
Užitečné vám mohou být funkce pro načítaní PNG souborů (png2fea) a extrakci
MFCC příznaků z WAV souborů (wav16khz2mfcc).

Hodnocení:
- vše je odevzdáno a nějakým způsobem pracuje:
  - čtou se soubory
  - produkuje se skóre
  - jsou správně implementovány a natrénovány nějaké "rozumné" rozpoznávače
    pro obrázky a pro nahrávky a/nebo kombinaci obou modalit (rozpoznávače
    nemusí pracovat se 100% úspěšností, jsou to reálná data!)
  - jsou odevzdány všechny požadované soubory v požadovaných formátech.
  - v dokumentaci vysvětlíte, co, jak a proč jste dělali a co by se ještě dalo zlepšit.
  ... plný počet 25 bodů.

- něco z výše uvedeného není splněno => méně bodů.

Poslední modifikace: 16. dubna 2025, Lukáš Burget