Detail práce

The Best Possible Speech Recognizer on Your Own Data

Diplomová práce Student: Sýkora Tomáš Akademický rok: 2019/2020 Vedoucí: Szőke Igor, Ing., Ph.D.
Název česky
Co nejlepší rozpoznávač řeči na vlastních datech
Jazyk práce
anglický
Abstrakt

Denno-denne vzniká množstvo špičkových objavov v oblasti strojového učenia. Prispôsobením týchto sýstémov tak, aby čo najlepšie fungovali iba na obmedzenej podmnožine všeobecných dát, môžu byť dosiahnuté výrazné zlepšenia v prenosti. Prispôsobením automatického rozpoznávača reči na doménovo špecifické dáta je možné vytvoriť produkt dosahujúci omnoho lepšie výsledky ako rozpoznávač reči natrénovaný na všeobecných dátach. Táto práca prezentuje 17-percentné zlepšenie chybovosti prepísaných slov oproti automatickému rozpoznávaču reči ponúkaného službou Google Speech. Toto zlepšenie bolo dosiahnuté precíznou anotáciou a prípravou doménových dát a kombináciou špičkových techník a algoritmov v oblasti automatického rozpoznávania reči. Popísaný systém bol úspešne nasadený do výrobného prostredia transkripčnej spoločnosti Parrot, ktorej súčasťou som od jej začiatku. Nasadený systém výrazne zvýšil efektivitu zamestancov používajúcich výstup popísaného rozpoznávača.

Klíčová slova

automatické rozpoznávanie reči, doménové dáta, kaldi, dataset, čistenie rečových dát

Ústav
Studijní program
Informační technologie, obor Inteligentní systémy
Soubory
Stav
obhájeno, hodnocení A
Obhajoba
14. července 2020
Oponent
Průběh obhajoby

Student nejprve prezentoval výsledky, kterých dosáhl v rámci své práce. Komise se poté seznámila s hodnocením vedoucího a posudkem oponenta práce. Student následně odpověděl na otázky oponenta a na další otázky přítomných. Komise se na základě posudku oponenta, hodnocení vedoucího, přednesené prezentace a odpovědí studenta na položené otázky rozhodla práci hodnotit stupněm A.

Otázky u obhajoby
  1. Q1: Vysvětlete princip fungování log-lineární interpolace jazykových modelů. Co se děje se skore častých a málo častých slov, když má jazykový model negativní exponent? (např. v tabulce 5.2)
  2. Q2: Která oblast praktické části byla nejpracnější a která další byla náročná?
  3. Jak probíhá učení akustického modelu?
  4. Bude systém běžet offline nebo online (přímo během řeči)?
Komise
Rogalewicz Adam, doc. Mgr., Ph.D. (UITS FIT VUT), předseda
Bidlo Michal, doc. Ing., Ph.D. (UPSY FIT VUT), člen
Burget Lukáš, doc. Ing., Ph.D. (UPGM FIT VUT), člen
Hradiš Michal, Ing., Ph.D. (UPGM FIT VUT), člen
Hrubý Martin, Ing., Ph.D. (UITS FIT VUT), člen
Rozman Jaroslav, Ing., Ph.D. (UITS FIT VUT), člen
Citace
SÝKORA, Tomáš. The Best Possible Speech Recognizer on Your Own Data. Brno, 2020. Diplomová práce. Vysoké učení technické v Brně, Fakulta informačních technologií. 2020-07-14. Vedoucí práce Szőke Igor. Dostupné z: https://www.fit.vut.cz/study/thesis/18056/
BibTeX
@mastersthesis{FITMT18056,
    author = "Tom\'{a}\v{s} S\'{y}kora",
    type = "Diplomov\'{a} pr\'{a}ce",
    title = "The Best Possible Speech Recognizer on Your Own Data",
    school = "Vysok\'{e} u\v{c}en\'{i} technick\'{e} v Brn\v{e}, Fakulta informa\v{c}n\'{i}ch technologi\'{i}",
    year = 2020,
    location = "Brno, CZ",
    language = "english",
    url = "https://www.fit.vut.cz/study/thesis/18056/"
}
Nahoru