Detail publikace

Customization of Automatic Speech Recognition Engines for Rare Word Detection Without Costly Model Re-Training

BHATTACHARJEE Mrinmoy, MOTLÍČEK Petr, NIGMATULINA Iuliia, HELMKE Hartmut, OHNEISER Oliver, KLEINERT Matthias a EHR Heiko. Customization of Automatic Speech Recognition Engines for Rare Word Detection Without Costly Model Re-Training. In: Proceedings of the 13th SESAR Innovation Days. Seville: SESAR Joint Undertaking, 2023, s. 1-8. Dostupné z: https://www.sesarju.eu/sites/default/files/documents/sid/2023/Papers/SIDs_2023_paper_18%20final.pdf
Název česky
Přizpůsobení systémů pro automatické rozpoznávání řeči pro detekci vzácných slov bez nákladného přetrénování modelu
Typ
článek ve sborníku konference
Jazyk
angličtina
Autoři
Bhattacharjee Mrinmoy (IDIAP)
Motlíček Petr, doc. Ing., Ph.D. (UPGM FIT VUT)
Nigmatulina Iuliia (IDIAP)
Helmke Hartmut (DLR)
Ohneiser Oliver (DLR)
Kleinert Matthias (DLR)
Ehr Heiko (DLR)
URL
Abstrakt

Díky Alexe, Siri nebo Google Assistant, automatické rozpoznávání řeči (ASR) změnilo náš každodenní život během poslední dekády. K dispozici jsou prototypové aplikace v oblasti řízení letového provozu (ATM). Předvyplňování záznamů radarových štítků podporou ASR nedávno dosáhlo úrovně technologické připravenosti před industrializací (TRL6). Zřídka vyslovovaná slova a slova související se vzdušným prostorem relevantní v kontextu ATM však zůstávají výzvou pro sofistikované aplikace. Open source sady nástrojů ASR nebo velké předem trénované modely pro odborníky - umožňující přizpůsobit ASR novým doménám - lze využít s typickým omezením dostupnosti určitého množství trénovacích dat specifických pro doménu, tj. typicky přepsané řeči pro přizpůsobení akustické a/nebo nebo jazykové modely. Obecně stačí, aby "univerzální" motor ASR spolehlivě rozpoznal několik stovek slov, která tvoří slovní zásobu hlasové komunikace mezi řídícími letového provozu a piloty. Pro každé letiště je však potřeba integrovat několik stovek závislých slov, která se vyslovují jen zřídka. Tyto náročné slovní entity obsahují speciální označení leteckých společností a názvy navigačních bodů jako "dexon" nebo "burok", které se objevují pouze v určité oblasti. Při použití jsou vysoce informativní, a proto vyžadují vysokou přesnost rozpoznávání. Umožnění přizpůsobení plug and play s minimem odborné manipulace předpokládá, že není potřeba žádné další školení, tj. jemné doladění univerzálního ASR. Tento článek představuje inovativní přístup k automatické integraci nových specifických slovních entit do univerzálního systému ASR. Míra rozpoznávání těchto regionálně specifických slovních entit s ohledem na univerzální ASR se zvyšuje šestkrát.

Rok
2023
Strany
1-8
Sborník
Proceedings of the 13th SESAR Innovation Days
Konference
13th SESAR Innovation Days, Seville, ES
Vydavatel
SESAR Joint Undertaking
Místo
Seville, ES
DOI
BibTeX
@INPROCEEDINGS{FITPUB13164,
   author = "Mrinmoy Bhattacharjee and Petr Motl\'{i}\v{c}ek and Iuliia Nigmatulina and Hartmut Helmke and Oliver Ohneiser and Matthias Kleinert and Heiko Ehr",
   title = "Customization of Automatic Speech Recognition Engines for Rare Word Detection Without Costly Model Re-Training",
   pages = "1--8",
   booktitle = "Proceedings of the 13th SESAR Innovation Days",
   year = 2023,
   location = "Seville, ES",
   publisher = "SESAR Joint Undertaking",
   doi = "10.61009/SID.2023.1.10",
   language = "english",
   url = "https://www.fit.vut.cz/research/publication/13164"
}
Nahoru