Detail publikace

HyperConformer: Multi-head HyperMixer for Efficient Speech Recognition

MAI Florian, ZULUAGA-GOMEZ Juan, PARCOLLET Titouan a MOTLÍČEK Petr. HyperConformer: Multi-head HyperMixer for Efficient Speech Recognition. In: Proceedings of the Annual Conference of International Speech Communication Association, INTERSPEECH. Dublin: International Speech Communication Association, 2023, s. 2213-2217. ISSN 1990-9772. Dostupné z: https://www.isca-archive.org/interspeech_2023/mai23_interspeech.pdf
Název česky
HyperConformer: HyperMixer s více hlavami pro efektivní rozpozná
Typ
článek ve sborníku konference
Jazyk
angličtina
Autoři
Mai Florian (IDIAP)
Zuluaga-Gomez Juan (IDIAP)
Parcollet Titouan (The University of Cambridge)
Motlíček Petr, doc. Ing., Ph.D. (UPGM FIT VUT)
URL
Abstrakt

Nejmodernější systémy ASR dosáhly slibných výsledků díky samostatnému modelování lokálních a globálních interakcí. Zatímco první lze efektivně vypočítat, globální interakce jsou obvykle modelovány pomocí mechanismů pozornosti, které jsou drahé pro dlouhé vstupní sekvence. Zde to řešíme rozšířením HyperMixeru, účinné alternativy k pozornosti vykazující lineární složitost, na architekturu Conformer pro rozpoznávání řeči, což vede k HyperConformer. Konkrétně vícehlavý HyperConformer dosahuje srovnatelného nebo vyššího výkonu rozpoznávání a zároveň je efektivnější než Conformer, pokud jde o inferenční rychlost, paměť, počet parametrů a dostupná trénovací data. HyperConformer dosahuje chybovosti slov 2,9 % na LibriSpeech test-clean s méně než 8M neurálními parametry a špičkovou pamětí během trénování 5,7 GB, tudíž trénovatelný s dostupným hardwarem. Rychlost kodéru je mezi 38 % u středně dlouhé řeči a 56 % u dlouhé řeči rychlejší než ekvivalentní konformer.1)

Rok
2023
Strany
2213-2217
Časopis
Proceedings of Interspeech - on-line, roč. 2023, č. 8, ISSN 1990-9772
Sborník
Proceedings of the Annual Conference of International Speech Communication Association, INTERSPEECH
Konference
Interspeech Conference, Dublin, IE
Vydavatel
International Speech Communication Association
Místo
Dublin, IE
DOI
EID Scopus
BibTeX
@INPROCEEDINGS{FITPUB13157,
   author = "Florian Mai and Juan Zuluaga-Gomez and Titouan Parcollet and Petr Motl\'{i}\v{c}ek",
   title = "HyperConformer: Multi-head HyperMixer for Efficient Speech Recognition",
   pages = "2213--2217",
   booktitle = "Proceedings of the Annual Conference of International Speech Communication Association, INTERSPEECH",
   journal = "Proceedings of Interspeech - on-line",
   volume = 2023,
   number = 08,
   year = 2023,
   location = "Dublin, IE",
   publisher = "International Speech Communication Association",
   ISSN = "1990-9772",
   doi = "10.21437/Interspeech.2023-1611",
   language = "english",
   url = "https://www.fit.vut.cz/research/publication/13157"
}
Nahoru