Detail publikace

Effectiveness of Text, Acoustic, and Lattice-Based Representations in Spoken Language Understanding Tasks

VILLATORO-TELLO Esaú, MADIKERI Srikanth, ZULUAGA-GOMEZ Juan, SHARMA Bidisha, SARFJOO Seyyed Saeed, NIGMATULINA Iuliia, MOTLÍČEK Petr, IVANOV Alexei V. a GANAPATHIRAJU Aravind. Effectiveness of Text, Acoustic, and Lattice-Based Representations in Spoken Language Understanding Tasks. In: ICASSP, IEEE International Conference on Acoustics, Speech and Signal Processing - Proceedings. Rhodes Island: IEEE Signal Processing Society, 2023, s. 1-5. ISBN 978-1-7281-6327-7. Dostupné z: https://ieeexplore.ieee.org/stamp/stamp.jsp?tp=&arnumber=10095168
Název česky
Efektivita textové, akustické a mřížkové reprezentace v úlohách porozumění mluvené řeči
Typ
článek ve sborníku konference
Jazyk
angličtina
Autoři
Villatoro-tello Esaú (IDIAP)
Madikeri Srikanth (IDIAP)
Zuluaga-Gomez Juan (IDIAP)
Sharma Bidisha ()
Sarfjoo Seyyed Saeed (IDIAP)
Nigmatulina Iuliia (IDIAP)
Motlíček Petr, doc. Ing., Ph.D. (UPGM FIT VUT)
Ivanov Alexei V. ()
Ganapathiraju Aravind ()
URL
Abstrakt

V tomto článku provádíme vyčerpávající hodnocení různých reprezentací, abychom se vypořádali s problémem klasifikace záměrů v nastavení porozumění mluvené řeči (SLU). Pro provádění úlohy detekce záměru SLU srovnáváme tři typy systémů: 1) textový, 2) mřížkový a nový 3) multimodální přístup. Naše práce poskytuje komplexní analýzu toho, jaký by mohl být dosažitelný výkon různých nejmodernějších systémů SLU za různých okolností, např. automaticky vs. ručně generované přepisy. Systémy hodnotíme na veřejně dostupném korpusu zdrojů mluveného jazyka SLURP. Naše výsledky ukazují, že použití bohatších forem výstupů automatického rozpoznávání řeči (ASR), jmenovitě word-consensus-networks, umožňuje systému SLU zlepšit se ve srovnání s 1-nejlepším nastavením (5,5% relativní zlepšení). Nicméně, crossmodální přístupy, tj. učení z akustického a textového vkládání, dosahují výkonu podobnému nastavení oracle, relativní zlepšení o 17,8 % oproti 1-nejlepší konfiguraci, což je doporučená alternativa k překonání omezení práce s automaticky generovanými přepisy.

Rok
2023
Strany
1-5
Sborník
ICASSP, IEEE International Conference on Acoustics, Speech and Signal Processing - Proceedings
Konference
2023 IEEE International Conference on Acoustics, Speech and Signal Processing IEEE, Rhodes Island, Greece, GR
ISBN
978-1-7281-6327-7
Vydavatel
IEEE Signal Processing Society
Místo
Rhodes Island, GR
DOI
EID Scopus
BibTeX
@INPROCEEDINGS{FITPUB13158,
  author = "Esa\'{u} Villatoro-tello and Srikanth Madikeri and Juan Zuluaga-Gomez and Bidisha Sharma and Saeed Seyyed Sarfjoo and Iuliia Nigmatulina and Petr Motl\'{i}\v{c}ek and V. Alexei Ivanov and Aravind Ganapathiraju",
  title = "Effectiveness of Text, Acoustic, and Lattice-Based Representations in Spoken Language Understanding Tasks",
  pages = "1--5",
  booktitle = "ICASSP, IEEE International Conference on Acoustics, Speech and Signal Processing - Proceedings",
  year = 2023,
  location = "Rhodes Island, GR",
  publisher = "IEEE Signal Processing Society",
  ISBN = "978-1-7281-6327-7",
  doi = "10.1109/ICASSP49357.2023.10095168",
  language = "english",
  url = "https://www.fit.vut.cz/research/publication/13158"
}
Nahoru