Detail předmětu

Zpracování přirozeného jazyka (v angličtině)

ZPJa Ak. rok 2023/2024 zimní semestr 5 kreditů

Východiska počítačového zpracování přirozeného jazyka, historická perspektiva, statistické metody zpracování přirozeného jazyka a aktuální přístupy založené na strojovému učení, zejména na modelech umělých neuronových sítí. Význam jednotlivých slov, lexikologie a lexikografie, slovníkové významy a neuronové modely pro výpočet vektorové reprezentace slov, klasifikace významů slov a jejich automatická inference. Složková a závislostní syntaxe, syntaktická víceznačnost, neuronové parsery vytvářející závislostní stromy. Jazykové modelování a jeho využití v obecných architekturách. Strojový překlad, historický pohled na statistické modely překladu, překladače založené na neuronových sítích a způsoby jejich vyhodnocování. Modely typu seq2seq a mechanismy pozornosti v neuronových modelech. Odpovídání na otázky v přirozeném jazyce s využitím neuronových modelů, komponenty pro vyhledávání informací v textu, porozumění textu, učení modelů z obecných textů. Klasifikace textů a její moderní aplikace, konvoluční neuronové sítě pro klasifikaci vět. Jazykově nezávislé reprezentace, texty ze sociálních sítí vymykající se normě, reprezentace částí slov, modely reprezentující informace z částí slov. Kontextuální reprezentace a předtrénování kontextuálně-závislých jazykových modulů. Sítě typu transformer a self-attention pro generativní modely. Komunikační agenti a generování přirozeného jazyka. Koreference a její automatické zpracování, souvislost s dalšími komponentami porozumění textu.

Garant předmětu

Koordinátor předmětu

Jazyk výuky

anglicky

Zakončení

zkouška (písemná)

Rozsah

  • 26 hod. přednášky
  • 26 hod. projekty

Bodové hodnocení

  • 51 bodů závěrečná zkouška (písemná část)
  • 9 bodů půlsemestrální test (písemná část)
  • 40 bodů projekty

Zajišťuje ústav

Přednášející

Cíle předmětu

Porozumět počítačovému zpracování přirozeného jazyka a naučit se aplikovat moderní metody strojového učení v této oblasti. Seznámit se s pokročilými architekturami hlubokých neuronových sítí, které jsou úspěšně používány v rozličných úkolech zpracování přirozeného jazyka. Porozumět použití neuronových sítí pro sekvenční jazykové modelování, jejich použití pro podmíněné jazykové modely a porozumění přístupů kombinujících tyto techniky s jinými mechanismy v pokročilých aplikacích.
Studenti se v rámci předmětu seznámí s problematikou počítačového zpracování přirozeného jazyka a porozumí celé škále modelů neuronových sítí, které jsou v oblasti NLP běžně aplikovány. Pochopí rovněž základní principy neuronových realizací mechanismů pozornosti a modelů pro reprezentaci významu promluv a tomu, jak mohou být tyto modulární komponenty kombinovány při tvorbě současných systémů NLP. Budou schopni implementovat a vyhodnocovat běžné neuronové modely pro různé aplikace NLP.
Studenti se zdokonalí v praktickém užívání nástrojů pro práci s modely hlubokých neuronových sítí a se zpracováním textových dat.

Proč je předmět vyučován

Čím dál více lidí používá ve svém každodenním životě aplikace zpracování přirozeného jazyka (NLP) - překladače, virtuální asistenty apod. V posledních letech je většina úkolů NLP realizována prostřednictvím hlubokých neuronových sítí. V tomto kurzu se studenti mohou dozvědět, jak je počítač schopen překládat texty z jednoho jazyka do druhého, jak může rozpoznat, co se pisateli nějaké recenze líbí na novém produktu a co jej naopak zklamalo, jak mohou virtuální asistenti odpovídat na otázky na základě textu Wikipedie atd.

Požadované prerekvizitní znalosti a dovednosti

Znalost programování v jazyce Python a zakladních principú matematické analyzy.

Osnova přednášek

  1. Úvod, historie oboru, aplikace a moderní přístupy založené na hlubokém učení
  2. Významy slov a jejich vektorová reprezentace
  3. Závislostní syntaxe
  4. Jazykové modely
  5. Strojový překlad
  6. Modely typu seq2seq a pozornost (attention)
  7. Odpovídání na otázky v přirozeném jazyce
  8. Konvoluční neuronové sítě pro klasifikaci vět
  9. Informace z částí slov: modely typu subword
  10. Modelování kontextů použití: kontextuální reprezentace a předtrénování
  11. Sítě typu transformer a self-attention pro generativní modely
  12. Generování přirozeného jazyka
  13. Koreference a její automatické zpracování

Osnova ostatní - projekty, práce

  • Individuálně zadávaný projekt

Průběžná kontrola studia

  • Půlsemestrální test - až 9 bodů
  • Individuální projekt - až 40 bodů
  • Závěrečná písemná zkouška - až 51 bodů


Kontrolovaná výuka zahrnuje půlsemestrální test, individuální projekt a písemnou zkoušku. Půlsemestrální test nemá náhradní termín, závěrečná zkouška má dva možné náhradní termíny.

Podmínky zápočtu

  • Zpracování individuálního projektu

Rozvrh

DenTypTýdnyMístn.OdDoKapacitaPSKSkupInfo
Po zkouška 2024-01-22 A112 13:0014:50 3. termín
Po přednáška výuky G202 14:0015:5080 1EIT 1MIT 2EIT 2MIT INTE NSPE xx Fajčík
Čt zkouška 2024-01-04 E105 14:0015:50 řádná
zkouška 2024-01-12 A112 15:0016:50 2. termín

Zařazení předmětu ve studijních plánech

Nahoru