Detail předmětu

Zpracování přirozeného jazyka (v angličtině)

ZPJa Ak. rok 2023/2024 zimní semestr 5 kreditů

Východiska počítačového zpracování přirozeného jazyka, historická perspektiva, statistické metody zpracování přirozeného jazyka a aktuální přístupy založené na strojovému učení, zejména na modelech umělých neuronových sítí. Význam jednotlivých slov, lexikologie a lexikografie, slovníkové významy a neuronové modely pro výpočet vektorové reprezentace slov, klasifikace významů slov a jejich automatická inference. Složková a závislostní syntaxe, syntaktická víceznačnost, neuronové parsery vytvářející závislostní stromy. Jazykové modelování a jeho využití v obecných architekturách. Strojový překlad, historický pohled na statistické modely překladu, překladače založené na neuronových sítích a způsoby jejich vyhodnocování. Modely typu seq2seq a mechanismy pozornosti v neuronových modelech. Odpovídání na otázky v přirozeném jazyce s využitím neuronových modelů, komponenty pro vyhledávání informací v textu, porozumění textu, učení modelů z obecných textů. Klasifikace textů a její moderní aplikace, konvoluční neuronové sítě pro klasifikaci vět. Jazykově nezávislé reprezentace, texty ze sociálních sítí vymykající se normě, reprezentace částí slov, modely reprezentující informace z částí slov. Kontextuální reprezentace a předtrénování kontextuálně-závislých jazykových modulů. Sítě typu transformer a self-attention pro generativní modely. Komunikační agenti a generování přirozeného jazyka. Koreference a její automatické zpracování, souvislost s dalšími komponentami porozumění textu.

Garant předmětu

Smrž Pavel, doc. RNDr., Ph.D. (UPGM)

Koordinátor předmětu

Dočekal Martin, Ing. (UPGM)
Fajčík Martin, Ing., Ph.D. (UPGM)
Kesiraju Santosh, Ph.D. (UPGM)
Ondřej Karel, Ing.

Jazyk výuky

anglicky

Zakončení

zkouška (písemná)

Rozsah

26 hod. přednášky
26 hod. projekty

Bodové hodnocení

51 bodů závěrečná zkouška (písemná část)
9 bodů půlsemestrální test (písemná část)
40 bodů projekty

Zajišťuje ústav

Ústav počítačové grafiky a multimédií (UPGM)

Přednášející

Dočekal Martin, Ing. (UPGM)
Fajčík Martin, Ing., Ph.D. (UPGM)
Kesiraju Santosh, Ph.D. (UPGM)
Ondřej Karel, Ing.

Cíle předmětu

Porozumět počítačovému zpracování přirozeného jazyka a naučit se aplikovat moderní metody strojového učení v této oblasti. Seznámit se s pokročilými architekturami hlubokých neuronových sítí, které jsou úspěšně používány v rozličných úkolech zpracování přirozeného jazyka. Porozumět použití neuronových sítí pro sekvenční jazykové modelování, jejich použití pro podmíněné jazykové modely a porozumění přístupů kombinujících tyto techniky s jinými mechanismy v pokročilých aplikacích.
Studenti se v rámci předmětu seznámí s problematikou počítačového zpracování přirozeného jazyka a porozumí celé škále modelů neuronových sítí, které jsou v oblasti NLP běžně aplikovány. Pochopí rovněž základní principy neuronových realizací mechanismů pozornosti a modelů pro reprezentaci významu promluv a tomu, jak mohou být tyto modulární komponenty kombinovány při tvorbě současných systémů NLP. Budou schopni implementovat a vyhodnocovat běžné neuronové modely pro různé aplikace NLP.
Studenti se zdokonalí v praktickém užívání nástrojů pro práci s modely hlubokých neuronových sítí a se zpracováním textových dat.

Proč je předmět vyučován

Čím dál více lidí používá ve svém každodenním životě aplikace zpracování přirozeného jazyka (NLP) - překladače, virtuální asistenty apod. V posledních letech je většina úkolů NLP realizována prostřednictvím hlubokých neuronových sítí. V tomto kurzu se studenti mohou dozvědět, jak je počítač schopen překládat texty z jednoho jazyka do druhého, jak může rozpoznat, co se pisateli nějaké recenze líbí na novém produktu a co jej naopak zklamalo, jak mohou virtuální asistenti odpovídat na otázky na základě textu Wikipedie atd.

Požadované prerekvizitní znalosti a dovednosti

Znalost programování v jazyce Python a zakladních principú matematické analyzy.

Osnova přednášek

Úvod, historie oboru, aplikace a moderní přístupy založené na hlubokém učení
Významy slov a jejich vektorová reprezentace
Závislostní syntaxe
Jazykové modely
Strojový překlad
Modely typu seq2seq a pozornost (attention)
Odpovídání na otázky v přirozeném jazyce
Konvoluční neuronové sítě pro klasifikaci vět
Informace z částí slov: modely typu subword
Modelování kontextů použití: kontextuální reprezentace a předtrénování
Sítě typu transformer a self-attention pro generativní modely
Generování přirozeného jazyka
Koreference a její automatické zpracování

Osnova ostatní - projekty, práce

Individuálně zadávaný projekt

Průběžná kontrola studia

Půlsemestrální test - až 9 bodů
Individuální projekt - až 40 bodů
Závěrečná písemná zkouška - až 51 bodů

Kontrolovaná výuka zahrnuje půlsemestrální test, individuální projekt a písemnou zkoušku. Půlsemestrální test nemá náhradní termín, závěrečná zkouška má dva možné náhradní termíny.

Podmínky zápočtu

Zpracování individuálního projektu

Zařazení předmětu ve studijních plánech

Program IT-MGR-2, obor MBI, libovolný ročník, povinně volitelný skupina S
Program IT-MGR-2, obor MBS, MGM, MIN, MIS, MMM, MPV, MSK, libovolný ročník, volitelný
Program IT-MGR-2 (anglicky), obor MGMe, libovolný ročník, volitelný
Program MIT-EN (anglicky), libovolný ročník, volitelný
Program MITAI, obor NADE, NBIO, NCPS, NEMB, NEMB do 2021/22, NGRI, NHPC, NIDE, NISD, NISY, NISY do 2020/21, NMAL, NMAT, NNET, NSEC, NSEN, NVER, NVIZ, libovolný ročník, volitelný
Program MITAI, obor NSPE, libovolný ročník, povinný