Extrakce dat z webu

Aka webscraping

Doc. Ing. Radek Burget, Ph.D.
burgetr@fit.vutbr.cz

Quick & Dirty

Když potřebujeme rychle a jednorázově data z jednoduššího webu a nikdo se nás nebude ptát, jak jsme to udělali.

Modely dokumentů

Když regulární výrazy nestačí.

Automatizace prohlížeče

Když se ke stránce nedá dostat na jeden HTTP GET.

Alternativy

Je analýza HTML kódu jediná možnost?

Budoucnost

Mohou stroje pracovat za nás (programátory)?

A to je vše!

Demo kód:
https://github.com/DIFS-Teaching/webscraping

Dotazy?