Differences between revisions 5 and 6

Costruzione Utensili

La Cultura è la nostra Natura, siamo cacciatori e raccoglitori in un mondo di dati.

Prerequisiti

Un'idea vaga di HTML
Saper scrivere, o anche solo leggere un qualsiasi linguaggio

Programma

Serie di pomeriggi di sperimentazione libera, segue workshop rivolto al pubblico.

Temi

Ancora da definire, ma a grandi linee:

Orientarsi con l'inspector del Browser
Rudimenti di web scraping con Python:
- GET e fake-user agent con requests
- Beautiful-soup e/o lxml per il parsing delle pagine
- Web spider con scrapy
wget e qualcosa di bash?

Riferimenti Sparsi

https://elitedatascience.com/python-web-scraping-libraries
https://first-web-scraper.readthedocs.io/en/latest/
https://medium.com/@kaismh/extracting-data-from-websites-using-scrapy-e1e1e357651a

Codice

Ottenere l'elenco degli spazi di Macao:

import requests
from bs4 import BeautifulSoup

url = "http://www.macaomilano.org/spip.php?rubrique18"
r = requests.get(url)
page = r.text

soup = BeautifulSoup(page, "html.parser")

h2s = soup.findAll("h2")
spazi = [h2.text for h2 in h2s]

print("\n".join(spazi))

-  ⇤ ← Revision 5 as of 2017-03-11 16:38:17 → 
  Size: 1236
  Editor: uid
  Comment:
+   ← Revision 6 as of 2017-03-11 16:40:30 → ⇥
  Size: 1258
  Editor: uid
  Comment:
-Deletions are marked like this.
+Additions are marked like this.
 Line 31:
- * Elenco degli spazi di Macao:
+ * Ottenere l'elenco degli spazi di Macao:
 Line 37:
-r = requests.get("http://www.macaomilano.org/spip.php?rubrique18")
+url = "http://www.macaomilano.org/spip.php?rubrique18"
r = requests.get(url)