886
Comment:
|
1236
|
Deletions are marked like this. | Additions are marked like this. |
Line 29: | Line 29: |
== Codice == * Elenco degli spazi di Macao: {{{ #!/usr/bin/env python3 import requests from bs4 import BeautifulSoup r = requests.get("http://www.macaomilano.org/spip.php?rubrique18") page = r.text soup = BeautifulSoup(page, "html.parser") h2s = soup.findAll("h2") spazi = [h2.text for h2 in h2s] print("\n".join(spazi)) }}} |
Costruzione Utensili
La Cultura è la nostra Natura, siamo cacciatori e raccoglitori in un mondo di dati.
Prerequisiti
- Un'idea vaga di HTML
- Saper scrivere, o anche solo leggere un qualsiasi linguaggio
Programma
Serie di pomeriggi di sperimentazione libera, segue workshop rivolto al pubblico.
Temi
Ancora da definire, ma a grandi linee:
- Orientarsi con l'inspector del Browser
- Rudimenti di web scraping con Python:
- GET e fake-user agent con requests
- Beautiful-soup e/o lxml per il parsing delle pagine
- Web spider con scrapy
- wget e qualcosa di bash?
Riferimenti Sparsi
Codice
- Elenco degli spazi di Macao:
import requests from bs4 import BeautifulSoup r = requests.get("http://www.macaomilano.org/spip.php?rubrique18") page = r.text soup = BeautifulSoup(page, "html.parser") h2s = soup.findAll("h2") spazi = [h2.text for h2 in h2s] print("\n".join(spazi))