Differences between revisions 9 and 10

Costruzione Utensili

La Cultura è la nostra Natura, siamo cacciatori e raccoglitori in un mondo di dati.

Prerequisiti

Serie di pomeriggi di sperimentazione libera, segue workshop rivolto al pubblico.

Ancora da definire, ma a grandi linee:

Orientarsi con l'inspector del Browser
Rudimenti di web scraping con Python:
- GET e fake-user agent con requests
- Beautiful-soup e/o lxml per il parsing delle pagine
- Web spider con scrapy
wget e qualcosa di bash?

curl "http://www.example.com"

esegue una GET e ne stampa l'output

curl "http://www.example.com" > out.html

ora l'output viene reindirizzato sul file out.html

wget "http://www.example.com/index.html"

salva in contenuto in index.html

wget -r "http://www.example.com/"

salva tutto il contenuto del sito nella directory corrente

python3 script.py

esegue uno script

python3 script.py > out.txt

esegue uno script e ne salva l'output in out.txt

-  ⇤ ← Revision 9 as of 2017-03-11 19:11:04 → 
  Size: 1461
  Editor: uid
  Comment:
+   ← Revision 10 as of 2017-03-14 10:02:53 → ⇥
  Size: 2064
  Editor: uid
  Comment:
-Deletions are marked like this.
+Additions are marked like this.
 Line 30:
+== Terminale ==

=== curl ===
{{{
curl "http://www.example.com"
}}}
esegue una GET e ne stampa l'output

{{{
curl "http://www.example.com" > out.html
}}}
ora l'output viene reindirizzato sul file ''out.html''

=== wget ===
{{{
wget "http://www.example.com/index.html"
}}}
salva in contenuto in ''index.html''

{{{
wget -r "http://www.example.com/"
}}}
salva '''tutto''' il contenuto del sito nella directory corrente

=== Python ===
{{{
python3 script.py
}}}
esegue uno script

{{{
python3 script.py > out.txt
}}}
esegue uno script e ne salva l'output in ''out.txt''