Beppe Blog

mercoledì 1 ottobre 2003

Il loro server web è configurato in modo da non accettare invasioni da
parte degli spyder come wget. Per aggirare il problema utilizziamo
l'opzione -U di wget:

-U, --user-agent=AGENT identify as AGENT instead of Wget/VERSION

(per maggiori info a proposito, eseguite appunto
info wget Invoking "HTTP Options")

Ad es. per far sì che wget appaia come il mio Netscape di Linux basta
fare:

wget -m -np -nH --cut-dirs=1 \
http://library.cs.tuiasi.ro/webmaster/creating-commercial-websites/ \
-U "Mozilla/4.75 [en] (X11; U; Linux 2.2.14-5.0 i686)"

Per conoscere la stringa di identificazione del vostro browser un modo è
utilizzare questo JavaScript (per i browser che supportano JavaScript):

<html>

Altri siti (ad es. www.informit.com) usano il meccanismo dei cookie: non
vi fanno accedere alle pagine a meno che non restituite il biscottino che
viene sfornato dal server dopo che vi siete registrati :) Anche questi
sono riuscito a prenderli con wget, semplicemente andando a vedere il
"biscottino" nel file .netscape/cookies nella mia home e facendoglielo
restituire a wget, tramite l'opzione:

--header=STRING insert STRING among the headers.

dove al posto di string dovete mettere 'Cookie: contenuto_del_cookie'.

Altri ancora abusano del file robots.txt per impedirvi lo scaricamento.
Anche questi si possono "craccare" e scaricare comunque con wget (per
maggiori informazioni: info wget appendices robots). Non starò qui a
coprire tutti i casi, ma ci tengo a precisare che tutto quello che
riuscite a vedere col browser potete scaricarlo con wget e potete
automatizzare lo scaricamento di qualsiasi cosa con un opportuno script di
shell, anche se può costare parecchia fatica scriversi lo script. Questo
per me è molto di più di quello che si può fare con programmi per Windows
tipo Teleport ecc... E' la potenza di Unix...

Beppe Blog

mercoledì 1 ottobre 2003

Nessun commento:

Posta un commento