mercoledì 1 ottobre 2003

Il loro server web è configurato in modo da non accettare invasioni da
parte degli spyder come wget. Per aggirare il problema utilizziamo
l'opzione -U di wget:


-U,  --user-agent=AGENT    identify as AGENT instead of Wget/VERSION


(per maggiori info a proposito, eseguite appunto
 info wget Invoking "HTTP Options")


Ad es. per far sì che wget appaia come il mio Netscape di Linux basta
fare:


wget -m -np -nH --cut-dirs=1 \
http://library.cs.tuiasi.ro/webmaster/creating-commercial-websites/ \
-U "Mozilla/4.75 [en] (X11; U; Linux 2.2.14-5.0 i686)"


Per conoscere la stringa di identificazione del vostro browser un modo è
utilizzare questo JavaScript (per i browser che supportano JavaScript):


<html>


Altri siti (ad es. www.informit.com) usano il meccanismo dei cookie: non
vi fanno accedere alle pagine a meno che non restituite il biscottino che
viene sfornato dal server dopo che vi siete registrati :) Anche questi
sono riuscito a prenderli con wget, semplicemente andando a vedere il
"biscottino" nel file .netscape/cookies nella mia home e facendoglielo
restituire a wget, tramite l'opzione:


--header=STRING       insert STRING among the headers.


dove al posto di string dovete mettere 'Cookie: contenuto_del_cookie'.


Altri ancora abusano del file robots.txt per impedirvi lo scaricamento.
Anche questi si possono "craccare" e scaricare comunque con wget (per
maggiori informazioni: info wget appendices robots). Non starò qui a
coprire tutti i casi, ma ci tengo a precisare che tutto quello che
riuscite a vedere col browser potete scaricarlo con wget e potete
automatizzare lo scaricamento di qualsiasi cosa con un opportuno script di
shell, anche se può costare parecchia fatica scriversi lo script. Questo
per me è molto di più di quello che si può fare con programmi per Windows
tipo Teleport ecc... E' la potenza di Unix...

Nessun commento:

Posta un commento