Strumenti per acquisire e convertire il Web

GrabzIt's Web Scraper rispetta i file robots.txt?

Il nostro Web Scraper deve rispettare le regole trovate nel file robots.txt di un sito web. Uno dei motivi principali di ciò, oltre ad essere carino, è che i web scraper che non seguono il file robots.txt possono ritrovarsi nella lista nera di un servizio honeypot.

Questi servizi utilizzano robots.txt per indicare a un web scraper di non visitare un determinato file collegato dal sito web. Se il web scraper visita ancora il file, l'indirizzo IP del web scraper viene inserito nella lista nera, impedendo al web scraper di visitare il sito web in futuro.