Strumenti per acquisire e convertire il Web

GrabzIt's Web Scraper rispetta i file robots.txt?

Il nostro Web Scraper deve rispettare le regole presenti in un file robots.txt di siti Web. Uno dei motivi principali di ciò, oltre ad essere carino, è che i raschiatori web che non seguono il file robots.txt possono trovarsi nella lista nera di un servizio honeypot.

Questi servizi usano robots.txt per dire a un web scraper di non visitare un certo file a cui è collegato dal sito web. Se il web scraper continua a visitare il file, l'indirizzo IP dei web scraper viene inserito nella black list, impedendo in futuro al web scraper di visitare il sito web.