Strumenti per acquisire e convertire il Web

Come scaricare un sito Web e tutto il suo contenuto?

Sito web

Ci sono alcuni casi in cui è importante scaricare un intero sito Web, non solo il risultato finale. Ma pagine Web HTML, risorse come CSS, script e immagini.

Questo forse perché vuoi un backup del codice ma non riesci più a raggiungere l'origine originale per qualche motivo. O forse vuoi un resoconto dettagliato di come un sito web è cambiato nel tempo.

Fortunatamente il Web Scraper di GrabzIt può raggiungere questo obiettivo eseguendo la scansione di tutte le pagine Web di un sito Web. Quindi su ogni pagina Web il raschietto scarica l'HTML insieme a tutte le risorse a cui fa riferimento la pagina.

Crea uno Scrape per scaricare un intero sito Web

Per rendere il download del tuo sito Web il più semplice possibile GrabzIt fornisce un modello di scrap.

Per iniziare carica questo modello.

Quindi inserisci il tuo URL di destinazione, questo URL viene quindi verificato automaticamente per individuare eventuali errori e apportare le modifiche necessarie. Mantieni il Avvia automaticamente Scrape casella di spunta selezionata e la raschiatura si avvierà automaticamente.

Personalizza il tuo Scrape

Se si desidera modificare il modello, deselezionare il Avvia automaticamente Scrape casella di controllo. Un'alterazione sarebbe quella di eseguire lo scrap su un programma regolare, ad esempio per creare copie regolari di un sito Web. Sul Pianifica raschiatura scheda, basta fare clic su Ripeti Scrape casella di controllo e quindi selezionare la frequenza con cui si desidera ripetere la raschiatura. Quindi fare clic Aggiornanento per iniziare la raschiatura.

Utilizzando il tuo sito Web scaricato

Una volta terminata la raschiatura, otterrai un file ZIP. Successivamente estrarre il file ZIP e all'interno che si trova in una directory chiamata File saranno presenti tutte le pagine Web scaricate e le risorse del sito Web. Ci sarà anche una pagina HTML speciale chiamata data.html nella radice della directory. Apri questo file in un browser Web e troverai una tabella HTML con tre colonne:

Questo file è progettato per aiutarti a mappare i nuovi nomi di file nelle loro vecchie posizioni. Ciò è necessario perché un URL non può essere mappato direttamente a una struttura di file poiché un URL può essere troppo grande per essere archiviato direttamente nel percorso del file.

Inoltre, ci possono essere molte permutazioni, specialmente quando una pagina web può rappresentare molti contenuti diversi cambiando varie query string parametri! Quindi invece memorizziamo il sito Web in una struttura piatta nella cartella dei file e ti forniamo il file data.html per mappare questi file alla struttura originale.

Ovviamente per questo motivo non puoi aprire una pagina HTML scaricata e aspettarti di vedere la pagina web che hai visto sul web. Per fare ciò è necessario riscrivere i percorsi dell'immagine, dello script, delle risorse CSS ecc. In modo che il file HTML possa trovarli nella struttura del file locale.

Un altro file che verrà incluso nella radice del file ZIP si chiama Website.csv. Questo contiene esattamente le stesse informazioni del file data.html. Tuttavia, questo è incluso nel caso in cui si desideri leggere ed elaborare il download del sito Web a livello di codice, magari utilizzando la mappatura dagli URL ai file per ricreare il sito Web scaricato.