Strumenti per acquisire e convertire il Web

Come scaricare un sito Web e tutto il suo contenuto?

Sito web

Ci sono alcuni casi in cui è importante scaricare un intero sito Web, non solo il risultato finale. Ma pagine Web HTML, risorse come CSS, script e immagini.

Questo forse perché vuoi un backup del codice ma non riesci più a raggiungere l'origine originale per qualche motivo. O forse vuoi un resoconto dettagliato di come un sito web è cambiato nel tempo.

Fortunatamente il Web Scraper di GrabzIt può raggiungere questo obiettivo eseguendo la scansione di tutte le pagine Web di un sito Web. Quindi su ogni pagina Web il raschietto scarica l'HTML insieme a tutte le risorse a cui fa riferimento la pagina.

Crea uno Scrape per scaricare un intero sito Web

Per rendere il download del tuo sito Web il più semplice possibile GrabzIt fornisce un modello di scrap. Basta cliccare su questo collegamento al modello per iniziare.

Una volta cliccato, verrà creato il graffio. Quindi, vai al Siti Web di destinazione scheda e inserire l'URL del sito Web da scaricare nella URL di destinazione casella di testo. Quindi fare clic Assegna obiettivo e aspetta un secondo o due.

Salta il Istruzioni di raschiatura e Opzioni di esportazione scheda e vai direttamente al Pianifica raschiatura scheda. È quindi possibile fare clic su aggiornare per iniziare la raschiatura. Tuttavia, se si desidera impostare lo scrape per l'esecuzione su una pianificazione regolare, ad esempio per creare backup regolari di un sito Web. Quindi fai semplicemente clic su Ripeti Scrape casella di controllo e quindi selezionare la frequenza con cui si desidera ripetere la raschiatura.

Utilizzando il tuo sito Web scaricato

Una volta terminata la raschiatura, otterrai un file ZIP. Successivamente estrarre il file ZIP e all'interno che si trova in una directory chiamata File saranno presenti tutte le pagine Web scaricate e le risorse del sito Web. Ci sarà anche una pagina HTML speciale chiamata data.html nella radice della directory. Apri questo file in un browser Web e troverai una tabella HTML con tre colonne:

  • URL risorsa: si tratta dell'URL in cui il web scraper ha trovato la risorsa. Quindi, ad esempio: http://www.example.com/logo.jog
  • Tipo di risorsa: questo è il tipo di risorsa che è stata scaricata. Esistono quattro tipi di risorse.
    • Pagina Web
    • Immagine
    • Risorsa esterna: qualsiasi risorsa scaricata da un tag Link
    • Copione
  • Nuovo nome file: il nuovo nome file che è stata la risorsa saved sotto. Si noti che questa colonna contiene anche un collegamento al file, che semplifica notevolmente il controllo di tutte le risorse scaricate.

Questo file è progettato per aiutarti a mappare i nuovi nomi di file nelle loro vecchie posizioni. Ciò è necessario perché un URL non può essere mappato direttamente a una struttura di file poiché un URL può essere troppo grande per essere archiviato direttamente nel percorso del file.

Inoltre, ci possono essere molte permutazioni, specialmente quando una pagina web può rappresentare molti contenuti diversi cambiando varie query string parametri! Quindi invece memorizziamo il sito Web in una struttura piatta nella cartella dei file e ti forniamo il file data.html per mappare questi file alla struttura originale.

Ovviamente per questo motivo non puoi aprire una pagina HTML scaricata e aspettarti di vedere la pagina web che hai visto sul web. Per fare ciò è necessario riscrivere i percorsi dell'immagine, dello script, delle risorse CSS ecc. In modo che il file HTML possa trovarli nella struttura del file locale.

Un altro file che verrà incluso nella radice del file ZIP si chiama Website.csv. Questo contiene esattamente le stesse informazioni del file data.html. Tuttavia, questo è incluso nel caso in cui si desideri leggere ed elaborare il download del sito Web a livello di codice, magari utilizzando la mappatura dagli URL ai file per ricreare il sito Web scaricato.