Strumenti per acquisire e convertire il Web

Documentazione Web Scraper

Per creare uno scrap web devi specificare cinque tipi di informazioni, distribuite nelle seguenti schede.

  1. Opzioni di raschiatura
  2. Sito Web di destinazione
  3. Istruzioni di raschiatura
  4. Opzioni di esportazione
  5. Pianifica raschiatura

Opzioni di raschiatura

Tutte le seguenti funzionalità sono disponibili per personalizzare un graffio Web nella scheda Opzioni di raschiatura.

Scrape Name il nome del graffio.

Segui i collegamenti fornisce le seguenti opzioni su come lo scraper dovrebbe seguire i collegamenti:

Ignora download di file una volta impostati i collegamenti, che causano il download di un file quando visitato non vengono scaricati.

Ignora il file Robots.txt se impostato, il raschiatore può visitare le pagine Web normalmente escluse dalla scansione del proprietario del sito Web.

Ignora le pagine di errore se impostato, il web scraper salterà tutte le pagine web che segnalano un errore. Quindi qualsiasi codice di stato HTTP 400 o superiore.

Ignora i frammenti di URL se impostato, il web scraper ignorerà la parte dell'URL dopo il file # questa funzione viene comunemente utilizzata per indicare un segnalibro sulla stessa pagina e quindi normalmente comporterebbe la rimozione di pagine inutili. Tuttavia, alcuni siti Web utilizzano questa funzionalità per mostrare contenuti diversi, nel qual caso è necessario disabilitare questa impostazione. Questa opzione è applicabile solo quando i collegamenti seguiti non sono richiesti.

Ignora duplicati se impostato ignorerà le pagine uguali o superiori alla somiglianza impostata, ad esempio potresti ignorare le pagine che sono 95% uguali.

Limit Scrape ti consente di specificare quante pagine il raschiatore web deve raschiare prima di fermarsi.

Usa il mio fuso orario se impostato, indica che il Web Scraper dovrebbe tentare di convertire qualsiasi data venga raschiata into il fuso orario locale. Il tuo fuso orario può essere impostato nella pagina dell'account.

Località la posizione geografica da cui il Web Scraper eseguirà la raschiatura. Ciò potrebbe essere utile se il sito Web di destinazione presenta restrizioni in base alla posizione.

Formato data predefinito quando si convertono le date in cui non è possibile determinare il formato della data, Web Scraper verrà invece impostato automaticamente sul formato scelto.

Ritardo caricamento pagina questo è il tempo in millisecondi che il Web Scraper dovrebbe attendere prima di analizzare una pagina. Questo è molto utile se una pagina contiene molto AJAX o è lenta da caricare.

Sito Web di destinazione

Sito Web di destinazione

Nella scheda Sito Web di destinazione specifichi i siti Web da cui desideri estrarre i dati. Per dire allo strumento di scraping di estrarre dati da un sito web devi prima specificare l'URL principale in cui ti trovi interestato in es http://www.example.com/shop/ Questo è dove il raschietto inizierà la sua raschiatura, può essere una normale pagina web, documento PDF, documento XML, documento JSON, feed RSS o sitemap. Se non è una pagina Web o un documento PDF, il raschiatore troverà tutti i collegamenti nel file e visiterà ognuno di essi.

Per seguire solo i collegamenti presenti nell'URL di destinazione e non le pagine successive è possibile impostare Segui i collegamenti opzione raschiare a nella prima pagina. Questo utilizzerà l'URL di destinazione solo per eseguire il seeding del resto dello scrap.

Pattern URL

Per impostazione predefinita, il raschietto web segue tutti i collegamenti che rileva su ogni pagina Web visitata. Se si desidera limitare ciò che collega il Raschietto Web segue, un modo semplice per farlo è specificare un pattern URL. Questa potente tecnica funziona principalmente specificando un URL con l'asterisco come carattere jolly per indicare che qualsiasi carattere può essere presente in questa parte del pattern. Ad esempio http://www.example.com/*/articles/* eliminerebbe qualsiasi URL che abbia articoli come seconda directory dalla radice del sito Web.

Un modo più restrittivo per definire un pattern URL è definire alternative. Ad esempio, questo esempio corrisponderà solo al negozio o alle notizie: http://www.example.com/ /*

Quindi questo corrisponderebbe a questo http://www.example.com/store/products/1 ma non http://www.example.com/about/.

Oppure in alternativa è possibile abbinare tutto tranne qualcosa. Ad esempio, questo esempio non corrisponderà a store o news: http://www.example.com/ /*

Quindi questo corrisponderebbe a questo http://www.example.com/about/ ma non http://www.example.com/store/products/1!

Un pattern URL può contenere anche parole chiave. Una parola chiave è qualsiasi cosa contenuta tra doppie parentesi quadre. COSÌ [[URL_START]]www.example.com* corrisponderà a qualsiasi inizio valido di un URL, quindi http://www.example.com/, https://www.example.com/ o addirittura ftp://www.example.com/ per esempio.

URL del seme

Gli URL seme consentono all'utente di specificare un elenco di URL che devono essere sottoposti a scansione dal Web Scraper. Se desideri solo scansionare gli URL seme, imposta il Segui i collegamenti opzioni di raschiatura a nessuna pagina nella scheda Opzioni di raschiatura.

Per impostare gli URL seed nella scheda Sito Web di destinazione, fare clic sul pulsante Aggiungi destinazione, quindi selezionare la casella di controllo Imposta URL seed e specificare ciascun URL da raschiare su una riga separata.

Crea URL seed da un URL modello

In alternativa puoi generare automaticamente URL seed utilizzando un URL modello, si tratta di un singolo URL che include una variabile URL. Una variabile URL specifica un intervallo di numeri su cui ripetere l'iterazione.

Il numero iniziale è il numero su cui la variabile URL dovrebbe iniziare a contare, il numero finale è il numero su cui la variabile URL smetterà di contare, il numero iterato è il numero che il numero aumenterà per ogni iterazione della variabile URL.

Ad esempio per il seguente URL modello http://www.example.com/search?pageNo=

Ciò creerà quindi i seguenti URL seed:

Esegui post

L'URL può anche specificare un URL con parametri POST, ad esempio un modulo di accesso. Per fare ciò, specificare l'URL del modulo nella casella di testo URL di destinazione e aggiungere i parametri di post richiesti da utilizzare. I valori delle variabili post possono anche includere speciali variabili GrabzIt, come:

Istruzioni di raschiatura

Le istruzioni di scraping indicano al Web Scraper quali azioni eseguire durante lo scraping del sito Web di destinazione. La scheda Istruzioni di raschiamento mostra la procedura guidata di raschiamento per impostazione predefinita, che semplifica l'aggiunta delle istruzioni di raschiamento necessarie. Un buon esempio di utilizzo di questa procedura guidata è mostrato in elenco dei prodotti e tutorial di raschiatura dei dettagli.

Quando sei pronto per iniziare a raschiare, premi il pulsante Aggiungi nuova istruzione Scrape collegamento.

Questo aprirà la procedura guidata e caricherà automaticamente l'URL di destinazione, consentendoti di selezionare immediatamente ciò che desideri scartare. Se è stata caricata una pagina Web o un documento PDF, è possibile fare clic su qualsiasi collegamento e funzionerà normalmente, ad esempio la navigazione verso un'altra pagina Web. Fino a quando non scegli una delle azioni, nella parte inferiore dello schermo, in questo puntoint qualsiasi clic sul contenuto selezionerà l'elemento HTML che desideri estrarre o manipolare.

La prima cosa da capire sulle istruzioni di raschiatura è che vengono eseguite su ogni pagina Web per impostazione predefinita. Il modo per fermarlo è attraverso l'uso di modelli. È possibile assegnare un modello quando si esegue un'azione come fare clic su un collegamento e in modo tale che ogni volta che il raschiatore visita quel collegamento o fa clic su quel pulsante, riconoscerà che appartiene al modello assegnato. Ciò consente di definire diversi tipi di pagina. Ad esempio, potresti avere una pagina di categoria di prodotto che contiene alcune informazioni generali e quindi una pagina di dettaglio che contiene le informazioni sul prodotto. Entrambe le pagine avrebbero probabilmente bisogno di un diverso set di istruzioni per la raschiatura.

Modello di raschietto

Per iniziare, seleziona il Clicchi azione, quindi dopo aver selezionato gli elementi su cui si desidera eseguire l'azione e aver fatto clic su Successivo pulsante inserisci il nome del modello nel Crea un modello casella di testo ora ogni volta che lo scraper esegue queste azioni, il modello restituito sarà il nome che hai fornito.

Quindi per assegnare un modello particolare a un'istruzione di raschiatura è necessario selezionare il modello desiderato da Eseguire elenco a discesa, che appare nella finestra delle opzioni che appare poco prima dell'aggiunta dell'istruzione raschiata. Le tre opzioni principali quando si sceglie un modello sono le seguenti:

Dopo aver selezionato una di queste opzioni, l'istruzione raschiatura verrà eseguita solo sul modello specificato.

Estrazione dei dati

Lo noterai quando selezioni il Estrazione dei dati azione. L'angolo inferiore sinistro dello schermo ti invita a selezionare un elemento HTML nella finestra in alto o a scegliere una proprietà di pagina globale.

Per utilizzare una proprietà di pagina globale, fare clic su proprietà della pagina globale collegamento. Quindi conferma di voler continuare. Ora avrai un elenco di proprietà che possono essere estratte direttamente dalla pagina. Ad esempio: titolo della pagina.

Per sceglierne uno, selezionalo dall'elenco di opzioni e fai clic su Successivo per aggiungere i dati a dataset.

Se desideri estrarre dati in elementi HTML specifici anziché appartenere all'intera pagina, devi fare clic sugli elementi HTML pertinenti, puoi selezionare elementi singoli o multipli. Tuttavia, se si selezionano più elementi, provare a selezionare più elementi uguali, ad esempio più righe in una colonna, perché se lo scraper non è in grado di creare una regola in grado di identificare in modo univoco la raccolta di dati selezionata, un'istruzione raschiatura non lo farà essere in grado di essere creato. Inoltre, se i nostri elementi multipli su cui fai clic sono stati identificati come dati ripetuti dalla nostra procedura guidata di raschietto web, tutti i dati ripetuti nello stesso gruppo verranno automaticamente selezionati. Dopo aver selezionato tutti i tuoi elementi singoli o multipli, scegli un attributo da estrarre dalla parte inferiore sinistra dello schermo, quindi fai clic su Successivo.

Creazione di un set di dati

La schermata del set di dati consente di modificare il modo in cui i dati vengono elaborati, ad esempio è possibile rinominare il set di dati e le colonne al suo interno, basta fare clic sul nome per rinominarlo. Quando aggiungi una colonna a un set di dati, devi anche scegliere il modello in cui deve essere eseguito. Puoi modificarlo facendo clic sull'elenco a discesa situato sotto il nome della colonna.

Spesso durante l'estrazione di dati, è comune che alcuni elementi ripetuti si ripetano in modo incoerente, per assicurarsi che le righe corrette siano ancora associate tra loro Colonne di collegamento criteri, per collegare le colonne incoerenti con la colonna più coerente nel set di dati.

Per aggiungere più dati al set di dati, fare clic su o fare clic sul pulsante per rimuovere i dati dal set di dati, o per eliminare l'intero set di dati. Il set di dati consente inoltre di applicare vari criteri ai dati, per fare ciò selezionare l'azione desiderata dall'alto e quindi fare clic sulla colonna pertinente per applicare i criteri. In caso di errore durante l'aggiunta di criteri, fare clic su pulsante.

Ecco l'elenco dei diversi tipi di criteri e come usarli:

Quando hai selezionato una delle operazioni sopra descritte, se può interessare più colonne, ti verrà chiesto se vuoi consentire che influisca solo su un sottoinsieme delle colonne o tutte. Nella maggior parte dei casi si desidera che influisca su tutte le colonne, tuttavia in alcune circostanze è utile limitare le colonne effettuate. Ad esempio, se si sta selezionando una serie di etichette e valori, che cambiano posizione tra le pagine Web, è possibile selezionare tutte le etichette e i valori. Quindi nel set di dati utilizzare l'operazione equals per limitarla all'etichetta desiderata e specificare che solo le colonne label e value devono essere interessate. Ciò garantirà che le altre colonne non siano interessate dalle righe eliminate, per completezza sarebbe utile nascondere la colonna dell'etichetta.

Dopo aver modificato tutto ciò che desideri, fai clic su Successivo e le tue istruzioni per lo scrape verranno aggiunte allo scrape. Hai quindi la possibilità di aggiungere ulteriori istruzioni di raschiatura, se lo desideri.

Manipolazione di una pagina Web

Una pagina Web può essere manipolata prima di essere scaricata, facendo clic, digitando e selezionando i valori dai menu a discesa. È importante ricordare che, anche se ciò può causare il caricamento di una nuova pagina Web, le istruzioni di raschiatura non si riavvieranno fino a quando non saranno state eseguite tutte le istruzioni di raschiatura applicabili.

Per manipolare una pagina Web, scegliere il Fai clic su Elemento, Hover Element, Scorrere, Digita testo or Seleziona il valore dell'elenco a discesa Azioni. Se si sta eseguendo un'azione di clic, è possibile fare clic su un numero qualsiasi di elementi in una pagina Web. Altrimenti è necessario selezionare un elemento HTML appropriato, ad esempio il testo deve essere digitato in una casella di testo. Quindi fare clic Successivo. Questo aprirà una casella di opzione che ti permetterà di completare l'azione. Quando si digita il testo e si seleziona da un menu a discesa, i dati da digitare o selezionare devono essere scelti rispettivamente. A parte questo, le opzioni sono le stesse per tutte e tre le azioni.

Se lo desideri, puoi selezionare il modello in cui questa azione deve essere eseguita e per l'azione clic quale modello si applica, una volta completata l'azione clic. Tuttavia, assegnare un nuovo modello a un'azione di clic che esegue più clic sulla stessa pagina, non è una buona idea, come l'apertura di popup incorporati o la visualizzazione delle cose sullo schermo. Questo perché se l'azione di clic viene eseguita solo su determinati modelli, il nuovo modello assegnato dal primo clic non verrebbe ripristinato e, pertanto, a seconda di come è stato scritto lo scrap, ciò potrebbe impedire l'esecuzione di clic futuri sulla stessa pagina. Puoi anche definire se vuoi che questa azione venga eseguita una sola volta, il che è utile se stai facendo qualcosa di simile al login into sito web.

Le azioni Digita testo o Seleziona valore elenco a discesa consentono di digitare più elementi di testo o effettuare selezioni multiple per la casella di selezione, rispettivamente. Questi possono essere modificati facendo clic sulle istruzioni di raschiatura Modifica o visualizza variabili pulsante, come mostrato nella schermata a sinistra.

Questo potrebbe essere importante se si desidera digitare un elenco di nomi in una casella di ricerca, ad esempio. Per garantire che un modulo sia inviato solo quando nella casella di ricerca è presente un valore, è possibile impostare un modello ogni volta che il testo viene digitato correttamente into la casella di testo e l'azione clic su un pulsante non vengono eseguite a meno che questo modello non sia impostato. Dopo che è stata eseguita l'azione clic, il modello dovrebbe essere modificato in qualcos'altro per ripristinare la procedura.

Dopo l'esecuzione delle azioni che manipolano i siti Web, è utile attendere qualche istante se le azioni avviano la funzionalità AJAX, per consentire il caricamento del contenuto AJAX prima di continuare con la raschiatura. Puoi farlo aggiungendo un ritardo in Dopo l'esecuzione Attendere casella di testo.

Potresti passare direttamente a un URL diverso una volta soddisfatta una condizione. Per fare questo usa il Vai a URL azione, che verrà visualizzata solo quando è stato definito almeno un modello nella raschiatura e, quando creato, deve essere assegnato a un modello, per evitare loop infiniti.

Finalmente puoi utilizzare tutte le API di acquisizione di GrabzIt nei tuoi scrap web, basta scegliere l'azione Cattura pagina Web e scegliere la cattura desiderata. È possibile limitare questo per catturare determinate pagine Web all'interno dello scrap specificando un modello da eseguire dopo aver selezionato Successivo pulsante.

Dopo aver aggiunto ogni istruzione di raschiatura, è possibile vederla nel pannello delle istruzioni di raschiatura, la croce accanto a ciascuna istruzione di raschiatura consente di eliminare l'istruzione di raschiatura. Se viene eliminata un'istruzione di raschiatura richiesta da altre istruzioni di raschiatura, anche quelle istruzioni vengono cancellate. È possibile modificare l'ordine delle istruzioni di raschiatura trascinando le istruzioni di graffiatura con l'icona di acquisizione.

Scrittura manuale delle istruzioni di raschiatura

Se è necessario personalizzare le istruzioni di raschiamento in un modo più specifico, sarà necessario modificare manualmente le istruzioni di raschiamento.

Le istruzioni di raschiatura sono basate su JavaScript e l'editor di codice viene fornito completo di un controllo di sintassi, completamento automatico e suggerimenti per renderlo il più semplice possibile.

Istruzioni per raschietto web La funzionalità principale dell'editor di codice è accessibile attraverso le opzioni di menu, come mostrato nella schermata, lo scopo di ciascuno è spiegato separatamente di seguito. Mentre eventuali errori di sintassi nelle istruzioni di raschiatura sono indicati nel margine sinistro dell'editor di codice.

Wizard la procedura guidata consente di selezionare parti della pagina che si desidera estrarre ed eseguire altre attività comuni come la creazione di acquisizioni Web.

Visualizza le istruzioni di raschiatura visualizza il codice delle istruzioni di raschiatura per l'utente.

Elimina tutte le istruzioni elimina tutte le istruzioni di raschiatura.

Funzioni della pagina Web inserirà la parola chiave Pagina into le istruzioni di raschiatura e aprire il completamento automatico, che contiene tutto il possibile Funzioni di pagina. Le funzioni della pagina consentono di estrarre i dati dalla pagina Web.

Funzioni dati inserirà la parola chiave Data into le istruzioni di raschiatura. Funzioni di dati si consente di save informazioni.

Funzioni di navigazione inserisce la parola chiave di navigazione into l'editor di codice. Il Funzioni di navigazione consentono di controllare il modo in cui Web Scraper naviga nel sito Web di destinazione.

Funzioni globali inserisce la parola chiave globale into le istruzioni di raschiatura. Questo ti dà accesso a funzioni in grado di memorizzare dati tra l'analisi di diverse pagine Web. Quando si scrivono le istruzioni di raschiatura, è importante ricordare che lo stato delle variabili JavaScript nelle istruzioni di raschiatura non viene mantenuto quando il raschiatore si sposta tra le pagine Web, a meno che non si utilizzino le funzioni globali per save variabili, come mostrato di seguito.

Global.set("myvariable", "hello");
var mrvar = Global.get("myvariable");

Per creare una variabile globale persistente, passare true al parametro persist nel metodo Global.set, come mostrato di seguito.

Global.set("myvariable", "hello", true);

Funzioni di utilità inserisce la parola chiave Utility into le istruzioni di raschiatura. Questo ti permette di usare funzioni comuni che semplifica la scrittura di graffi, come l'aggiunta o la rimozione di querystring parametri dagli URL.

Funzioni di criteri inserisce la parola chiave Criteria into le istruzioni di raschiatura. Questi funzioni ti consente di affinare i dati estratti durante la raschiatura, ad esempio eliminando i duplicati.

Filtro ti permette di creare facilmente un filtro, questo è richiesto da alcune funzioni per selezionare un particolare elemento HTML all'interno di una pagina web. Basta selezionare gli attributi che l'elemento target dovrebbe avere e / o i genitori dell'elemento dovrebbero selezionare quell'elemento. Assicurati che prima di fare clic su questa opzione il cursore si trovi nella posizione corretta nella funzione per passare anche il filtro.

Funzioni dello screenshot ti permette di impostare le opzioni dello screenshot. Posiziona semplicemente il cursore nella parte corretta della funzione, come identificato dalla descrizione comando e premi le opzioni dello screenshot. Quindi scegli tutte le opzioni che desideri e inserisci il comando.

String

Strings sono usati nelle istruzioni di raschiatura, quando si esegue una raschiatura web, per definire il testo. UN string è delimitato da double (") o virgolette singole ('). Se una string viene iniziato con una virgoletta doppia, deve terminare con una virgoletta doppia, se a string inizia con una virgoletta singola, deve terminare con una virgoletta singola. Per esempio:

"my-class" ed 'my-class'

Un errore comune che può verificarsi è il non chiuso string errore, questo è quando a string non ha un preventivo di chiusura come mostrato sopra o c'è un'interruzione di riga nel string. I seguenti sono illegali strings:

"my
class"

"my class

Per correggere questo errore è assicurarsi che non contengano interruzioni di riga e che abbiano virgolette corrispondenti, in questo modo:

"my class" ed "my class"

A volte si desidera che una virgoletta singola o doppia appaia in a string. Il modo più semplice per farlo è inserire una singola citazione in a string delimitato da virgolette doppie e virgolette doppie in a string delimitato da virgolette singole, in questo modo:

"Bob's shop" ed '"The best store on the web"'

In alternativa puoi usare una barra rovesciata per sfuggire a una citazione in questo modo:

'test\'s'

Attività di raschiatura manuali comuni

Link Checker Crea un controllo link personalizzato - Scopri come creare un controllo link personalizzato seguendo queste semplici istruzioni.
Download dell'immagine Scarica tutte le immagini da un sito Web - Scopri come scaricare tutte le immagini da un intero sito Web.
Crea set di dati Estrai i dati e trasformali into set di dati - Scopri come creare un set di dati dal sito Web che stai raschiando.
Estrai collegamenti Estrai collegamenti da un sito Web - Scopri come estrarre tutti i collegamenti HTML da un intero sito Web e save nel formato che desideri.
Seleziona il testo Estrarre valori dal testo usando i pattern - Scopri come utilizzare i pattern per estrarre valori da blocchi di testo.
OCR Estrai il testo dalle immagini - Scopri come estrarre il testo contenuto nelle immagini.
dataset Come riempire un set di dati - formatta meglio i dati estratti utilizzando il riempimento.
Italia Manipolazione di array - Scopri come utilizzare gli speciali metodi di utilità dell'array per gestire facilmente gli array negli scrap.
Action Esegui un'azione una sola volta durante una raschiatura - Scopri come eseguire un'azione una sola volta durante un'intera raschiatura.
Raffinare Perfezionamento dei dati raschiati - scopri come rimuovere i dati non necessari dai tuoi scrap.
Email Raschiare indirizzi e-mail da un sito Web - Scopri come eliminare tutti gli indirizzi e-mail da un sito Web.
Immagine dello schermo Screenshot dell'intero sito Web into PDF o immagini - Scopri come utilizzare il Web Scraper di GrabzIt per acquisire ogni pagina di un intero sito Web.
Immagine dello schermo Estrai informazioni strutturate da testo non strutturato - usa GrabzIt per estrarre sentimenti, nomi, posizioni e organizzazioni.

Scraping contenuto diverso da HTML

Quando il Web Scraper incontra PDF, XML, JSON e RSS, lo convertirà in un'approssimazione HTML, che consente al nostro Web Scraper di analizzarlo correttamente e di selezionare il contenuto che si desidera estrarre. Ad esempio, se si desidera analizzare i dati JSON, i dati verranno convertiti into una rappresentazione gerarchica HTML come mostrato a lato. Ciò consente di creare istruzioni di raschiatura come di consueto.

In modo simile quando il raschietto carica un documento PDF, il PDF viene convertito into HTML per consentire la selezione e l'eliminazione di immagini, collegamenti ipertestuali, testo e tabelle. Tuttavia, poiché un PDF non ha una struttura reale, le tabelle vengono identificate utilizzando l'euristica e quindi non sono sempre accurate.

Opzioni di esportazione

Questa scheda ti consente di scegliere come esportare i risultati tra le tue opzioni, inclusi fogli di calcolo Excel, XML, JSON, CSV, comandi SQL o documenti HTML. Inoltre, questa scheda consente di impostare il nome dei risultati della raschiatura zippati. Se stai solo scaricando file o creando acquisizioni web, non è necessario scegliere un'opzione di esportazione in quanto riceverai semplicemente un file ZIP contenente i risultati. Questa scheda consente inoltre di specificare come si desidera inviare i risultati. È possibile inviare i risultati tramite Amazon S3, dropbox, notifica per email, FTP ed WebDav.

L'ultima opzione è un URL di richiamata, che consente di elaborare i risultati della raschiatura nell'applicazione utilizzando il nostro API raschiare.

Il nome del file dei risultati compressi o di ogni file di dati se si richiede che vengano inviati separatamente può essere impostato deselezionando l'opzione Usa nome file predefinito e impostando il nome file desiderato. Inoltre, è possibile aggiungere un timestamp al nome del file inserendo {GrabzIt_Timestamp_UTC+1} nel nome del file. Il +1 indica lo scostamento in ore dall'UTC.

È inoltre possibile visualizzare i risultati di un raschiamento facendo clic su Guarda i risultati pulsante, accanto a il tuo graffio, questo mostrerà tutti i risultati di raschiamento in tempo reale, così come quelli precedenti eseguiti nelle ultime 48 ore.

Pianifica raschiatura

Quando crei uno scrap web, la scheda Pianifica scrap ti consente di impostare quando vuoi che lo scrap inizi e se vuoi che si ripeta, con quale frequenza dovrebbe farlo. Lo scraping può anche essere configurato per essere eseguito quando viene rilevata una modifica su una pagina web. Per fare questo Inizia Quando una pagina web cambia casella di controllo, quindi inserisci l'URL della pagina Web da monitorare, insieme al file Selettore CSS della parte della pagina in cui ti trovi interested in. È importante che una piccola parte della pagina sia selezionata per evitare falsi positivi dovuti a modifiche non consequenziali.

Monitoraggio e debug degli scrap

Una volta avviato il web scrap, l'icona di stato cambierà in e le pagine elaborate inizieranno ad aumentare nel tempo. Un'istantanea in tempo reale dell'avanzamento della raschiatura viene regolarmente prodotta con un file di registro generato insieme a uno screenshot regolare dell'ultima pagina Web che il raschiatore ha incontrato. Questo ti permette di vedere cosa sta succedendo durante la raschiatura. Per trovare queste informazioni, fai clic sull'icona Espandi accanto al tuo scrap e fai clic Spettatore per il graffio che sei interestato. Ciò dovrebbe indicare in dettaglio se ci sono stati errori come problemi con le istruzioni di raschiatura.

Una volta che la raschiatura è stata completata correttamente, l'icona di stato passa a , se non viene visualizzato alcun risultato aprendo il Visualizzatore, il registro e l'ultimo screenshot potrebbero indicare cosa è andato storto.

Uno dei problemi più comuni segnalati nei registri è che non c'è un ritardo di rendering sufficiente per raschiare la pagina, spesso un piccolo aumento del Ritardo caricamento pagina trovato nel Opzioni di raschiatura scheda è sufficiente per la maggior parte dei siti Web.