Strumenti per acquisire e convertire il Web

Documentazione Web Scraper

Per creare uno scrap web devi specificare cinque tipi di informazioni, distribuite nelle seguenti schede.

  1. Opzioni di raschiatura
  2. Siti Web di destinazione
  3. Istruzioni di raschiatura
  4. Opzioni di esportazione
  5. Pianifica raschiatura

Opzioni di raschiatura

Tutte le seguenti funzionalità sono disponibili per personalizzare un graffio Web nella scheda Opzioni di raschiatura.

Scrape Name il nome del graffio.

Segui i collegamenti fornisce le seguenti opzioni su come lo scraper dovrebbe seguire i collegamenti:

  • come richiesto - l'impostazione predefinita e l'opzione più sicura, questo farà sì che il raschietto segua solo i collegamenti a cui è stato ordinato
  • tutte le pagine: lo scraper seguirà tutti i collegamenti che trova
  • prima pagina: segui solo i collegamenti presenti nella prima pagina, specificati come destinazione
  • fino a n pagine dalla pagina iniziale: segui solo i collegamenti sulle pagine per il numero specificato di clic dalla prima pagina
  • nei frame: segui i link presenti nei frame e negli iframe

Ignora il file Robots.txt se impostato, il raschiatore può visitare le pagine Web normalmente escluse dalla scansione del proprietario del sito Web.

Ignora download di file una volta impostati i collegamenti, che causano il download di un file quando visitato non vengono scaricati.

Ignora duplicati se impostato ignorerà le pagine uguali o superiori alla somiglianza impostata, ad esempio potresti ignorare le pagine che sono 95% uguali.

Limit Scrape ti consente di specificare quante pagine il raschiatore web deve raschiare prima di fermarsi.

Usa il mio fuso orario se impostato, indica che il Web Scraper dovrebbe tentare di convertire qualsiasi data venga raschiata into il fuso orario locale. Il tuo fuso orario può essere impostato nella pagina dell'account.

Indirizzo la posizione geografica da cui il Web Scraper eseguirà la raschiatura. Ciò potrebbe essere utile se il sito Web di destinazione presenta restrizioni in base alla posizione.

Formato data predefinito quando si convertono le date in cui non è possibile determinare il formato della data, Web Scraper verrà invece impostato automaticamente sul formato scelto.

Ritardo caricamento pagina questo è il tempo in millisecondi che il Web Scraper dovrebbe attendere prima di analizzare una pagina. Questo è molto utile se una pagina contiene molto AJAX o è lenta da caricare.

Siti Web di destinazione

Siti Web di destinazione

Nella scheda Siti Web di destinazione si specificano i siti Web da cui si desidera estrarre i dati. Per dire allo strumento raschiamento di estrarre i dati da un sito Web devi prima specificare l'URL principale che sei interestato in es http://www.example.com/shop/ Questo è dove il raschietto inizierà la sua raschiatura, può essere una normale pagina web, documento PDF, documento XML, documento JSON, feed RSS o sitemap. Se non è una pagina Web o un documento PDF, il raschiatore troverà tutti i collegamenti nel file e visiterà ognuno di essi.

Per seguire solo i collegamenti presenti nell'URL di destinazione e non le pagine successive è possibile impostare Segui i collegamenti opzione raschiare a nella prima pagina. Questo utilizzerà l'URL di destinazione solo per eseguire il seeding del resto dello scrap.

Per impostazione predefinita, il raschietto web segue tutti i collegamenti che rileva su ogni pagina Web visitata. Se si desidera limitare ciò che collega il Raschietto Web Di seguito, un modo semplice per eseguire questa operazione è specificare un pattern URL. Funziona specificando un URL con l'asterisco come carattere jolly per indicare che qualsiasi carattere può essere presente in questa parte del modello. Per esempio http://www.example.com/*/articles/* eliminerebbe qualsiasi URL che abbia articoli come seconda directory dalla radice del sito Web.

L'URL può anche specificare un URL con parametri POST, ad esempio un modulo di accesso. Per fare ciò, specificare l'URL del modulo nella casella di testo URL di destinazione e aggiungere i parametri di post richiesti da utilizzare. I valori delle variabili post possono anche includere speciali variabili GrabzIt, come:

  • {{day}} - giorno come valore a due cifre
  • {{month}} - mese come valore a due cifre
  • {{year}} - anno come valore a quattro cifre
  • {{hour}} - ora come valore a due cifre
  • {{minute}} - minuto come valore a due cifre
  • {{second}} - secondo come valore a due cifre

Finalmente puoi specificare URL seme per garantire che tali URL vengano eliminati.

URL del seme

Gli URL seme consentono all'utente di specificare un elenco di URL che devono essere sottoposti a scansione dal Web Scraper. Se desideri solo scansionare gli URL seme, imposta il Segui i collegamenti opzioni di raschiatura a nessuna pagina nella scheda Opzioni di raschiatura.

Per impostare gli URL seme nella scheda Siti Web di destinazione, fai clic sul pulsante Aggiungi obiettivo, quindi seleziona la casella di controllo Imposta URL seme e specifica ciascun URL da raschiare su una riga separata.

Crea URL seed da un URL modello

In alternativa puoi generare automaticamente URL seed utilizzando un URL modello, si tratta di un singolo URL che include una variabile URL. Una variabile URL specifica un intervallo di numeri su cui ripetere l'iterazione.

{{start number|finish number|iterate number}}

  • numero iniziale il numero da cui inizia la variabile URL
  • numero finale il numero a cui termina la variabile URL
  • numero iterato il numero in base al quale la variabile URL scorre

Il numero iniziale è il numero su cui la variabile URL dovrebbe iniziare a contare, il numero finale è il numero su cui la variabile URL smetterà di contare, il numero iterato è il numero che il numero aumenterà per ogni iterazione della variabile URL.

Ad esempio per il seguente URL modello http://www.example.com/search?pageNo={{1|3|1}}

Ciò creerà quindi i seguenti URL seed:

  • http://www.example.com/search?pageNo=1
  • http://www.example.com/search?pageNo=2
  • http://www.example.com/search?pageNo=3

Istruzioni di raschiatura

Le istruzioni di Scrape indicano al Web Scraper quali azioni eseguire durante lo scraping dei siti Web di destinazione. La scheda Istruzioni di raschiatura mostra la procedura guidata di raschiatura per impostazione predefinita, che semplifica l'aggiunta delle istruzioni di raschiatura necessarie. Per iniziare, premere il tasto Aggiungi nuova istruzione Scrape link.

Questo aprirà la procedura guidata e caricherà automaticamente l'URL di destinazione, consentendoti di selezionare immediatamente ciò che desideri scartare. Se è stata caricata una pagina Web o un documento PDF, è possibile fare clic su qualsiasi collegamento e funzionerà normalmente, ad esempio la navigazione verso un'altra pagina Web. Fino a quando non scegli una delle azioni, nella parte inferiore dello schermo, in questo puntoint qualsiasi clic sul contenuto selezionerà l'elemento HTML che desideri estrarre o manipolare.

La prima cosa da capire sulle istruzioni di raschiatura è che vengono eseguite su ogni pagina Web per impostazione predefinita. Il modo per fermarlo è attraverso l'uso di modelli. È possibile assegnare un modello quando si esegue un'azione come fare clic su un collegamento e in modo tale che ogni volta che il raschiatore visita quel collegamento o fa clic su quel pulsante, riconoscerà che appartiene al modello assegnato. Ciò consente di definire diversi tipi di pagina. Ad esempio, potresti avere una pagina di categoria di prodotto che contiene alcune informazioni generali e quindi una pagina di dettaglio che contiene le informazioni sul prodotto. Entrambe le pagine avrebbero probabilmente bisogno di un diverso set di istruzioni per la raschiatura.

Modello di raschietto

Per iniziare, seleziona il Dacci un'occhiata cliccando azione, quindi dopo aver selezionato gli elementi su cui si desidera eseguire l'azione e aver fatto clic su Next pulsante inserisci il nome del modello nel Crea un modello casella di testo ora ogni volta che lo scraper esegue queste azioni, il modello restituito sarà il nome che hai fornito.

Quindi per assegnare un modello particolare a un'istruzione di raschiatura è necessario selezionare il modello desiderato da Eseguire elenco a discesa, che appare nella finestra delle opzioni che appare poco prima dell'aggiunta dell'istruzione raschiata. Le tre opzioni principali quando si sceglie un modello sono le seguenti:

  • Tutte le pagine - non utilizzare un modello, per questa istruzione di raschiatura, l'istruzione di raschiamento verrà eseguita su tutte le pagine Web.
  • Modello predefinito - non utilizzare uno dei modelli definiti dall'utente. L'istruzione scrape verrà eseguita su qualsiasi pagina Web in cui non è stato specificato un modello.
  • Modello definito dall'utente - uno dei modelli che sono stati definiti dall'utente per identificare una determinata pagina Web o azione.

Dopo aver selezionato una di queste opzioni, l'istruzione raschiatura verrà eseguita solo sul modello specificato.

Estrazione dei dati

Lo noterai quando selezioni il Estrazione dei dati una serie di elementi di dati da estrarre diventa immediatamente disponibile per il download nell'angolo in basso a sinistra dello schermo. Queste sono le proprietà dell'intera pagina che puoi scaricare. Per sceglierne uno, selezionalo dall'elenco di opzioni e fai clic Next per aggiungere i dati a dataset.

Se desideri estrarre dati in elementi HTML specifici anziché appartenere all'intera pagina, devi fare clic sugli elementi HTML pertinenti, puoi selezionare elementi singoli o multipli. Tuttavia, se si selezionano più elementi, provare a selezionare più elementi uguali, ad esempio più righe in una colonna, perché se lo scraper non è in grado di creare una regola in grado di identificare in modo univoco la raccolta di dati selezionata, un'istruzione raschiatura non lo farà essere in grado di essere creato. Inoltre, se i nostri elementi multipli su cui fai clic sono stati identificati come dati ripetuti dalla nostra procedura guidata di raschietto web, tutti i dati ripetuti nello stesso gruppo verranno automaticamente selezionati. Dopo aver selezionato tutti i tuoi elementi singoli o multipli, scegli un attributo da estrarre dalla parte inferiore sinistra dello schermo, quindi fai clic su Next.

Creazione di un set di dati

La schermata del set di dati consente di modificare il modo in cui i dati vengono elaborati, ad esempio è possibile rinominare il set di dati e le colonne al suo interno, basta fare clic sul nome per rinominarlo. Quando aggiungi una colonna a un set di dati, devi anche scegliere il modello in cui deve essere eseguito. Puoi modificarlo facendo clic sull'elenco a discesa situato sotto il nome della colonna.

Spesso durante l'estrazione di dati, è comune che alcuni elementi ripetuti si ripetano in modo incoerente, per assicurarsi che le righe corrette siano ancora associate tra loro Colonne di collegamento criteri, per collegare le colonne incoerenti con la colonna più coerente nel set di dati.

Per aggiungere più dati al set di dati, fare clic su o fare clic sul pulsante per rimuovere i dati dal set di dati, o per eliminare l'intero set di dati. Il set di dati consente inoltre di applicare vari criteri ai dati, per fare ciò selezionare l'azione desiderata dall'alto e quindi fare clic sulla colonna pertinente per applicare i criteri. In caso di errore durante l'aggiunta di criteri, fare clic su pulsante.

Ecco l'elenco dei diversi tipi di criteri e come usarli:

  • Righe limite - questo limiterà il numero di righe estratte dalla pagina Web al numero definito. Per usare clicca e quindi fai clic sulla riga oltre, che desideri tagliare.
  • Ripetere - ripete gli elementi della colonna fino a quando la colonna corrisponde alla lunghezza della colonna più lunga. Per usare basta fare clic e quindi fai clic sulla colonna per cui desideri ripetere gli elementi.
  • Rendi unico - rimuove qualsiasi valore duplicato per tutti i valori inseriti into colonna. Per usare basta fare clic e quindi fai clic sulla colonna che desideri rendere unica.
  • Estrai valori - specifica un modello per estrarre solo gli elementi di dati corrispondenti da un blocco di testo. Per usare basta fare clic , selezionare la colonna pertinente e quindi seguire le istruzioni per creare un modello che restituirà i dati rilevanti dal string.
  • Valori di ritaglio - specifica un motivo per tagliare il testo ridondante. Per usare basta fare clic , seleziona la colonna pertinente e segui le istruzioni per creare un motivo che taglierà il testo.
  • Colonne di collegamento - consente alle colonne di essere collegate tra loro. In modo che quando si estraggono i dati, i record appariranno sulla stessa riga della riga relativa nella colonna collegata anche in caso di mancata corrispondenza nel numero di risultati. Per usare basta fare clic , seleziona la colonna da collegare e quindi la colonna da collegare.
  • Nascondi colonna - a volte vuoi includere una colonna su cui filtrare ma non vuoi includere i valori nel risultato finale. Per fare questo basta fare clic , seleziona la colonna che desideri escludere.
  • Ordine crescente - ordina per colonna, in ordine crescente. Per usare clicca e quindi scegli la colonna per ordinare.
  • Ordine decrescente - ordina per colonna, in ordine decrescente. Per usare clicca e quindi scegli la colonna per ordinare.
  • contiene - include solo valori che contengono il valore definito. Per usare clicca selezionare la colonna desiderata e quindi immettere il valore che i valori della colonna devono contenere.
  • Uguale a - include solo valori uguali al valore definito. Per usare clicca seleziona la colonna desiderata e inserisci il valore a cui i valori della colonna devono essere uguali.
  • Non uguale a - include solo valori non uguali al valore definito. Per usare clicca seleziona la colonna desiderata e inserisci il valore a cui la colonna non deve essere uguale.
  • Meno di - include solo valori inferiori al valore definito. Per usare clicca per selezionare la colonna desiderata e quindi immettere il valore di cui la colonna dovrebbe essere inferiore.
  • Più grande di - include solo valori maggiori del valore definito. Per usare clicca per selezionare la colonna desiderata e quindi immettere il valore che la colonna dovrebbe essere maggiore di.

Quando hai selezionato una delle operazioni sopra descritte, se può interessare più colonne, ti verrà chiesto se vuoi consentire che influisca solo su un sottoinsieme delle colonne o tutte. Nella maggior parte dei casi si desidera che influisca su tutte le colonne, tuttavia in alcune circostanze è utile limitare le colonne effettuate. Ad esempio, se si sta selezionando una serie di etichette e valori, che cambiano posizione tra le pagine Web, è possibile selezionare tutte le etichette e i valori. Quindi nel set di dati utilizzare l'operazione equals per limitarla all'etichetta desiderata e specificare che solo le colonne label e value devono essere interessate. Ciò garantirà che le altre colonne non siano interessate dalle righe eliminate, per completezza sarebbe utile nascondere la colonna dell'etichetta.

Dopo aver modificato tutto ciò che desideri, fai clic su Next e, le tue istruzioni di raschiatura verranno aggiunte alla raschiatura.

Manipolazione di una pagina Web

Una pagina Web può essere manipolata prima di essere scaricata, facendo clic, digitando e selezionando i valori dai menu a discesa. È importante ricordare che, anche se ciò può causare il caricamento di una nuova pagina Web, le istruzioni di raschiatura non si riavvieranno fino a quando non saranno state eseguite tutte le istruzioni di raschiatura applicabili.

Per manipolare una pagina Web, scegliere il Fai clic su Elemento, Hover Element, Scorrere, Digita testo or Seleziona il valore dell'elenco a discesa Azioni. Se si sta eseguendo un'azione di clic, è possibile fare clic su un numero qualsiasi di elementi in una pagina Web. Altrimenti è necessario selezionare un elemento HTML appropriato, ad esempio il testo deve essere digitato in una casella di testo. Quindi fare clic Next. Questo aprirà una casella di opzione che ti permetterà di completare l'azione. Quando si digita il testo e si seleziona da un menu a discesa, i dati da digitare o selezionare devono essere scelti rispettivamente. A parte questo, le opzioni sono le stesse per tutte e tre le azioni.

Se lo desideri, puoi selezionare il modello in cui questa azione deve essere eseguita e per l'azione clic quale modello si applica, una volta completata l'azione clic. Tuttavia, assegnare un nuovo modello a un'azione di clic che esegue più clic sulla stessa pagina, non è una buona idea, come l'apertura di popup incorporati o la visualizzazione delle cose sullo schermo. Questo perché se l'azione di clic viene eseguita solo su determinati modelli, il nuovo modello assegnato dal primo clic non verrebbe ripristinato e, pertanto, a seconda di come è stato scritto lo scrap, ciò potrebbe impedire l'esecuzione di clic futuri sulla stessa pagina. Puoi anche definire se vuoi che questa azione venga eseguita una sola volta, il che è utile se stai facendo qualcosa di simile al login into sito web.

Le azioni Digita testo o Seleziona valore elenco a discesa consentono di digitare più elementi di testo o effettuare selezioni multiple per la casella di selezione, rispettivamente. Questi possono essere modificati facendo clic sulle istruzioni di raschiatura Modifica o visualizza variabili pulsante, come mostrato nella schermata a sinistra.

Questo potrebbe essere importante se si desidera digitare un elenco di nomi in una casella di ricerca, ad esempio. Per garantire che un modulo sia inviato solo quando nella casella di ricerca è presente un valore, è possibile impostare un modello ogni volta che il testo viene digitato correttamente into la casella di testo e l'azione clic su un pulsante non vengono eseguite a meno che questo modello non sia impostato. Dopo che è stata eseguita l'azione clic, il modello dovrebbe essere modificato in qualcos'altro per ripristinare la procedura.

Dopo l'esecuzione delle azioni che manipolano i siti Web, è utile attendere qualche istante se le azioni avviano la funzionalità AJAX, per consentire il caricamento del contenuto AJAX prima di continuare con la raschiatura. Puoi farlo aggiungendo un ritardo in Dopo l'esecuzione Attendere casella di testo.

Potresti passare direttamente a un URL diverso una volta soddisfatta una condizione. Per fare questo usa il Vai a URL azione, che verrà visualizzata solo quando è stato definito almeno un modello nella raschiatura e, quando creato, deve essere assegnato a un modello, per evitare loop infiniti.

Finalmente puoi utilizzare tutte le API di acquisizione di GrabzIt nei tuoi scrap web, basta scegliere l'azione Cattura pagina Web e scegliere la cattura desiderata. È possibile limitare questo per catturare determinate pagine Web all'interno dello scrap specificando un modello da eseguire dopo aver selezionato Next pulsante.

Dopo aver aggiunto ogni istruzione di raschiatura, è possibile vederla nel pannello delle istruzioni di raschiatura, la croce accanto a ciascuna istruzione di raschiatura consente di eliminare l'istruzione di raschiatura. Se viene eliminata un'istruzione di raschiatura richiesta da altre istruzioni di raschiatura, anche quelle istruzioni vengono cancellate. È possibile modificare l'ordine delle istruzioni di raschiatura trascinando le istruzioni di graffiatura con l'icona di acquisizione.

Scrittura manuale delle istruzioni di raschiatura

Se è necessario personalizzare le istruzioni di raschiatura in un modo più specifico o se si desidera eseguire il codice graffi prima o dopo dovrai modificare manualmente le istruzioni di raschiatura.

Le istruzioni di raschiatura sono basate su JavaScript e l'editor di codice viene fornito completo di un controllo di sintassi, completamento automatico e suggerimenti per renderlo il più semplice possibile.

Istruzioni per raschietto web La funzionalità principale dell'editor di codice è accessibile attraverso le opzioni di menu, come mostrato nella schermata, lo scopo di ciascuno è spiegato separatamente di seguito. Mentre eventuali errori di sintassi nelle istruzioni di raschiatura sono indicati nel margine sinistro dell'editor di codice.

stregone la procedura guidata consente di selezionare parti della pagina che si desidera estrarre ed eseguire altre attività comuni come la creazione di acquisizioni Web.

Visualizza le istruzioni di raschiatura visualizza il codice delle istruzioni di raschiatura per l'utente.

Elimina tutte le istruzioni elimina tutte le istruzioni di raschiatura.

Funzioni della pagina Web inserirà la parola chiave Pagina into le istruzioni di raschiatura e aprire il completamento automatico, che contiene tutto il possibile Funzioni di pagina. Le funzioni della pagina consentono di estrarre i dati dalla pagina Web.

Funzioni dati inserirà la parola chiave Data into le istruzioni di raschiatura. Funzioni di dati si consente di save informazioni.

Funzioni di navigazione inserisce la parola chiave di navigazione into l'editor di codice. Il Funzioni di navigazione consentono di controllare il modo in cui il Web Scraper naviga nei siti Web di destinazione.

Funzioni globali inserisce la parola chiave globale into le istruzioni di raschiatura. Questo ti dà accesso a funzioni in grado di memorizzare dati tra l'analisi di diverse pagine Web. Quando si scrivono le istruzioni di raschiatura, è importante ricordare che lo stato delle variabili JavaScript nelle istruzioni di raschiatura non viene mantenuto quando il raschiatore si sposta tra le pagine Web, a meno che non si utilizzino le funzioni globali per save variabili, come mostrato di seguito.

Global.set("myvariable", "hello");
var mrvar = Global.get("myvariable");

Per creare una variabile globale persistente, passare true al parametro persist nel metodo Global.set, come mostrato di seguito.

Global.set("myvariable", "hello", true);

Funzioni di utilità inserisce la parola chiave Utility into le istruzioni di raschiatura. Questo ti permette di usare funzioni comuni che semplifica la scrittura di graffi, come l'aggiunta o la rimozione di querystring parametri dagli URL.

Funzioni di criteri inserisce la parola chiave Criteria into le istruzioni di raschiatura. Questi funzioni ti consente di affinare i dati estratti durante la raschiatura, ad esempio eliminando i duplicati.

Filtro ti permette di creare facilmente un filtro, questo è richiesto da alcune funzioni per selezionare un particolare elemento HTML all'interno di una pagina web. Basta selezionare gli attributi che l'elemento target dovrebbe avere e / o i genitori dell'elemento dovrebbero selezionare quell'elemento. Assicurati che prima di fare clic su questa opzione il cursore si trovi nella posizione corretta nella funzione per passare anche il filtro.

Funzioni dello screenshot ti permette di impostare le opzioni dello screenshot. Posiziona semplicemente il cursore nella parte corretta della funzione, come identificato dalla descrizione comando e premi le opzioni dello screenshot. Quindi scegli tutte le opzioni che desideri e inserisci il comando.

Esecuzione di azioni prima o dopo una raschiatura

È possibile eseguire i comandi prima o dopo una raschiatura utilizzando l'elenco a discesa delle opzioni nella parte superiore della scheda Istruzioni di raschiatura. Qualsiasi comando inserito quando Esegui dopo raschiare è selezionato verrà eseguito al termine della raschiatura. Mentre qualsiasi comando immesso quando Eseguire prima di raschiare è selezionato verrà eseguito prima dell'inizio della raschiatura.

Tuttavia, quando in una di queste due modalità speciali è disponibile solo un sottoinsieme delle istruzioni di raschiatura. I comandi disponibili sono le istruzioni di raschiamento Dati, Globale e Navigazione.

Strings

Strings sono usati nelle istruzioni di raschiatura, quando si esegue una raschiatura web, per definire il testo. UN string è delimitato da double (") o virgolette singole ('). Se una string viene iniziato con una virgoletta doppia, deve terminare con una virgoletta doppia, se a string inizia con una virgoletta singola, deve terminare con una virgoletta singola. Per esempio:

"my-class" e 'my-class'

Un errore comune che può verificarsi è il non chiuso string errore, questo è quando a string non ha un preventivo di chiusura come mostrato sopra o c'è un'interruzione di riga nel string. I seguenti sono illegali strings:

"my
class"

"my class

Per correggere questo errore è assicurarsi che non contengano interruzioni di riga e che abbiano virgolette corrispondenti, in questo modo:

"my class" e "my class"

A volte si desidera che una virgoletta singola o doppia appaia in a string. Il modo più semplice per farlo è inserire una singola citazione in a string delimitato da virgolette doppie e virgolette doppie in a string delimitato da virgolette singole, in questo modo:

"Bob's shop" e '"The best store on the web"'

In alternativa puoi usare una barra rovesciata per sfuggire a una citazione in questo modo:

'test\'s'

Attività di raschiatura manuali comuni

Link Checker Crea un controllo link personalizzato - Scopri come creare un controllo link personalizzato seguendo queste semplici istruzioni.
Download dell'immagine Scarica tutte le immagini da un sito Web - Scopri come scaricare tutte le immagini da un intero sito Web.
Crea set di dati Estrai i dati e trasformali into set di dati - Scopri come creare un set di dati dal sito Web che stai raschiando.
Estrai collegamenti Estrai collegamenti da un sito Web - Scopri come estrarre tutti i collegamenti HTML da un intero sito Web e save nel formato che desideri.
Seleziona il testo Estrarre valori dal testo usando i pattern - Scopri come utilizzare i pattern per estrarre valori da blocchi di testo.
OCR Estrai il testo dalle immagini - Scopri come estrarre il testo contenuto nelle immagini.
dataset Come riempire un set di dati - formatta meglio i dati estratti utilizzando il riempimento.
Italia Manipolazione di array - Scopri come utilizzare gli speciali metodi di utilità dell'array per gestire facilmente gli array negli scrap.
Azione Esegui un'azione una sola volta durante una raschiatura - Scopri come eseguire un'azione una sola volta durante un'intera raschiatura.
Raffinare Perfezionamento dei dati raschiati - scopri come rimuovere i dati non necessari dai tuoi scrap.
Indirizzo email Raschiare indirizzi e-mail da un sito Web - Scopri come eliminare tutti gli indirizzi e-mail da un sito Web.
Immagine dello schermo Screenshot dell'intero sito Web into PDF o immagini - Scopri come utilizzare il Web Scraper di GrabzIt per acquisire ogni pagina di un intero sito Web.
Immagine dello schermo Estrai informazioni strutturate da testo non strutturato - usa GrabzIt per estrarre sentimenti, nomi, posizioni e organizzazioni.

Scraping contenuto diverso da HTML

Quando il Web Scraper incontra PDF, XML, JSON e RSS, lo convertirà in un'approssimazione HTML, che consente al nostro Web Scraper di analizzarlo correttamente e di selezionare il contenuto che si desidera estrarre. Ad esempio, se si desidera analizzare i dati JSON, i dati verranno convertiti into una rappresentazione gerarchica HTML come mostrato a lato. Ciò consente di creare istruzioni di raschiatura come di consueto.

In modo simile quando il raschietto carica un documento PDF, il PDF viene convertito into HTML per consentire la selezione e l'eliminazione di immagini, collegamenti ipertestuali, testo e tabelle. Tuttavia, poiché un PDF non ha una struttura reale, le tabelle vengono identificate utilizzando l'euristica e quindi non sono sempre accurate.

Opzioni di esportazione

Questa scheda ti consente di scegliere come esportare i risultati tra le tue opzioni, inclusi fogli di calcolo Excel, XML, JSON, CSV, comandi SQL o documenti HTML. Inoltre, questa scheda consente di impostare il nome dei risultati della raschiatura zippati. Se stai solo scaricando file o creando acquisizioni web, non è necessario scegliere un'opzione di esportazione in quanto riceverai semplicemente un file ZIP contenente i risultati. Questa scheda consente inoltre di specificare come si desidera inviare i risultati. È possibile inviare i risultati tramite Amazon S3, dropbox, notifica per email, FTP e WebDav.

L'ultima opzione è un URL di richiamata, che consente di elaborare i risultati della raschiatura nell'applicazione utilizzando il nostro API raschiare.

Il nome file dei risultati zippati o di ciascun file di dati, se si richiede che vengano inviati separatamente, può essere impostato deselezionando l'opzione Usa nome file predefinito e impostando il nome file desiderato.

Pianifica raschiatura

Quando si crea un raschiamento Web, la scheda Pianifica raschiatura consente di impostare quando si desidera avviare la raschiatura e se si desidera che si ripeta, con quale frequenza dovrebbe farlo.

Monitoraggio e debug degli scrap

Una volta avviato il web scrap, l'icona di stato cambierà in e le pagine elaborate inizieranno ad aumentare nel tempo. Un'istantanea in tempo reale dell'avanzamento della raschiatura viene regolarmente prodotta con un file di registro generato insieme a uno screenshot regolare dell'ultima pagina Web che il raschiatore ha incontrato. Questo ti permette di vedere cosa sta succedendo durante la raschiatura. Per trovare queste informazioni, fai clic sull'icona Espandi accanto al tuo scrap e fai clic Spettatore per il graffio che sei interestato. Ciò dovrebbe indicare in dettaglio se ci sono stati errori come problemi con le istruzioni di raschiatura.

Una volta che la raschiatura è stata completata correttamente, l'icona di stato passa a , se non viene visualizzato alcun risultato aprendo il Visualizzatore, il registro e l'ultimo screenshot potrebbero indicare cosa è andato storto.

Uno dei problemi più comuni segnalati nei registri è che non c'è un ritardo di rendering sufficiente per raschiare la pagina, spesso un piccolo aumento del Ritardo caricamento pagina trovato nel Opzioni di raschiatura scheda è sufficiente per la maggior parte dei siti Web.