Uno dei requisiti più comuni è quello di estrarre i dati da un sito Web e trasformarli into una struttura tabulare che può essere esportata per ulteriori elaborazioni. Ma cos'è un set di dati e come viene utilizzato GrabzIt's Web Scraper?
Di seguito sono riportati i dati della tabella contenuti nel set di dati listino prezzi, la tabella è composta da tre colonne etichetta dell'articolo, descrizione dell'articolo e prezzo dell'articolo.
etichetta dell'articolo | descrizione dell'articolo | prezzo dell'articolo |
---|---|---|
Telecamere | Scatta foto digitali | $ 99.00 |
Per creare questo set di dati è necessario utilizzare le seguenti istruzioni di raschiatura.
Data.save('Camera', 'price list', 'item label'); Data.save('Takes digital photos', 'price list', 'item description'); Data.save('$99.00', 'price list', 'item price');
Questo utilizza il Data.save
metodo per aggiungere a valore dei dati a un particolare dataset e colonna. Ogni volta che il Data.save
Il metodo viene chiamato con lo stesso set di dati e parametri del nome della colonna e una nuova riga viene aggiunta a quella colonna. Tuttavia, le precedenti istruzioni di raschiatura non sono molto utili in quanto stiamo creando il set di dati utilizzando valori statici. Il codice seguente mostra l'HTML di una pagina Web, quindi scriveremo le istruzioni di raschiatura per estrarre dinamicamente i dati dalla pagina e save it into set di dati.
<html> <body> <span id="spnLabel">Nikon 1055</span> <span id="spnDescription">Great little camera, creates clear sharp images.</span> <span id="spnPrice">$99.99</span> </body> </html>
Ora useremo il Page.getTagValue
metodo per estrarre i valori dai tag span.
Data.save(Page.getTagValue({"id":{"equals":"spnLabel"}}), 'price list', 'item label'); Data.save(Page.getTagValue({"id":{"equals":"spnDescription"}}), 'price list', 'item description'); Data.save(Page.getTagValue({"id":{"equals":"spnPrice"}}), 'price list', 'item price');
Come puoi vedere Page.getTagValue
i metodi utilizzano un filtro, che identifica in modo univoco l'elemento HTML da cui il testo deve essere estratto. In questo caso i filtri specificano che l'attributo HTML id deve essere uguale spnLabel, spnDescription or spnPrice rispettivamente. Puoi facilmente generare un filtro facendo clic su icona, che visualizza una procedura guidata per semplificare la costruzione del filtro.
Dopo aver creato il set di dati come mostrato qui, puoi decidere come esportarlo sul Opzioni di esportazione scheda.