Un'attività comune è estrarre i collegamenti da un sito Web, in particolare i collegamenti HTML. Fortunatamente questo è facile quando si usa GrabzIt's Web Scraper. Prima di tutto crea un nuovo graffio con i normali dettagli come la pagina iniziale del graffio e qualsiasi altra opzione.
Quindi vai al Istruzioni di raschiatura scheda e fare clic su pulsante. Questo accederà al
Page
parola chiave into le istruzioni di raschiatura e si aprirà un menu a discesa. Selezionare getTagAttributes
dall'elenco. Aggiungi successivo 'href'
come primo parametro, questo dice al Web Scraper di estrarre l'attributo href, quindi digitare una virgola.
Quindi fare clic su questo ti permette di dire al Web Scraper da quali elementi estrarre l'attributo href. Nella finestra del filtro assicurarsi che il tipo sia impostato su "Pagina Web" e che la restrizione sia "nome tag" e "uguale a". Quindi entra
a
nella casella di testo, quindi fai clic sul pulsante Aggiungi, quindi su Inserisci filtro. Termina l'istruzione aggiungendo un punto e virgola alla fine della riga.
Dovresti essere lasciato con qualcosa di simile a quello che viene mostrato di seguito.
Page.getTagAttributes('href', {"tag":{"equals":"a"}});
Il codice sopra estrarrà tutti gli URL dei collegamenti dalla pagina Web, ma ora è necessario save quegli URL dei link. Per fare questo avvolgiamo questo comando meno il punto e virgola in a Data.save
comando. Per fare questo vai all'inizio della riga e seleziona il pulsante. Quindi nel menu a discesa selezionare
save
, quindi vai alla fine della riga e aggiungi una virgola. Quindi aggiungere ciò che si desidera chiamare il set di dati come "Il mio sito Web", quindi aggiungere un'altra virgola e quindi aggiungere un altro parametro per descrivere la colonna come "Collegamenti", quindi chiudere il comando con un )
prima del punto e virgola.
Ora dovresti avere le seguenti istruzioni di raschiatura.
Data.save(Page.getTagAttributes('href', {"tag":{"equals":"a"}}), 'My Websites', 'Links');
Ora se esegui lo scrap, estrarrai tutti i link dal sito web. Ciò creerà una tabella con il nome di I miei siti Web, con un nome di colonna di collegamenti che può quindi essere esportato into molti formati diversi come XML, CSV o un foglio di calcolo. Questo tutorial potrebbe essere stato realizzato anche utilizzando il pulsante della procedura guidata nella barra degli strumenti Istruzioni di raschiatura.