Strumenti per acquisire e convertire il Web

Raschiare indirizzi e-mail da un sito Web

I seguenti due esempi fanno parte dello stesso modello.

GrabzIt's Web Scraper fornisce diversi metodi di utilità speciali per semplificare l'estrazione di indirizzi e-mail da un sito Web. L'esempio seguente ottiene tutto il contenuto HTML da una pagina Web e quindi lo passa attraverso Utility.Text.extractAddresses metodo per trovare tutti gli indirizzi e-mail validi prima di salvare gli indirizzi into un set di dati, che viene quindi inviato all'utente.

In alternativa, è possibile estrarre solo il primo indirizzo email corrispondente utilizzando il Utility.Text.extractAddress metodo.

Data.save(Utility.Text.extractAddresses(Page.getHtml()));

Raschiare indirizzi e-mail da documenti PDF

I documenti PDF possono anche essere raschiati per gli indirizzi e-mail in modo simile a come le pagine Web vengono scaricate sopra. Come puoi vedere nell'esempio seguente, il processo è esattamente lo stesso, tranne che per il PDF.getText() viene utilizzato il metodo anziché Page.getHtml() metodo.

Data.save(Utility.Text.extractAddresses(PDF.getText()));

Raschiare gli indirizzi e-mail dalle immagini

GrabzIt ha la capacità di estrarre il testo dalle immagini questo significa che questa capacità può anche essere sfruttata per estrarre gli indirizzi e-mail dalle immagini. L'esempio seguente estrae tutti gli indirizzi e-mail da tutte le immagini in una pagina Web.

Data.save(Utility.Text.extractAddresses(Utility.Image.extractText(Page.getTagAttributes('src', {"tag":{"equals":"img"}}))));

Mentre le istruzioni di raschiatura riportate di seguito estraggono eventuali indirizzi e-mail dalle immagini presenti nei documenti PDF.

Data.save(Utility.Text.extractAddresses(Utility.Image.extractText(PDF.getValue({"type":"image"}))));