GrabzIt's Web Scraper fornisce diversi metodi di utilità speciali per semplificare l'estrazione di indirizzi e-mail da un sito Web. L'esempio seguente ottiene tutto il contenuto HTML da una pagina Web e quindi lo passa attraverso Utility.Text.extractAddresses
metodo per trovare tutti gli indirizzi e-mail validi prima di salvare gli indirizzi into un set di dati, che viene quindi inviato all'utente.
In alternativa, è possibile estrarre solo il primo indirizzo email corrispondente utilizzando il Utility.Text.extractAddress
metodo.
Data.save(Utility.Text.extractAddresses(Page.getHtml()));
I documenti PDF possono anche essere raschiati per gli indirizzi e-mail in modo simile a come le pagine Web vengono scaricate sopra. Come puoi vedere nell'esempio seguente, il processo è esattamente lo stesso, tranne che per il PDF.getText()
viene utilizzato il metodo anziché Page.getHtml()
metodo.
Data.save(Utility.Text.extractAddresses(PDF.getText()));
GrabzIt ha la capacità di estrarre il testo dalle immagini questo significa che questa capacità può anche essere sfruttata per estrarre gli indirizzi e-mail dalle immagini. L'esempio seguente estrae tutti gli indirizzi e-mail da tutte le immagini in una pagina Web.
Data.save(Utility.Text.extractAddresses(Utility.Image.extractText(Page.getTagAttributes('src', {"tag":{"equals":"img"}}))));
Mentre le istruzioni di raschiatura riportate di seguito estraggono eventuali indirizzi e-mail dalle immagini presenti nei documenti PDF.
Data.save(Utility.Text.extractAddresses(Utility.Image.extractText(PDF.getValue({"type":"image"}))));