Spesso importanti informazioni testuali possono essere archiviate in immagini. tuttavia GrabzIt's Web Scraper offre la possibilità di estrarre automaticamente queste informazioni utilizzando il riconoscimento ottico dei caratteri. Anche se come questa è una forma di artificiale intI risultati non sono sempre perfetti.
Per estrarre il testo dalle immagini è necessario utilizzare il Utility.Image.extractText
metodo come mostrato di seguito.
var textArray = Utility.Image.extractText(Page.getTagAttributes('src', {"tag":{"equals":"img"}}));
Questi esempi ottengono entrambi tutti gli URL delle immagini dalla pagina Web e quindi passano gli URL al metodo extractText che tenta di estrarre dati testuali da ciascuna immagine e restituisce qualsiasi corrispondenza come una matrice di strings.
Se il testo nell'immagine è in una lingua diversa, è necessario specificare il codice lingua corretto utilizzando il formato a due lettere (ISO 639-1) come mostrato di seguito.
var textArray = Utility.Image.extractText(Page.getTagAttributes('src', {"tag":{"equals":"img"}}), 'fr');