Strumenti per acquisire e convertire il Web

Estrazione di dati da documenti PDF

Eliminare i dati dal contenuto dei documenti PDF non è flessibile come farlo dai documenti HTML, tuttavia esistono ancora diversi modi per ottenere ciò utilizzando GrabzIt's Web Scraper. Prima di grattare il contenuto PDF che usi PDF funzioni piuttosto che Page funzioni ma per il resto le funzioni funzionano generalmente allo stesso modo.

Un filtro per un documento PDF è molto più semplice di quello per un documento HTML, innanzitutto devi specificare quale tipo di contenuto vuoi estrarre: collegamenti, immagini o testo.

//Extract images
PDF.getValue({"type":"image"});
//Extract links
PDF.getValue({"type":"link"});
//Extract text
PDF.getValue({"type":"text"});

Per i collegamenti e le immagini è possibile limitare l'immagine o il collegamento restituito specificandone la posizione.

PDF.getValue({"type":"image","position":"2"});

Ottiene la seconda immagine in un documento. Per testo, immagini e collegamenti è possibile limitare ulteriormente i dati restituiti specificando un numero di pagina.

PDF.getValue({"type":"image","position":"2","page":"5"});

Ciò restituirà la seconda immagine dalla quinta pagina. Il testo viene fornito con l'opzione aggiunta del numero di riga, tuttavia il testo non supporta la posizione.

PDF.getValue({"type":"text","page":"5","line":"10"});

Questo ottiene la decima riga di testo dalla quinta pagina. Oltre a queste differenze di opzioni di filtro, la cancellazione dei dati dai documenti PDF funziona in modo molto simile a raschiando dati da documenti HTML, tuttavia, poiché non è possibile essere specifici di ciò che si estrae con un filtro PDF, potrebbe essere necessario specificare a modello per estrarre le informazioni corrette dal testo.