Strumenti per acquisire e convertire il Web

Come estrarre automaticamente le informazioni strutturate dal testo non strutturato?

Il normale testo scritto può includere molte informazioni che non sono facilmente estraibili. Ad esempio una frase può essere una recensione su un'azienda, ma come fai a sapere se è una recensione buona o cattiva?

Un normale raschietto web non sarebbe in grado di estrarre queste informazioni. Tuttavia GrabzIt può usare usando le sue capacità di elaborazione del linguaggio naturale. Come mostrato nell'esempio seguente, il testo della pagina viene analizzato e restituisce uno dei seguenti valori: Molto negativo, Negativo, Neutro, Positivo e Molto positivo.

Data.save(Utility.Text.extractSentiment(Page.getText()), 'Dataset', 'Sentiment');

Sebbene GrabzIt's Web Scraper può estrarre molto di più dal testo, incluso il rilevamento della lingua, i nomi delle località, i nomi delle persone e i nomi delle organizzazioni. Di seguito sono riportati alcuni esempi.

//Language Detection
Data.save(Utility.Text.extractLanguageName(Page.getText()), 'Dataset', 'Language');
//Identify Geographic Locations
Data.save(Utility.Text.extractLocations(Page.getText()), 'Dataset', 'Locations');
//Identify People's Names
Data.save(Utility.Text.extractNames(Page.getText()), 'Dataset', 'Names');
//Identify Organizations Names
Data.save(Utility.Text.extractOrganizations(Page.getText()), 'Dataset', 'Organizations');

Non devi scrivere tu stesso nessuna di queste istruzioni di raschiatura, poiché appariranno automaticamente quando selezioni un elemento HTML applicabile nella nostra procedura guidata di raschiatore.