Strumenti per acquisire e convertire il Web

Documentazione Web Scraper

Questa è una panoramica dei nostri metodi speciali di istruzione di raschiatura che rendiamo disponibili tramite il nostro raschietto web.

Criteria.apply (array)

Rimuove dalla matrice fornita tutti gli elementi nella stessa posizione di quelli rimossi da precedenti operazioni in questo criterio.

  • array - obbligatorio, l'array a cui applicare le modifiche.

Criteria.ascending (valori)

Restituisce i valori in ordine crescente.

  • valori - obbligatorio, passa un array che desideri ordinare in ordine crescente.

Criteria.contains (aghi, valore)

Restituisce solo gli oggetti nella matrice degli aghi che contiene il valore specificato.

  • aghi: richiesto, l'array da filtrare.
  • valore - obbligatorio, gli elementi valore devono essere contenuti.

Criteria.create (array)

Crea un nuovo criterio pronto per eseguire operazioni su un nuovo array.

  • array - obbligatorio, l'array di colonne a cui applicare le modifiche.

  • Criteria.descending (valori)

    Restituisce i valori in ordine decrescente.

    • valori - obbligatorio, passa un array che desideri ordinare in ordine decrescente.

    Criteria.equals (aghi, valore)

    Restituisce solo gli oggetti nella matrice degli aghi che è uguale al valore specificato.

    • aghi: richiesto, l'array da filtrare.
    • valore - obbligatorio, gli elementi valore devono essere uguali a.

    Criteria.extract (matrice, modello)

    Restituisce tutti gli elementi dell'array che con eventuali corrispondenze vengono ritagliati secondo il modello specificato.

    • array - obbligatorio, l'array in cui tagliare le corrispondenze.
    • modello: obbligatorio, il modello definisce come tagliare la parte desiderata del testo restituito. Il valore da tagliare è indicato da {{VALUE}} nel modello.
      Ad esempio per tagliare l'età da "La mia età è 33". lo schema "La mia età è {{VALUE}}." sarebbe usato.

    Criteria.greaterThan (aghi, valore)

    Restituisce gli unici elementi nella matrice degli aghi che sono maggiori del valore specificato.

    • aghi: richiesto, l'array da filtrare.
    • valore: obbligatorio, gli elementi valore devono essere maggiori di.

    Criteria.keep (aghi, pagliaio)

    Restituisce la matrice di aghi dopo aver mantenuto tutte le corrispondenze trovate nella matrice di pagliaio.

    • aghi: richiesto, l'array da filtrare.
    • pagliaio - obbligatorio, l'array da utilizzare per mantenere gli aghi.

    Criteria.lessThan (aghi, valore)

    Restituisce gli unici elementi dell'array di aghi che sono inferiori al valore specificato.

    • aghi: richiesto, l'array da filtrare.
    • valore: obbligatorio, gli elementi valore devono essere inferiori a.

    Criteria.limit (valori, limite)

    Restituisce i primi n valori, dove n è la variabile limite.

    • valori - obbligatorio, passa un array che desideri limitare.
    • limite: obbligatorio, il numero di valori che si desidera restituire dall'array.

    Criteria.notEquals (aghi, valore)

    Restituisce gli unici oggetti nella serie di aghi che NON corrispondono al valore specificato.

    • aghi: richiesto, l'array da filtrare.
    • valore - obbligatorio, gli elementi di valore NON devono essere uguali a.

    Criteria.remove (aghi, pagliaio)

    Restituisce la matrice di aghi dopo aver rimosso tutte le corrispondenze trovate nella matrice di pagliaio.

    • aghi: richiesto, l'array da filtrare.
    • pagliaio - obbligatorio, l'array da utilizzare per rimuovere gli aghi.

    Criteria.repeat (array)

    Ripetere gli elementi nell'array fino a quando non corrisponde alla lunghezza della colonna più lunga.

    • array - obbligatorio, l'array da ripetere.

    Criteria.unique (aghi)

    Restituisce solo i valori univoci dalla matrice degli aghi.

    • aghi: obbligatorio, passare un array da cui si desidera rimuovere tutti i valori duplicati.

    Data.countFilesDownloaded ()

    Conta il numero totale di file scaricati.


    Data.log (messaggio)

    Scrive un messaggio nel registro degli scrap.

    • messaggio: obbligatorio, il messaggio da scrivere nel registro.

    Data.pad (padValue, dataSet)

    Riempie tutte le colonne presenti nei set di dati aggiungendo celle vuote alla fine delle colonne fino a quando tutte le colonne in un determinato set di dati hanno lo stesso numero di celle.

    • padValue - opzionale, il valore con cui riempire le celle. Se non viene specificato nessuno, viene utilizzato un valore vuoto.
    • dataSet - opzionale, il set di dati da pad.

    Data.readColumn (dataSet, colonna)

    Legge una colonna la colonna specificata dal set di dati specificato.

    • dataSet - opzionale, il set di dati da cui leggere il valore.
    • colonna - opzionale, la colonna nel set di dati da cui leggere il valore.

    Dati.save(valores, DataSet, colonna)

    Saves qualsiasi valore o valore nel set di dati e nella colonna specificati.

    • valore - obbligatorio, passa qualsiasi valore o matrice di valori che desideri save.
    • dataSet - opzionale, il set di dati a save il valore into.
    • colonna - opzionale, la colonna nel set di dati a save il valore into.

    Dati.saveDOCXScreenshot (htmlOrUrls, opzioni, DataSet, colonna)

    Cattura uno screenshot DOCX di HTML, URL o URL e, facoltativamente, inserisce un collegamento al file nel set di dati e nella colonna specificata.

    • url: obbligatorio, passa qualsiasi url o array di url di cui desideri acquisire uno screenshot DOCX.
    • opzioni - opzionale, opzioni di screenshot.
    • dataSet - opzionale, il set di dati a save il link dello screenshot di DOCX into.
    • colonna - opzionale, la colonna nel set di dati a save il link dello screenshot di DOCX into.

    Dati.saveImageScreenshot (htmlOrUrls, opzioni, DataSet, colonna)

    Cattura uno screenshot di immagini HTML, URL o URL e facoltativamente inserisce un collegamento al file nel set di dati e nella colonna specificata.

    • url: obbligatorio, passa qualsiasi url o array di url di cui desideri acquisire uno screenshot.
    • opzioni - opzionale, opzioni di screenshot.
    • dataSet - opzionale, il set di dati a save il link dello screenshot dell'immagine into.
    • colonna - opzionale, la colonna nel set di dati a save il link dello screenshot dell'immagine into.

    Dati.savePDFScreenshot (htmlOrUrls, opzioni, DataSet, colonna)

    Cattura uno screenshot PDF di HTML, URL o URL e, facoltativamente, inserisce un collegamento al file nel set di dati e nella colonna specificata.

    • url: obbligatorio, passa qualsiasi url o array di url di cui desideri acquisire uno screenshot in PDF.
    • opzioni - opzionale, opzioni di screenshot.
    • dataSet - opzionale, il set di dati a save il link dello screenshot PDF into.
    • colonna - opzionale, la colonna nel set di dati a save il link dello screenshot PDF into.

    Dati.saveTableScreenshot (htmlOrUrls, opzioni, DataSet, colonna)

    Prendi uno screenshot della tabella di HTML, URL o URL e, facoltativamente, inserisce un link al file nel set di dati e nella colonna specificata.

    • url: obbligatorio, passa qualsiasi url o array di url di cui desideri prendere uno screenshot.
    • opzioni - opzionale, opzioni di screenshot.
    • dataSet - opzionale, il set di dati a save il link dello screenshot della tabella into.
    • colonna - opzionale, la colonna nel set di dati a save il link dello screenshot della tabella into.

    Dati.saveFile (urls, nome file, DataSet, colonna)

    Saves qualsiasi URL o URL come file e facoltativamente inserisce un collegamento al file nel set di dati e nella colonna specificata.

    • url: obbligatorio, passa qualsiasi URL o array di URL che desideri trasformare into file.
    • nome del file - opzionale, passa qualsiasi nome di file che desideri utilizzare anziché quello generato.
    • set di dati: facoltativo, il set di dati su save il collegamento al file into.
    • colonna - opzionale, la colonna nel set di dati a save il collegamento al file into.

    Dati.saveToFile (data, nome file, dataSet, colonna)

    Saves qualsiasi dato o elemento di dati come file e facoltativamente inserisce un collegamento al file nel set di dati e nella colonna specificata.

    • dati - obbligatorio, passa tutti i dati o la matrice di dati che desideri save in un file (s).
    • nome del file - opzionale, passa qualsiasi nome di file che desideri utilizzare anziché quello generato.
    • set di dati: facoltativo, il set di dati su save il collegamento al file into.
    • colonna - opzionale, la colonna nel set di dati a save il collegamento al file into.

    Dati.saveUnico (valores, DataSet, colonna)

    Saves qualsiasi valore univoco o valori nel set di dati e nella colonna specificati. I valori duplicati nello stesso set di dati e colonna vengono ignorati.

    • valore - obbligatorio, passa qualsiasi valore o matrice di valori che desideri save.
    • dataSet - opzionale, il set di dati a save il valore into.
    • colonna - opzionale, la colonna nel set di dati a save il valore into.

    Dati.saveUniqueFile (urls, nome file, DataSet, colonna)

    Saves qualsiasi URL o URL come file e facoltativamente inserisce un collegamento al file nel set di dati e nella colonna specificata. Questo metodo sarà solo save valori univoci per il set di dati e la colonna specificati, o se nessun set di dati e colonna URL univoci per l'intero scrap.

    • url: obbligatorio, passa qualsiasi URL o array di URL che desideri trasformare into file.
    • nome del file - opzionale, passa qualsiasi nome di file che desideri utilizzare anziché quello generato.
    • dataSet - opzionale, il set di dati a save il collegamento al file into.
    • colonna - opzionale, la colonna nel set di dati a save il collegamento al file into.

    Dati.saveVideoanimazione (videoUrls, opzioni, DataSet, colonna)

    Converti un video o video online into GIF animate e, facoltativamente, inserisce un collegamento al file nel set di dati e nella colonna specificata.

    • videoUrl: obbligatorio, passa l'URL video o l'array di URL che desideri convertire into GIF animate.
    • opzioni - opzionale, opzioni di animazione.
    • dataSet - opzionale, il set di dati a save il collegamento dell'animazione into.
    • colonna - opzionale, la colonna nel set di dati a save il collegamento dell'animazione into.

    Global.get (nome)

    Ottiene a saved valore variabile.

    • nome: obbligatorio, il nome della variabile da restituire.

    Global.set (nome, valores, persistere)

    Saves qualsiasi valore o valori tra le pagine raschiate.

    • nome: obbligatorio, il nome della variabile in save.
    • valore - obbligatorio, il valore variabile su save.
    • persist - facoltativo, se vero la variabile verrà mantenuta tra gli scrap.

    Navigation.addTemplate (urls, modello)

    Definire l'URL o gli URL come appartenenti al modello specificato. Ciò consente di limitare le istruzioni di raschiatura all'esecuzione solo su determinati URL.

    • url: obbligatorio, passa qualsiasi url o array di url per cui desideri definire un modello.
    • modello - richiesto.

    Navigation.clearCookies ()

    Rimuovi tutti i cookie per lo scrap corrente.


    Navigation.navigate (filtro, modello)

    Fai clic su uno o più elementi HTML.

    • filtro: obbligatorio, il filtro utilizzato per identificare gli elementi HTML su cui fare clic.
    • modello: il modello da assegnare durante la navigazione verso l'elemento HTML selezionato.

    Navigation.goTo (url)

    Vai immediatamente all'URL specificato.

    • url: obbligatorio, l'URL per navigare.

    Navigation.hover (filtro)

    Passa il mouse sopra uno o più elementi HTML.

    • filtro: obbligatorio, il filtro utilizzato per identificare gli elementi HTML su cui passare il mouse.

    Navigation.isTemplate (template)

    Restituisce vero se la pagina corrente appartiene al modello specificato.

    • modello: obbligatorio, il modello per verificare se la pagina appartiene.

    Navigation.paginate (filtro, secondi)

    Impagina gli elementi specificati.

    • filtro: obbligatorio, il filtro utilizzato per identificare gli elementi HTML da impaginare.
    • secondi: richiesto, il numero di secondi che intercorre tra il passaggio a risultati impaginati

    Navigation.remove (filtro)

    Elimina uno o più elementi HTML.

    • filtro: obbligatorio, il filtro utilizzato per identificare gli elementi HTML da eliminare.

    Navigation.scroll (filtro)

    Scorri un elemento selezionato o l'intera pagina web.

    • filtro - facoltativo, il filtro utilizzato per identificare quale elemento da scorrere, se non fornito, verrà fatta scorrere l'intera pagina web.

    Navigation.select (valores, filtro)

    Seleziona uno o più valori validi in un elemento select.

    • valore: obbligatorio, uno o più valori da selezionare.
    • filtro: obbligatorio, il filtro utilizzato per identificare quale elemento di selezione selezionare.

    Navigation.stopScraping (interruzione)

    Smetti di raschiare immediatamente.

    • abort: facoltativo, se true interrompe ulteriormente l'elaborazione e non esporta o trasmette risultati.

    Navigation.type (il testos, filtro)

    Digita il testo into elemento.

    • testo: obbligatorio, uno o più elementi di testo da digitare.
    • filtro - obbligatorio, il filtro utilizzato per identificare quale elemento digitare into.

    Navigation.wait (secondi)

    Attendere alcuni secondi prima di continuare. Questo è molto utile quando si utilizza questo clic, selezionare e digitare i comandi.

    • secondi: richiesto, il numero di secondi di attesa.

    Page.contains (trova, attributo, filtro)

    Restituisce vero se la Pagina contiene il testo da trovare.

    • trova - richiesto, il testo da trovare.
    • attributo - facoltativo, l'attributo in cui cercare.
    • filtro: facoltativo, il filtro utilizzato per identificare l'elemento in cui cercare.

    Page.exists (filtro)

    Restituisce vero se la Pagina contiene un elemento che corrisponde al filtro di ricerca.

    • filtro: obbligatorio, il filtro utilizzato per identificare l'elemento da cercare.

    Page.getAuthor ()

    Ottiene l'autore della pagina se ne viene specificato uno.


    Page.getDescription ()

    Ottiene la descrizione della pagina se ne viene specificata una.


    Page.getFavIconUrl ()

    Ottiene l'URL FavIcon della pagina.


    Page.getHtml ()

    Ottiene l'HTML della pagina non elaborata.


    Page.getKeywords ()

    Ottiene le parole chiave della pagina da scartare.


    Page.getLastModified ()

    Ottiene l'ora dell'ultima modifica della pagina Web dai metadati della pagina o dalle intestazioni della risposta.


    Page.getPageNumber ()

    Ottiene il numero di pagina dell'URL corrente che viene sottoposto a scraping.


    Page.getPreviousUrl (indice)

    Ottiene l'URL precedente, un -1 indica l'ultimo URL, mentre un numero inferiore indica un URL precedente.

    • indice: facoltativo, l'indice della pagina precedente da restituire. Il valore predefinito è -1.

    Page.getTagAttribute (attributo, filtro)

    Restituisce il valore dell'attributo corrispondente.

    • attributo: obbligatorio, l'attributo da cercare.
    • filtro: facoltativo, il filtro utilizzato per identificare l'elemento da cercare.

    Page.getTagAttributes (attributo, filtro, linkedTo)

    Restituisce i valori CSS corrispondenti.

    • attributo: obbligatorio, l'attributo CSS da cercare.
    • filtro: facoltativo, il filtro utilizzato per identificare l'elemento da cercare.
    • linkedTo - facoltativo, dalla colonna a cui dovrebbe essere collegato, in modo che i valori relativi vengano mantenuti insieme.

    Page.getTagCSSAttribute (attributo, filtro)

    Restituisce il valore CSS corrispondente.

    • attributo: obbligatorio, l'attributo CSS da cercare.
    • filtro: facoltativo, il filtro utilizzato per identificare l'elemento da cercare.

    Page.getTagCSSAttributes (attributo, filtro, linkedTo)

    Restituisce i valori degli attributi corrispondenti.

    • attributo: obbligatorio, l'attributo da cercare.
    • filtro: facoltativo, il filtro utilizzato per identificare l'elemento da cercare.
    • linkedTo - facoltativo, dalla colonna a cui dovrebbe essere collegato, in modo che i valori relativi vengano mantenuti insieme.

    Page.getTagValue (filtro)

    Restituisce il valore dell'elemento corrispondente.

    • filtro: facoltativo, il filtro utilizzato per identificare gli elementi da cercare.

    Page.getTagValues ​​(filter, linkedTo)

    Restituisce i valori degli elementi corrispondenti.

    • filtro: facoltativo, il filtro utilizzato per identificare gli elementi da cercare.
    • linkedTo - facoltativo, dalla colonna a cui dovrebbe essere collegato, in modo che i valori relativi vengano mantenuti insieme.

    Page.getText ()

    Ottiene il testo visibile dalla pagina.


    Page.getTitle ()

    Ottiene il titolo della pagina.


    Page.getUrl ()

    Ottiene l'URL della pagina.


    Page.getValueXPath (XPath)

    Restituisce il valore corrispondente all'XPATH fornito.

    • xpath: obbligatorio, l'XPATH deve corrispondere al valore o all'attributo dell'elemento.

    Page.getValuesXPath (XPath)

    Restituisce i valori che corrispondono all'XPATH fornito.

    • xpath: obbligatorio, XPATH per abbinare i valori o gli attributi dell'elemento.

    Page.valid ()

    Restituisce vero se l'URL attualmente in fase di scraping è una pagina Web valida.


    Utility.Array.clean (valores)

    Restituisce tutti i valori non nulli e vuoti dall'array dei valori.

    • valori - obbligatorio, passa qualsiasi array di valori da pulire.

    Utility.Array.contains (valores)

    Restituisce vero se l'ago si trova nella matrice del pagliaio.

    • ago - obbligatorio, passa qualsiasi valore o matrice di valori da trovare.
    • pagliaio - richiesto, l'array per cercare l'ago o gli aghi.

    Utility.Array.merge (array1, array2)

    Unisce due matrici into uno che sostituisce un valore vuoto o nullo con un valore dal secondo array. Entrambi gli array devono avere le stesse dimensioni.

    • array1 - obbligatorio, passa array di valori da unire.
    • array2 - obbligatorio, passa array di valori da unire.

    Utility.Array.unique (valores)

    Restituisce i valori univoci dall'array dei valori.

    • valori: obbligatorio, passa qualsiasi array di valori per renderlo univoco.

    Utility.Text.extractAddress (testo)

    Estrae il primo indirizzo e-mail all'interno del parametro di testo specificato.

    • testo: obbligatorio, il testo da cui estrarre un indirizzo email.

    Utility.Text.extractAddresses (testo)

    Estrae tutti gli indirizzi e-mail dall'interno del parametro di testo specificato.

    • testo: obbligatorio, il testo da cui estrarre tutti gli indirizzi e-mail.

    Utility.Text.extractLocation (testo, lingua)

    Estrae automaticamente la prima posizione all'interno del parametro di testo specificato.

    • testo: obbligatorio, il testo da cui estrarre la posizione.
    • lingua - facoltativo, la lingua del testo da estrarre nel formato ISO 639-1 di due lettere. Il valore predefinito è 'en'. Utilizzare 'auto' per tentare di rilevare automaticamente la lingua del testo.

    Utility.Text.extractLocations (testo, lingua)

    Estrae automaticamente le posizioni all'interno del parametro di testo specificato.

    • testo: obbligatorio, il testo da cui estrarre le posizioni.
    • lingua - facoltativo, la lingua del testo da estrarre nel formato ISO 639-1 di due lettere. Il valore predefinito è 'en'. Utilizzare 'auto' per tentare di rilevare automaticamente la lingua del testo.

    Utility.Text.extractLanguageName (testo)

    Estrae automaticamente la lingua specificata dal parametro text.

    • testo: obbligatorio, il testo da cui estrarre la lingua.

    Utility.Text.extractLanguageCode (testo)

    Estrae automaticamente la lingua specificata dal parametro text.

    • testo: obbligatorio, il testo da cui estrarre la lingua.

    Utility.Text.extractName (testo, lingua)

    Estrae automaticamente il nome dall'interno del parametro di testo specificato.

    • testo: obbligatorio, il testo da cui estrarre il nome.
    • lingua - facoltativo, la lingua del testo da estrarre nel formato ISO 639-1 di due lettere. Il valore predefinito è 'en'. Utilizzare 'auto' per tentare di rilevare automaticamente la lingua del testo.

    Utility.Text.extractNames (testo, lingua)

    Estrae automaticamente i nomi dal parametro di testo specificato.

    • testo: obbligatorio, il testo da cui estrarre il nome.
    • lingua - facoltativo, la lingua del testo da estrarre nel formato ISO 639-1 di due lettere. Il valore predefinito è 'en'. Utilizzare 'auto' per tentare di rilevare automaticamente la lingua del testo.

    Utility.Text.extractOrganization (testo, lingua)

    Estrae automaticamente la prima organizzazione dal parametro di testo specificato.

    • testo: obbligatorio, il testo da cui estrarre l'organizzazione.
    • lingua - facoltativo, la lingua del testo da estrarre nel formato ISO 639-1 di due lettere. Il valore predefinito è 'en'. Utilizzare 'auto' per tentare di rilevare automaticamente la lingua del testo.

    Utility.Text.extractOrganizations (testo, lingua)

    Estrae automaticamente le organizzazioni dal parametro di testo specificato.

    • testo: obbligatorio, il testo da cui estrarre le organizzazioni.
    • lingua - facoltativo, la lingua del testo da estrarre nel formato ISO 639-1 di due lettere. Il valore predefinito è 'en'. Utilizzare 'auto' per tentare di rilevare automaticamente la lingua del testo.

    Utility.Text.extractSentiment (testo)

    Estrae automaticamente il sentimento dal parametro di testo specificato.

    • testo - obbligatorio, il testo da cui estrarre il sentimento.

    Utility.Image.extractText (urls, linguaggio)

    Tenta di utilizzare il riconoscimento ottico dei caratteri per estrarre il testo da qualsiasi immagine specificata.

    • url: obbligatorio, passa qualsiasi URL o array di URL di immagini da cui desideri estrarre il testo.
    • lingua - facoltativo, la lingua del testo da estrarre nel formato ISO 639-1 di due lettere. Il valore predefinito è 'en'.

    Utility.URL.addQueryStringParametro (urls, chiave, valore)

    Aggiungi una querystring parametro per qualsiasi URL o URL.

    • url: obbligatorio, passa qualsiasi URL o array di URL a cui desideri aggiungere una query string parametro a.
    • chiave: obbligatoria, la chiave del parametro da aggiungere.
    • valore - obbligatorio, il valore del parametro da aggiungere.

    Utility.URL.getQueryStringParametro (urls, chiave)

    Ottiene il valore di una querystring parametro da qualsiasi URL o URL.

    • url: obbligatorio, passa qualsiasi URL o array di URL che desideri leggere la querystring parametro da.
    • chiave - obbligatoria, la chiave del parametro da leggere.

    Utility.URL.removeQueryStringParametro (urls, chiave)

    Rimuovi una querystring parametro da qualsiasi URL o URL.

    • url: obbligatorio, passa qualsiasi URL o array di URL che desideri rimuovere una querystring parametro da.
    • chiave: obbligatoria, la chiave del parametro da rimuovere.

    Utility.URL.exists (urls)

    Verifica se l'URL o gli URL esistono effettivamente chiamando ciascun URL.

    • url: obbligatorio, passa qualsiasi URL o array di URL che desideri verificare.