Strumenti per acquisire e convertire il Web

Come raschiare l'elenco dei prodotti e le pagine dei dettagli

Sui siti Web è spesso presente una pagina di ricerca, che contiene un elenco di elementi, a ciascun elemento viene fornita una descrizione di riepilogo con un collegamento a una pagina di dettaglio che include informazioni approfondite sull'elemento.

Poiché questa struttura viene spesso utilizzata, è spesso necessario raccogliere alcune informazioni su ciascun elemento dalla pagina di ricerca e il resto dalla pagina dei dettagli. Questo articolo fornirà una guida su come raschiare tali informazioni.

Inserire innanzitutto l'URL della pagina dell'elenco prodotti che si desidera raschiare. Quindi selezionare le informazioni che si desidera selezionare dalla pagina dell'elenco dei prodotti. Assicurarsi che tutti gli esempi dei dati siano selezionati.

Quindi nella pagina delle istruzioni di raschiatura, fare clic su Aggiungi istruzione Scrape.

La prima cosa da tenere presente è che il nostro raschietto funziona esattamente allo stesso modo di un browser, quindi se è presente una notifica di sicurezza dei cookie o un altro popup incorporato che ti impedisce di fare clic sulla pagina, devi istruire il raschietto a chiudere il popup prima che il il resto della raschiatura può essere fatto. La maggior parte di questi popup deve essere cliccata una sola volta e quindi puoi dire a GrabzIt di fare lo stesso. Per fare questo usa il Fai clic su Elemento azione e fare clic sull'elemento HTML richiesto per chiudere il popup. Quindi fare clic sull'opzione Solo una volta Save e poi.

Quindi scegliere il Estrazione dei dati azione, quindi selezionare i dati che si desidera estrarre. Quindi, se si desidera selezionare il titolo di un elemento, dall'elenco dei risultati della ricerca. Assicurati che sia selezionato ogni titolo in quell'elenco.

La nostra procedura guidata tenta di identificare automaticamente set di dati e potrebbe selezionare più informazioni di quelle desiderate automaticamente. In tal caso, fai di nuovo clic sugli elementi che non desideri selezionare e non verranno più inclusi. Questo insegna al nostro raschietto web cosa estrarre.

Ora, scegli l'attributo dell'elemento dati che desideri estrarre. Ad esempio "Testo" e quindi fare clic su Avanti. Nella schermata successiva assegnagli un titolo. Si noti che qui si desidera che tutti i dati utilizzino il modello predefinito. Questo perché vuoi che i dati vengano estratti quando mai non sono su un modello speciale.

Dopo aver selezionato tutti i dati degli articoli che si desidera estrarre dalla pagina di ricerca del prodotto. Seleziona tutti i collegamenti per ulteriori informazioni sulla pagina dei dettagli del prodotto. Questo potrebbe essere ad esempio l'immagine. Quindi fare clic su Fai clic su Elemento azione. Impostare il modello su "dettaglio", quindi attendere cinque secondi e fare clic su Avanti. Quando ti viene chiesto se desideri estrarre i dati dalla nuova pagina, scegli Sì. Ora seleziona i dati che desideri estrarre come prima. Ma questa volta, specifica che deve essere eseguito sotto il modello "dettaglio".

Aggiungi un'altra istruzione di raschiatura e torna alla pagina principale. Questa volta selezionare il pulsante successivo dai collegamenti di impaginazione. Quando il Fai clic su Azione appare la casella di opzione, selezionare il pulsante della pagina successiva opzione. In questo modo lo scraper sa che questo pulsante è in realtà un pulsante di impaginazione e impagina tutti i risultati. Assicurati di avere l'ultima istruzione di raschiatura. Se non è l'ultima istruzione di raschiatura, può essere trascinata fino alla fine.

Quindi vai alla scheda Pianificazione e fai clic su Crea per avviare la raschiatura. Puoi vedere l'avanzamento della raschiatura in tempo reale nella pagina Gestisci raschiature facendo clic sull'icona della riga e quindi sull'icona di visualizzazione della raschiatura.