Articles of web scraping

Scrape sito Web protetto da password in R

Sto cercando di raschiare i dati da un sito Web protetto da password in R. Leggendo in giro, sembra che i pacchetti httr e RCurl siano le migliori opzioni per raschiare con l’autenticazione della password (ho anche esaminato il pacchetto XML). Il sito Web che sto cercando di analizzare è il seguente (è necessario un […]

Estrai le posizioni dei dati dalla mappa

Voglio estrarre i dati da una mappa, quindi ottenere e memorizzare le posizioni di tutte le stazioni di ricarica in uno stato specifico. (es: https://www.plugshare.com/ ) Come si può fare? Non mi interessa usare un linguaggio di programmazione, ma quale è il migliore per questa applicazione?

Come scorrere verso il basso con Phantomjs per caricare il contenuto dinamico

Sto cercando di raschiare i collegamenti da una pagina che genera contenuti dynamicmente mentre l’utente scorre verso il basso (scorrimento infinito). Ho provato a fare cose diverse con Phantomjs ma non sono riuscito a raccogliere link oltre la prima pagina. Diciamo che l’elemento in basso che carica il contenuto ha class .has-more-items . È disponibile […]

Passa attraverso ogni tabella sulla pagina web javascrape con la macro VBA

Sto cercando di scansionare più tabelle da un sito web. Finora ho creato una macro VBA excel per farlo. Ho anche capito come ottenere tutti i dati quando si trovano su più pagine nel sito web. Ad esempio, se ho 1000 risultati ma 50 sono visualizzati su ogni pagina. Il problema è che ho le […]

Rileva quando una pagina web viene caricata senza usare sleep

Sto creando uno script VB su Windows che apre un sito in IE. Cosa voglio: Rileva quando la pagina web viene caricata e mostra un messaggio. Ho raggiunto questo objective utilizzando sleep ( WScript.Sleep ) per ca. secondi in cui il sito viene caricato. Tuttavia, il sito visualizza nome utente, password a metà strada. Solo […]

Recupera pagina web incluso contenuto AJAX

Sto usando VBA per recuperare i prezzi delle azioni dal sito Web ASX (www.asx.com.au) per un po ‘di tempo, tuttavia, il mio script non funziona più come il sito web è stato aggiornato e ora utilizza javascript per creare il contenuto. Di conseguenza, lo script mostrato di seguito restituisce ora le sezioni anziché il contenuto […]

Come posso prendere ed elaborare i dati dalle risposte XHR usando casperjs?

I dati sulla pagina web vengono visualizzati dynamicmente e sembra che controllare ogni cambiamento nel codice html ed estrarre i dati sia un compito molto scoraggiante e che abbia anche bisogno di usare XPath molto inaffidabili. Quindi vorrei essere in grado di estrarre i dati dai pacchetti XHR . Spero di essere in grado di […]

Web Scraping con VBA (quando HTML DOM)

Ho avuto un tempo orribile per raschiare i dati di questa particolare pagina web … Fondamentalmente posso vedere le informazioni di cui ho bisogno in ‘DOM Explorer’ quando carico l’URL in un browser e prendo F12 manualmente, ma quando cerco di fare il programmaticamente lo stesso (vedi sotto) l’HTMLDoc non contiene le stesse informazioni che […]

Come raschi le pagine AJAX?

Si prega di avvisare come raschiare le pagine AJAX.

Browser senza testa per C # (.NET)?

Sono (ero) uno sviluppatore Python che sta costruendo un’applicazione di scraping web della GUI. Recentemente ho deciso di migrare a .NET framework e scrivere la stessa applicazione in C # (questa decisione non era mia). In Python, ho usato la libreria Mechanize. Tuttavia, non riesco a trovare nulla di simile in .NET. Quello di cui […]