Articles of web scraping

Apri la pagina web, seleziona tutto, copia nel foglio

Ho cercato in alto e in basso per qualcosa che funzionerebbe per me su questo, senza fortuna! Qualsiasi aiuto sarebbe molto apprezzato! 🙂 Cercando di copiare i dati di opzioni su azioni da Barcharts.com e incollare in foglio excel. ecco dove sono a: Sub CopyTables() Dim ie As Object Dim I As Long I = […]

Cookie Jsoup per lo scraping HTTPS

Sto sperimentando questo sito per raccogliere il mio nome utente nella pagina di benvenuto per imparare Jsoup e Android. Utilizzando il seguente codice Connection.Response res = Jsoup.connect(“http://www.mikeportnoy.com/forum/login.aspx”) .data(“ctl00$ContentPlaceHolder1$ctl00$Login1$UserName”, “username”, “ctl00$ContentPlaceHolder1$ctl00$Login1$Password”, “password”) .method(Method.POST) .execute(); String sessionId = res.cookie(“.ASPXAUTH”); Document doc2 = Jsoup.connect(“http://www.mikeportnoy.com/forum/default.aspx”) .cookie(“.ASPXAUTH”, sessionId) .get(); Il mio cookie (.ASPXAUTH) finisce sempre in NULL. Se cancello questo […]

Estrazione delle coordinate dell’indicatore dalla mappa google incorporata

Piuttosto nuovo per questo, portalo con me. Ho bisogno di estrarre le coordinate dei marker da una mappa google incorporata – un link di esempio è http://www.picknpay.co.za/store-search e voglio estrarre tutte le posizioni dei marker generate nella mappa sulla ricerca. Considerato l’utilizzo di servizi come ParseHub ma prima di intraprendere questa strada ho pensato di […]

Raspare Web con Java

Non riesco a trovare alcun buon web scraping API basata su Java. Il sito che ho bisogno di raschiare non fornisce alcuna API; Voglio scorrere tutte le pagine web usando qualche pageID ed estrarre i titoli HTML / altre cose nei loro alberi DOM. Ci sono modi diversi dal web scraping? Grazie

Imansible recuperare il titolo di prodotti da una pagina Web crittografata in javascript

Creando un raschietto allo scopo di analizzare il titolo di diversi prodotti da una pagina web quando lo eseguo, non ottengo nulla. Quello che ho potuto vedere è che i contenuti desiderati sono all’interno dell’elemento javascript. Dato che non voglio usare alcun convertitore per raccogliere quei titoli, mi aspetto che qualcuno mi aiuti a ottenere […]

Come posso gestire Javascript in un web crawler Perl?

Vorrei eseguire la scansione di un sito Web, il problema è che è pieno di elementi JavaScript, come i pulsanti e in modo tale che quando vengono premuti, non cambiano l’URL, ma i dati sulla pagina vengono modificati. Di solito utilizzo LWP / Mechanize ecc per eseguire la scansione dei siti, ma nessuno dei due […]

VBA – Problemi di scraping HTML

Sto tentando di grattare i dati dell’asta da un sito web https://www.rbauction.com/heavy-equipment-auctions . Il mio attuale tentativo era di usare il codice qui sotto per estrarre il codice HTML del sito web in VBA, quindi analizzarlo e conservare solo gli elementi che desideravo (nome dell’asta, numero di giorni, numero di elementi). Sub RBA_Auction_Scrape() Dim S_Sheet […]

Scrape sito Web protetto da password in R

Sto cercando di raschiare i dati da un sito Web protetto da password in R. Leggendo in giro, sembra che i pacchetti httr e RCurl siano le migliori opzioni per raschiare con l’autenticazione della password (ho anche esaminato il pacchetto XML). Il sito Web che sto cercando di analizzare è il seguente (è necessario un […]

Estrai le posizioni dei dati dalla mappa

Voglio estrarre i dati da una mappa, quindi ottenere e memorizzare le posizioni di tutte le stazioni di ricarica in uno stato specifico. (es: https://www.plugshare.com/ ) Come si può fare? Non mi interessa usare un linguaggio di programmazione, ma quale è il migliore per questa applicazione?

Come scorrere verso il basso con Phantomjs per caricare il contenuto dinamico

Sto cercando di raschiare i collegamenti da una pagina che genera contenuti dynamicmente mentre l’utente scorre verso il basso (scorrimento infinito). Ho provato a fare cose diverse con Phantomjs ma non sono riuscito a raccogliere link oltre la prima pagina. Diciamo che l’elemento in basso che carica il contenuto ha class .has-more-items . È disponibile […]