Articles of web scraping

perplesso su come raschiare i dati da questo sito (usando R)

Sto cercando di raschiare i dati, usando R, da questo sito: http://www.soccer24.com/kosovo/superliga/results/# Posso fare quanto segue: library(rvest) doc <- html("http://www.soccer24.com/kosovo/superliga/results/") ma sono perplesso su come raggiungere i dati in modo estensivo. Questo perché i dati reali sul sito web sembrano essere generati da Javascript. Quello che posso fare è html_text(doc) ma questo dà una lunga […]

Come schermo Screen Scrape?

Quando non è disponibile l’API del servizio web, l’unica opzione ansible è Screen Scrape, ma come si fa in c #? come pensi di farlo?

estrarre i dati dal grezzo html in R

Sto cercando di estrarre i valori di tutti i valori in tutte le tabs da questa pagina. http://www.imd.gov.in/section/hydro/dynamic/rfmaps/weekrain.htm Ho provato per la prima volta a scaricare come Excel. Ma non era ansible. Sono solo in grado di scaricarlo come file di testo. Se provo a leggere direttamente dalla pagina Web, ottengo la pagina HTML originale. […]

In Excel VBA, qual è il modo per controllare se la pagina web è completamente caricata?

Per mettere in pausa il codice fino a quando una pagina web è completamente caricata, sto usando il metodo qui sotto con grande successo quasi tutto il tempo. Do While objIE.Busy = True Or objIE.readyState 4: DoEvents: Loop Ma occasionalmente, vedo caricare il contenuto di testo dopo che il metodo determina che la pagina è […]

R: estrazione di testo UTF-8 “pulito” da una pagina Web raschiata con RCurl

Usando R, sto cercando di raschiare una pagina web salvando il testo, che è in giapponese, in un file. In definitiva, questo deve essere ridimensionato per affrontare centinaia di pagine su base giornaliera. Ho già una soluzione praticabile in Perl, ma sto cercando di migrare lo script in R per ridurre il carico cognitivo del […]

Utilizza getElementById su HTMLElement anziché HTMLDocument

Ho giocato con lo scraping di dati da pagine web usando VBS / VBA. Se fosse Javascript, mi piacerebbe essere semplice, ma non sembra essere abbastanza semplice in VBS / VBA. Questo è un esempio che ho fatto per una risposta, funziona ma avevo programmato di accedere ai nodes figlio usando getElementByTagName ma non riuscivo […]

Come scansionare le pagine protette in R (link https) (usando readHTMLTable dal pacchetto XML)?

Ci sono buone risposte su SO su come usare readHTMLTable dal pacchetto XML e l’ho fatto con le normali pagine http, tuttavia non sono in grado di risolvere il mio problema con le pagine https. Sto cercando di leggere la tabella su questo sito web (stringa di URL): library(RTidyHTML) library(XML) url <- "https://ned.nih.gov/search/ViewDetails.aspx?NIHID=0010121048" h = […]

Come posso automatizzare la finestra di dialogo Salva come in IE11 usando VBA?

Sto cercando di scaricare alcuni dati sulle emissioni di carbonio. Posso precaricare la pagina con le impostazioni pertinenti tramite l’URL. Si carica bene e posso fare clic sul pulsante OK dal suo ID, quindi ho il IE11 – Apri / Salva / Annulla Dialogo in basso. Ho provato tutti i suggerimenti usando FindWindows (# 32770) […]

Modulo di richiesta su come recuperare correttamente i caratteri accentati?

Sto utilizzando: Modulo: Richiesta – Metodo di richiesta HTTP semplificato per raschiare una pagina web con caratteri accentati á é ó ú ê ã ecc. Ho già provato la encoding: utf-8 senza successo. Sto ancora ottenendo questi personaggi nel risultato. request.get({ uri: url, encoding: ‘utf-8′ // … C’è qualche configurazione per risolverlo? Non so se […]

Ho bisogno di una libreria Potente Scraper Web

Ho bisogno di una potente libreria web raschiatrice per estrarre contenuti dal web. Questo può essere pagato o gratuito, entrambi andranno bene per me. Per favore suggeriscimi una libreria o un modo migliore per estrarre i dati e archiviarli nel mio database preferito. Ho cercato ma non ho trovato alcuna buona soluzione per questo. Ho […]