Scarica i dati di grandi dimensioni per Hadoop

Ho bisogno di grandi dati (più di 10 GB) per eseguire la demo di Hadoop. Qualcuno sa dove posso scaricarlo. Per favore mi faccia sapere.

Ti suggerisco di scaricare milioni di brani Dataset dal seguente sito web:

http://labrosa.ee.columbia.edu/millionsong/

La cosa migliore con Millions Songs Dataset è che puoi scaricare 1 GB (circa 10000 brani), 10 GB, 50 GB o circa 300 GB di set di dati sul tuo cluster Hadoop e fare qualsiasi test tu voglia. Mi piace usarlo e imparare molto usando questo set di dati.

Per iniziare, è ansible scaricare il set di dati iniziare con qualsiasi lettera dalla A alla Z, che sarà compresa tra 1 GB e 20 GB .. è anche ansible utilizzare il sito Infochimp:

http://www.infochimps.com/collections/million-songs

In uno dei miei blog successivi ho mostrato come scaricare un set di dati da 1 GB ed eseguire gli script di Pig:

http://blogs.msdn.com/b/avkashchauhan/archive/2012/04/12/processing-million-songs-dataset-with-pig-scripts-on-apache-hadoop-on-windows-azure.aspx

Tom White ha menzionato un set di dati meteorologici campione nel suo libro (Hadoop: la guida definitiva).

http://hadoopbook.com/code.html

I dati sono disponibili da oltre 100 anni.

Ho usato wget in linux per estrarre i dati. Per l’anno 2007, la dimensione dei dati è di 27 GB.

È ospitato come collegamento FTP . Quindi, puoi scaricare con qualsiasi utility FTP.

ftp://ftp.ncdc.noaa.gov/pub/data/noaa/

Per i dettagli completi si prega di controllare il mio blog:

http://myjourneythroughhadoop.blogspot.in/2013/07/how-to-download-weather-data-for-your.html

Ci sono set di dati pubblici disponibili su Amazon:
http://aws.amazon.com/publicdatasets/
Suggerirei di prendere in considerazione l’esecuzione di un cluster demo lì – e quindi di salvare il download.
C’è anche un buon set di dati del web crowled da Common Crawl, che è anche disponibile su Amazon s3. http://commoncrawl.org/

Un articolo che potrebbe interessarti: ” Usare Hadoop per analizzare i file di dump di Wikipedia completi usando WikiHadoop “.

Se stai cercando statistiche sulla visualizzazione della pagina di Wikipedia , allora questo potrebbe aiutarti. È ansible scaricare file di pagecount dal 2007 fino alla data corrente. Solo per dare un’idea della dimensione dei file, 1,9 GB per un solo giorno ( qui ho scelto 2012-05-01 ) sparsi su 24 file.

Attualmente, 31 paesi hanno siti che rendono disponibili dati pubblici in vari formati, http://www.data.gov/opendatasites . Inoltre, la Banca Mondiale rende disponibili i dati su http://data.worldbank.org/data-catalog

Che dire di “Internet Census 2012”, i dati raccolti da una scansione distribuita su tutta la rete:

Annuncio: http://seclists.org/fulldisclosure/2013/Mar/166

Dati: http://internetcensus2012.bitbucket.org/

L’intero dato è 7 TB, (ovviamente) disponibile solo da torrent.

Se sei interessato agli indicatori dei paesi, la fonte migliore che ho trovato è stata worldbank.org. I dati che offrono possono essere esportati come CSV, il che rende molto facile lavorare con Hadoop. Se stai usando .NET, ho scritto un post sul blog http://ryanlovessoftware.blogspot.ro/2014/02/creating-hadoop-framework-for-analysing.html dove puoi vedere come appaiono i dati e se scarichi il codice da gidhub https://github.com/ryan-popa/Hadoop-Analysis , hai già i metodi di analisi delle stringhe.

Potrebbe essere più veloce generare i dati piuttosto che scaricarli e inserirli. Questo ha il vantaggio di darti il ​​controllo del dominio del problema e lasciare che la tua demo significhi qualcosa per le persone che stanno guardando.