Articles of hadoop

Come convertire il file .txt nel formato di file di sequenza di Hadoop

Per utilizzare in modo efficace i lavori di riduzione della mappa in Hadoop , ho bisogno che i dati vengano memorizzati nel formato file sequenza di hadoop . Tuttavia, attualmente i dati sono solo in formato .txt piatto. Qualcuno può suggerire un modo in cui posso convertire un file .txt in un file di sequenza?

dimensione del blocco dati in HDFS, perché 64 MB?

La dimensione del blocco dati predefinito di HDFS / hadoop è 64 MB. La dimensione del blocco nel disco è in genere 4KB. Cosa significa 64 MB di dimensione del blocco? -> Significa che la più piccola unità di lettura dal disco è 64 MB? Se sì, qual è il vantaggio di farlo? -> facile […]

Errore HDFS: potrebbe essere replicato solo su 0 nodes, anziché su 1

Ho creato un cluster hadoop di ubuntu single node in EC2. Il test di un semplice caricamento di file su hdf funziona dalla macchina EC2, ma non funziona da una macchina esterna a EC2. Posso esplorare il filesystem attraverso l’interfaccia web dalla macchina remota, e mostra un datanode che è riportato come in servizio. Ho […]

Lettura del file come singolo record in hadoop

Ho un enorme no. di file di piccole dimensioni, voglio utilizzare CombineFileInputFormat per unire i file in modo tale che ogni dato di file abbia un unico record nel mio lavoro MR. Ho seguito http://yaseminavcular.blogspot.in/2011/03/many-small-input-files.html e ho provato a convertirlo nella nuova API Sto affrontando 2 problemi: a) Sto solo testandolo con 2 piccoli file, […]

Come ottenere l’ID di un’attività sulla mappa in Spark?

C’è un modo per ottenere l’ID di un’attività sulla mappa in Spark? Ad esempio, se ogni attività della mappa chiama una funzione definita dall’utente, posso ottenere l’ID di tale attività della mappa da quella funzione definita dall’utente?

Requisiti per convertire Spark dataframe in dataframe Pandas / R

Sto conducendo Spark su YARN di Hadoop. Come funziona questa conversione? Un collect () ha luogo prima della conversione? Inoltre ho bisogno di installare Python e R su ogni nodo slave affinché la conversione funzioni? Sto faticando a trovare documentazione su questo.

Hadoop java.io.IOException: Mkdirs non è riuscito a creare / alcuni / percorso

Quando provo a eseguire il mio lavoro, ricevo la seguente eccezione: Exception in thread “main” java.io.IOException: Mkdirs failed to create /some/path at org.apache.hadoop.util.RunJar.ensureDirectory(RunJar.java:106) at org.apache.hadoop.util.RunJar.main(RunJar.java:150) Dove / some / path è hadoop.tmp.dir. Tuttavia quando rilascio il file dfs -ls cmd su / some / path posso vedere che esiste e il file dataset è presente […]

Hadoop DistributedCache è obsoleto – qual è l’API preferita?

Le mie attività sulla mappa necessitano di alcuni dati di configurazione, che vorrei distribuire tramite la cache distribuita. L’ Esercitazione Hadoop MapReduce mostra l’ uso della class DistributedCache, approssimativamente come segue: // In the driver JobConf conf = new JobConf(getConf(), WordCount.class); … DistributedCache.addCacheFile(new Path(filename).toUri(), conf); // In the mapper Path[] myCacheFiles = DistributedCache.getLocalCacheFiles(job); … Tuttavia, […]

Autorizzazione negata a hdfs

Sono nuovo nel file system distribuito hadoop, ho fatto l’installazione completa di hadoop single node sulla mia macchina. Dopo di che, quando ho intenzione di caricare i dati su hdf, mi viene dato un messaggio di errore Permission Denied . Messaggio dal terminale con comando: hduser@ubuntu:/usr/local/hadoop$ hadoop fs -put /usr/local/input-data/ /input put: /usr/local/input-data (Permission denied) […]

Come riparare corrotto HDFS Files

Come qualcuno aggiusta un HDFS che è corrotto? Ho guardato il sito Web Apache / Hadoop e ha detto il suo comando fsck , che non lo risolve. Speriamo che qualcuno che si è imbattuto in questo problema prima possa dirmi come risolvere questo problema. A differenza di una utility fsck tradizionale per i file […]