Articles of hadoop

Dividi la dimensione rispetto alla dimensione del blocco in Hadoop

Qual è la relazione tra la dimensione parziale e la dimensione del blocco in Hadoop? Come ho letto in questo , le dimensioni divise devono essere n-volte di dimensione del blocco (n è un intero e n> 0), è corretto? È necessario un rapporto tra dimensione parziale e dimensione del blocco?

Comportamento del parametro “mapred.min.split.size” in HDFS

Il parametro “mapred.min.split.size” modifica la dimensione del blocco in cui il file è stato scritto in precedenza? Supponendo una situazione in cui I, all’avvio del mio lavoro, passa il parametro “mapred.min.split.size” con un valore di 134217728 (128 MB). Che cosa è corretto dire su ciò che accade? 1 – Ogni processo MAP equivale a 2 […]

Archivia immagini / video in Hadoop HDFS

Vorrei memorizzare alcuni video / immagini in Hadoop HDFS , ma ho sentito che HDFS accetta solo file come testo. Per sicurezza, possiamo archiviare video / immagini in HDFS? Se sì, qual è il modo o i passi da seguire per farlo?

Unione di più file in uno all’interno di Hadoop

Ricevo più file piccoli nella mia directory di input che voglio unire in un singolo file senza usare il file system locale o scrivere i mapred. C’è un modo per farlo usando i comandi hadoof di fs o Pig? Grazie!

Cos’è Hive: Return Code 2 da org.apache.hadoop.hive.ql.exec.MapRedTask

Sto ottenendo: FAILED: Execution Error, return code 2 from org.apache.hadoop.hive.ql.exec.MapRedTask Durante il tentativo di creare una copia di una tabella partizionata utilizzando i comandi nella console hive: CREATE TABLE copy_table_name LIKE table_name; INSERT OVERWRITE TABLE copy_table_name PARTITION(day) SELECT * FROM table_name; Inizialmente ho avuto alcuni errori di analisi semantica e ho dovuto impostare: set hive.exec.dynamic.partition=true […]

La porta Namenode predefinita di HDFS è 50070. Ma mi sono imbattuto in alcuni punti 8020 o 9000

Quando ho impostato il cluster hadoop, ho letto il namenode eseguito su 50070 e ho impostato di conseguenza e sta funzionando bene. Ma in alcuni libri ho trovato l’indirizzo del nodo del nome: hdfs://localhost:9000/ o hdfs://localhost:8020 Qual è esattamente il numero corretto per impostare la porta del namenode?

Perché spark-shell fallisce con NullPointerException?

Cerco di eseguire spark-shell su Windows 10, ma continuo a ricevere questo errore ogni volta che lo eseguo. Ho usato entrambe le versioni più recenti e spark-1.5.0-bin-hadoop2.4. 15/09/22 18:46:24 WARN Connection: BoneCP specified but not present in CLASSPATH (or one of dependencies) 15/09/22 18:46:24 WARN Connection: BoneCP specified but not present in CLASSPATH (or one […]

Problemi di installazione di Hive: il database di metastore Hive non è inizializzato

Ho provato ad installare hive su un Raspberry Pi 2. Ho installato Hive da un pacchetto Hress compresso con zip e ho configurato $ HADOOP_HOME e $ HIVE_HOME manualmente sotto il gruppo di utenti hduser che ho creato. Durante l’esecuzione di hive, ho ricevuto il seguente messaggio di errore: hive ERROR StatusLogger Nessun file di […]

Differenza tra maiale e hive? Perché entrambi?

Il mio background – 4 settimane nel mondo Hadoop. Doppiato un po ‘in Hive, Pig e Hadoop usando la VM Hadoop di Cloudera. Ho letto il documento di Google su Map-Reduce e GFS ( link PDF ). Lo capisco- Linguaggio dei maiali Il latino dei maialini è un passaggio da (si adatta al modo in […]

Perché il mio BroadcastHashJoin è più lento di ShuffledHashJoin in Spark

javaHiveContext un join utilizzando un javaHiveContext in Spark. Il grande tavolo ha 1,76 GB e ha 100 milioni di record. La seconda tabella è 273 Mb e ha 10 milioni di record. Ottengo un JavaSchemaRDD e chiamo count() su di esso: String query=”select attribute7,count(*) from ft,dt where ft.chiavedt=dt.chiavedt group by attribute7″; JavaSchemaRDD rdd=sqlContext.sql(query); System.out.println(“count=”+rdd.count()); Se […]