Articles of mapreduce

Dividi la dimensione rispetto alla dimensione del blocco in Hadoop

Qual è la relazione tra la dimensione parziale e la dimensione del blocco in Hadoop? Come ho letto in questo , le dimensioni divise devono essere n-volte di dimensione del blocco (n è un intero e n> 0), è corretto? È necessario un rapporto tra dimensione parziale e dimensione del blocco?

Ingresso Hadoop diviso in dimensioni rispetto alla dimensione del blocco

Sto seguendo la guida definitiva di hadoop, in cui spiega chiaramente le divisioni di input. Va come Le divisioni di input non contengono dati effettivi, ma ha le posizioni di archiviazione per i dati su HDFS e Di solito, la dimensione della divisione di input è uguale alla dimensione del blocco 1) diciamo che un […]

Cos’è Hive: Return Code 2 da org.apache.hadoop.hive.ql.exec.MapRedTask

Sto ottenendo: FAILED: Execution Error, return code 2 from org.apache.hadoop.hive.ql.exec.MapRedTask Durante il tentativo di creare una copia di una tabella partizionata utilizzando i comandi nella console hive: CREATE TABLE copy_table_name LIKE table_name; INSERT OVERWRITE TABLE copy_table_name PARTITION(day) SELECT * FROM table_name; Inizialmente ho avuto alcuni errori di analisi semantica e ho dovuto impostare: set hive.exec.dynamic.partition=true […]

Contare le linee in file di grandi dimensioni

Io di solito lavoro con file di testo di ~ 20 Gb e trovo molto spesso il conteggio del numero di righe in un dato file. Il modo in cui lo faccio ora è solo cat fname | wc -l cat fname | wc -l , e ci vuole molto tempo. C’è qualche soluzione che […]

In che modo hadoop mapreduce framework invia le mie istruzioni System.out.print ()? (stdout)

Voglio eseguire il debug di uno script di mapreduce e senza entrare nei guai ho provato a inserire alcune dichiarazioni di stampa nel mio programma. Ma non riesco a trovarli in nessuno dei registri.

Problema con -libjars in hadoop

Sto cercando di eseguire il lavoro MapReduce su Hadoop ma sto riscontrando un errore e non sono sicuro di cosa stia andando male. Devo passare i pacchetti della libreria che sono richiesti dal mio mappatore. Sto scovando quanto segue sul terminale: hadoop @ ubuntu: / usr / local / hadoop $ bin / hadoop jar […]

Mappa Ridurre con agenti F #

Dopo aver giocato con gli agenti di F # ho provato a fare una mappa per ridurne l’utilizzo. La struttura di base che utilizzo è: supervisore della mappa che accoda tutto il lavoro da fare nel suo stato e riceve la richiesta di lavoro dai lavoratori della mappa ridurre il supervisore fa la stessa cosa […]

Nessuna eccezione del metodo Hadoop

Quando eseguo un file .jar Hadoop dal prompt dei comandi, genera un’eccezione che non dice alcun metodo StockKey del metodo. StockKey è la mia class personalizzata definita per il mio tipo di chiave. Ecco l’eccezione: 12/07/12 00:18:47 INFO mapred.JobClient: Task Id : attempt_201207082224_0007_m_000000_1, Status : FAILED java.lang.RuntimeException: java.lang.NoSuchMethodException: SecondarySort$StockKey. () at org.apache.hadoop.util.ReflectionUtils.newInstance(ReflectionUtils.java:115) at org.apache.hadoop.io.WritableComparator.newKey(WritableComparator.java:109) at […]

Esecuzione di task speculativi Hadoop

Nel documento MapReduce di Google, hanno un’attività di backup, penso che sia la stessa cosa con attività speculative in Hadoop. Come viene implementato il compito speculativo? Quando avvii un’attività speculativa, l’attività inizia dall’inizio come quella precedente e lentamente, oppure inizia da dove ha raggiunto l’attività precedente (in tal caso, deve copiare tutti i dati e […]

In che modo Hadoop esegue le suddivisioni di input?

Questa è una domanda concettuale che coinvolge Hadoop / HDFS. Diciamo che hai un file contenente 1 miliardo di righe. E per semplicità, consideriamo che ogni linea ha la forma dove k è l’offset della linea dall’inizio e il valore è il contenuto della linea. Ora, quando diciamo che vogliamo eseguire le attività della mappa […]