Articles of hive

Caricamento dell’hive nella tabella partizionata

Ho un file di registro in HDFS, i valori sono delimitati da una virgola. Per esempio: 2012-10-11 12:00,opened_browser,userid111,deviceid222 Ora voglio caricare questo file nella tabella Hive con colonne “timestamp”, “action” e partizionato da “userid”, “deviceid”. Come posso chiedere a Hive di prendere le ultime 2 colonne nel file di log come partizione per tabella? Tutti […]

Aggiorna, imposta l’opzione in Hive

So che non vi è alcun aggiornamento del file in Hadoop ma in Hive è ansible con zucchero sintattico unire i nuovi valori con i vecchi dati nella tabella e quindi riscrivere la tabella con l’output unito ma se ho i nuovi valori in un altro tabella quindi posso ottenere lo stesso effetto utilizzando un […]

Cos’è Hive: Return Code 2 da org.apache.hadoop.hive.ql.exec.MapRedTask

Sto ottenendo: FAILED: Execution Error, return code 2 from org.apache.hadoop.hive.ql.exec.MapRedTask Durante il tentativo di creare una copia di una tabella partizionata utilizzando i comandi nella console hive: CREATE TABLE copy_table_name LIKE table_name; INSERT OVERWRITE TABLE copy_table_name PARTITION(day) SELECT * FROM table_name; Inizialmente ho avuto alcuni errori di analisi semantica e ho dovuto impostare: set hive.exec.dynamic.partition=true […]

Problemi di installazione di Hive: il database di metastore Hive non è inizializzato

Ho provato ad installare hive su un Raspberry Pi 2. Ho installato Hive da un pacchetto Hress compresso con zip e ho configurato $ HADOOP_HOME e $ HIVE_HOME manualmente sotto il gruppo di utenti hduser che ho creato. Durante l’esecuzione di hive, ho ricevuto il seguente messaggio di errore: hive ERROR StatusLogger Nessun file di […]

Differenza tra maiale e hive? Perché entrambi?

Il mio background – 4 settimane nel mondo Hadoop. Doppiato un po ‘in Hive, Pig e Hadoop usando la VM Hadoop di Cloudera. Ho letto il documento di Google su Map-Reduce e GFS ( link PDF ). Lo capisco- Linguaggio dei maiali Il latino dei maialini è un passaggio da (si adatta al modo in […]

Perché il mio BroadcastHashJoin è più lento di ShuffledHashJoin in Spark

javaHiveContext un join utilizzando un javaHiveContext in Spark. Il grande tavolo ha 1,76 GB e ha 100 milioni di record. La seconda tabella è 273 Mb e ha 10 milioni di record. Ottengo un JavaSchemaRDD e chiamo count() su di esso: String query=”select attribute7,count(*) from ft,dt where ft.chiavedt=dt.chiavedt group by attribute7″; JavaSchemaRDD rdd=sqlContext.sql(query); System.out.println(“count=”+rdd.count()); Se […]

Crea tabella HIVE con delimitatore a più caratteri

Voglio creare una tabella HIVE con carattere multi-stringa come delimitatore come CREATE EXTERNAL TABlE tableex(id INT, name STRING) ROW FORMAT delimited fields terminated by ‘,’ LINES TERMINATED BY ‘\n’ STORED AS TEXTFILE LOCATION ‘/user/myusername’; Voglio avere delimitatore come una stringa multipla come “~ *”.

Quando creo una tabella esterna nell’hive posso indirizzare la posizione a file specifici in una directory?

Ho definito una tabella in quanto tale: create external table PageViews (Userid string, Page_View string) partitioned by (ds string) row format as delimited fields terminated by ‘,’ stored as textfile location ‘/user/data’; Non voglio che tutti i file nella directory / user / data siano usati come parte della tabella. È ansible che io faccia […]

Come esportare una tabella Hive in un file CSV?

Ho usato questa query Hive per esportare una tabella in un file CSV. INSERT OVERWRITE DIRECTORY ‘/user/data/output/test’ select column1, column2 from table1; Il file generato ‘000000_0’ non ha il separatore di virgola È questo il modo giusto per generare file CSV? Se no, per favore fammi sapere come posso generare il file CSV?

HIVE select count (*) non nullo restituisce un valore superiore a select count (*)

Attualmente sto facendo un po ‘di esplorazione dei dati con Hive e non posso spiegare il seguente comportamento. Supponiamo di avere una tabella (denominata mytable) con un campo master_id. Quando conto il numero di righe che ottengo select count(*) as c from mytable c 1129563 Se voglio contare il numero di righe con un master_id […]