Ho un file di registro in HDFS, i valori sono delimitati da una virgola. Per esempio: 2012-10-11 12:00,opened_browser,userid111,deviceid222 Ora voglio caricare questo file nella tabella Hive con colonne “timestamp”, “action” e partizionato da “userid”, “deviceid”. Come posso chiedere a Hive di prendere le ultime 2 colonne nel file di log come partizione per tabella? Tutti […]
So che non vi è alcun aggiornamento del file in Hadoop ma in Hive è ansible con zucchero sintattico unire i nuovi valori con i vecchi dati nella tabella e quindi riscrivere la tabella con l’output unito ma se ho i nuovi valori in un altro tabella quindi posso ottenere lo stesso effetto utilizzando un […]
Sto ottenendo: FAILED: Execution Error, return code 2 from org.apache.hadoop.hive.ql.exec.MapRedTask Durante il tentativo di creare una copia di una tabella partizionata utilizzando i comandi nella console hive: CREATE TABLE copy_table_name LIKE table_name; INSERT OVERWRITE TABLE copy_table_name PARTITION(day) SELECT * FROM table_name; Inizialmente ho avuto alcuni errori di analisi semantica e ho dovuto impostare: set hive.exec.dynamic.partition=true […]
Ho provato ad installare hive su un Raspberry Pi 2. Ho installato Hive da un pacchetto Hress compresso con zip e ho configurato $ HADOOP_HOME e $ HIVE_HOME manualmente sotto il gruppo di utenti hduser che ho creato. Durante l’esecuzione di hive, ho ricevuto il seguente messaggio di errore: hive ERROR StatusLogger Nessun file di […]
Il mio background – 4 settimane nel mondo Hadoop. Doppiato un po ‘in Hive, Pig e Hadoop usando la VM Hadoop di Cloudera. Ho letto il documento di Google su Map-Reduce e GFS ( link PDF ). Lo capisco- Linguaggio dei maiali Il latino dei maialini è un passaggio da (si adatta al modo in […]
javaHiveContext un join utilizzando un javaHiveContext in Spark. Il grande tavolo ha 1,76 GB e ha 100 milioni di record. La seconda tabella è 273 Mb e ha 10 milioni di record. Ottengo un JavaSchemaRDD e chiamo count() su di esso: String query=”select attribute7,count(*) from ft,dt where ft.chiavedt=dt.chiavedt group by attribute7″; JavaSchemaRDD rdd=sqlContext.sql(query); System.out.println(“count=”+rdd.count()); Se […]
Voglio creare una tabella HIVE con carattere multi-stringa come delimitatore come CREATE EXTERNAL TABlE tableex(id INT, name STRING) ROW FORMAT delimited fields terminated by ‘,’ LINES TERMINATED BY ‘\n’ STORED AS TEXTFILE LOCATION ‘/user/myusername’; Voglio avere delimitatore come una stringa multipla come “~ *”.
Ho definito una tabella in quanto tale: create external table PageViews (Userid string, Page_View string) partitioned by (ds string) row format as delimited fields terminated by ‘,’ stored as textfile location ‘/user/data’; Non voglio che tutti i file nella directory / user / data siano usati come parte della tabella. È ansible che io faccia […]
Ho usato questa query Hive per esportare una tabella in un file CSV. INSERT OVERWRITE DIRECTORY ‘/user/data/output/test’ select column1, column2 from table1; Il file generato ‘000000_0’ non ha il separatore di virgola È questo il modo giusto per generare file CSV? Se no, per favore fammi sapere come posso generare il file CSV?
Attualmente sto facendo un po ‘di esplorazione dei dati con Hive e non posso spiegare il seguente comportamento. Supponiamo di avere una tabella (denominata mytable) con un campo master_id. Quando conto il numero di righe che ottengo select count(*) as c from mytable c 1129563 Se voglio contare il numero di righe con un master_id […]