Articles of hive

HiveQL: utilizzo dei risultati della query come variabili

in Hive mi piacerebbe estrarre dynamicmente le informazioni da una tabella, salvarla in una variabile e usarla ulteriormente. Considera il seguente esempio, in cui recupero il massimo della colonna var e voglio usarlo come condizione nella query successiva. set maximo=select max(var) from table; select * from table where var=${hiveconf:maximo} Non funziona, anche se set maximo=select […]

Importazione Sqoop: chiave primaria composita e chiave primaria testuale

Stack: installato HDP-2.3.2.0-2950 utilizzando Ambari 2.1 Lo schema del DB di origine si trova su SQL Server e contiene diverse tabelle che hanno la chiave primaria come: Un varchar Composito: due colonne varchar o una varchar + una colonna int o due colonne int. C’è un grande tavolo con? righe che ha tre colonne nel […]

hive regexp_extract weirdness

Sto riscontrando alcuni problemi con regexp_extract: Sto interrogando su un file delimitato da tabulazioni, la colonna che sto controllando ha stringhe che assomigliano a questo: abc.def.ghi Ora, se lo faccio: select distinct regexp_extract(name, ‘[^.]+’, 0) from dummy; MR funziona, funziona, e ottengo “abc” dall’indice 0. Ma ora, se voglio ottenere “def” dall’indice 1: select distinct […]

java.lang.RuntimeException: imansible istanziare org.apache.hadoop.hive.metastore.HiveMetaStoreClient

Ho configurato il mio Hive come indicato sul link: http://www.youtube.com/watch?v=Dqo1ahdBK_A , ma sto riscontrando il seguente errore durante la creazione di una tabella in Hive. Sto usando hadoop-1.2.1 e hive-0.12.0. hive> create table employee(emp_id int,name string,salary double); FAILED: Execution Error, return code 1 from org.apache.hadoop.hive.ql.exec.DDLTask. java.lang.RuntimeException: Unable to instantiate org.apache.hadoop.hive.metastore.HiveMetaStoreClient

Hive non in grado di impostare manualmente il numero di riduttori

Ho la seguente query hive: select count(distinct id) as total from mytable; che genera automaticamente: 1408 mappatori 1 riduttore Ho bisogno di impostare manualmente il numero di riduttori e ho provato quanto segue: set mapred.reduce.tasks=50 set hive.exec.reducers.max=50 ma nessuna di queste impostazioni sembra essere onorato. La query impiega un’eternità per essere eseguita. C’è un modo […]

Caricamento di dati da un file .txt su Tabella memorizzata come ORC in Hive

Ho un file di dati che è in formato .txt . Sto usando il file per caricare i dati nelle tabelle Hive. Quando carico il file in una tabella come CREATE TABLE test_details_txt( visit_id INT, store_id SMALLINT) STORED AS TEXTFILE; i dati vengono caricati correttamente utilizzando LOAD DATA LOCAL INPATH ‘/home/user/test_details.txt’ INTO TABLE test_details_txt; e […]

Come eliminare e aggiornare un record in Hive

Ho installato Hadoop, Hive, Hive JD BC. che stanno funzionando bene per me. Ma ho ancora un problema. Come eliminare o aggiornare un singolo record usando Hive perché il comando delete o update di MySQL non funziona nell’hive. Grazie hive> delete from student where id=1; Usage: delete [FILE|JAR|ARCHIVE] []* Query returned non-zero code: 1, cause: […]

Come posso inviare i risultati di una query HiveQL a CSV?

vorremmo mettere i risultati di una query Hive in un file CSV. Ho pensato che il comando dovesse assomigliare a questo: insert overwrite directory ‘/home/output.csv’ select books from table; Quando lo eseguo, dice che è stato completato correttamente ma non riesco mai a trovare il file. Come trovo questo file o dovrei estrarre i dati […]

Come convertire il file .txt nel formato di file di sequenza di Hadoop

Per utilizzare in modo efficace i lavori di riduzione della mappa in Hadoop , ho bisogno che i dati vengano memorizzati nel formato file sequenza di hadoop . Tuttavia, attualmente i dati sono solo in formato .txt piatto. Qualcuno può suggerire un modo in cui posso convertire un file .txt in un file di sequenza?

Qual è la differenza tra Apache Spark SQLContext vs HiveContext?

Quali sono le differenze tra Apache Spark SQLContext e HiveContext? Alcune fonti dicono che dal momento che HiveContext è un superset di SQLContext gli sviluppatori dovrebbero sempre usare HiveContext che ha più funzionalità di SQLContext. Ma le attuali API di ogni contesto sono per lo più le stesse. Quali sono gli scenari che SQLContext / […]