Articles of hive

Applicazioni Multiple Spark con HiveContext

Avere due applicazioni pyspark separate che istanziano un HiveContext al posto di un SQLContext consente a una delle due applicazioni di fallire con l’errore: Eccezione: (“È necessario creare Spark con Hive. Esportare ‘SPARK_HIVE = true’ ed eseguire assembly build / sbt”, Py4JJavaError (u’nell’errore si è verificato durante la chiamata a None.org.apache.spark.sql.hive.HiveContext. \ N ‘, JavaObject […]

Come trasporre / ruotare i dati nell’hive?

So che non esiste un modo diretto per trasporre i dati nell’hive. Ho seguito questa domanda: esiste un modo per trasporre i dati in Hive? , ma poiché non c’è una risposta definitiva, non è ansible arrivare fino in fondo. Questo è il tavolo che ho: | ID | Code | Proc1 | Proc2 | […]

Utilizza collect_list e collect_set in Spark SQL

Secondo i documenti , le funzioni collect_set e collect_list dovrebbero essere disponibili in Spark SQL. Tuttavia, non riesco a farlo funzionare. Sto usando Spark 1.6.0 usando un’immagine Docker . Sto provando a farlo in Scala: import org.apache.spark.sql.functions._ df.groupBy(“column1”) .agg(collect_set(“column2”)) .show() E ricevi il seguente errore in fase di runtime: Exception in thread “main” org.apache.spark.sql.AnalysisException: undefined […]

Come connettersi a un metastore Hive in modo programmatico in SparkSQL?

Sto usando HiveContext con SparkSQL e sto provando a connettermi a un metastore Hive remoto, l’unico modo per impostare l’hive metastore è attraverso l’hive-site.xml sul classpath (o copiarlo su / etc / spark / conf /). C’è un modo per impostare questo parametro a livello di codice in un codice java senza includere hive-site.xml? In […]

Come impostare le variabili negli script HIVE

Sto cercando l’equivalente SQL di “SET varname = value” in Hive QL So che posso fare qualcosa del genere: SET CURRENT_DATE = ‘2012-09-16′; SELECT * FROM foo WHERE day >= @CURRENT_DATE Ma poi ricevo questo errore “carattere ‘@’ non supportato qui”

Qual è la differenza tra partizionamento e bucketing di una tabella in Hive?

So che entrambi sono eseguiti su una colonna nella tabella, ma come è diversa ogni operazione.

Hive: il modo migliore per eseguire aggiornamenti incremetali su una tabella principale

Quindi ho una tabella principale in Hive, memorizzerà tutti i miei dati. Voglio essere in grado di caricare un aggiornamento incrementale dei dati circa ogni mese con una grande quantità di dati da un paio di miliardi di righe. Ci saranno nuovi dati e voci aggiornate. Qual è il modo migliore per approcciarlo, so che […]

Differenza tra le tabelle interne di Hive e le tabelle esterne?

Qualcuno può dirmi la differenza tra la tabella esterna di Hive e le tabelle interne. So che la differenza arriva quando faccio cadere il tavolo. Non capisco cosa intendi per i dati e i metadati vengono eliminati in interni e solo i metadati vengono eliminati nelle tabelle esterne. Qualcuno può spiegarmi in termini di nodes […]

Come cambiare la dimensione della partizione in Spark SQL

Ho il requisito di caricare i dati da una tabella Hive usando spark-SQL HiveContext e caricarli in HDFS. Per impostazione predefinita, DataFrame dall’output SQL sta avendo 2 partizioni. Per ottenere più parallelismo ho bisogno di più partizioni fuori dall’SQL. Non esiste un metodo sovraccarico in HiveContext per prendere il numero del parametro delle partizioni. Ripartizionare […]

SQL split comma separated row

Ho una colonna con un numero variabile di valori separati da virgole: somethingA,somethingB,somethingC somethingElseA, somethingElseB E voglio che il risultato prenda ogni valore e crei una riga: somethingA somethingB somethingC somethingElseA somethingElseB Come posso farlo in SQL (MySQL)? (Ho provato a cercare su google “implode” e “vista laterale”, ma a quanto pare non vengono visualizzate […]