Articles of apache spark sql

Come connettersi a un metastore Hive in modo programmatico in SparkSQL?

Sto usando HiveContext con SparkSQL e sto provando a connettermi a un metastore Hive remoto, l’unico modo per impostare l’hive metastore è attraverso l’hive-site.xml sul classpath (o copiarlo su / etc / spark / conf /). C’è un modo per impostare questo parametro a livello di codice in un codice java senza includere hive-site.xml? In […]

Spark SQL: carica i dati con JDBC usando l’istruzione SQL, non il nome della tabella

Penso che mi manchi qualcosa ma non riesco a capire cosa. Voglio caricare i dati usando SQLContext e JDBC usando particolari istruzioni SQL come select top 1000 text from table1 with (nolock) where threadid in ( select distinct id from table2 with (nolock) where flag=2 and date >= ‘1/1/2015’ and userid in (1, 2, 3) […]

Esplodi (trasporre?) Più colonne nella tabella Spark SQL

Sto usando Spark SQL (menziono che è in Spark nel caso in cui questo influisce sulla syntax SQL – non sono abbastanza familiare per essere sicuro ancora) e ho un tavolo che sto cercando di ri-strutturare, ma sono rimanere bloccati cercando di trasporre più colonne contemporaneamente. Fondamentalmente ho dati che assomigliano a: userId someString varA […]

Operazioni Multiple Aggrega sulla stessa colonna di un dataframe spark

Ho tre matrici di tipo stringa che contengono le seguenti informazioni: groupBy array: contenente i nomi delle colonne per cui voglio raggruppare i miei dati. array aggregato: contenente i nomi delle colonne che voglio aggregare. array di operazioni: contenente le operazioni di aggregazione che voglio eseguire Sto cercando di utilizzare i frame di dati spark […]

Converti stringa pyspark in formato data

Ho un data frame di dati pyspark con una colonna di stringhe nel formato di MM-dd-yyyy e sto tentando di convertirlo in una colonna di date. Provai: df.select(to_date(df.STRING_COLUMN).alias(‘new_date’)).show() e ottengo una stringa di null. Qualcuno può aiutare?

Spianare le file in Scintilla

Sto facendo dei test per la scintilla usando lo scala. Solitamente leggiamo i file json che devono essere manipolati come nell’esempio seguente: test.json: {“a”:1,”b”:[2,3]} val test = sqlContext.read.json(“test.json”) Come posso convertirlo nel seguente formato: {“a”:1,”b”:2} {“a”:1,”b”:3}

Come modificare i tipi di colonna in DataFrame di Spark SQL?

Supponiamo che io stia facendo qualcosa del tipo: val df = sqlContext.load(“com.databricks.spark.csv”, Map(“path” -> “cars.csv”, “header” -> “true”)) df.printSchema() root |– year: string (nullable = true) |– make: string (nullable = true) |– model: string (nullable = true) |– comment: string (nullable = true) |– blank: string (nullable = true) df.show() year make model comment […]

Come evitare le colonne duplicate dopo l’adesione?

Ho due dataframe con le seguenti colonne: df1.columns // Array(ts, id, X1, X2) e df2.columns // Array(ts, id, Y1, Y2) Dopo che lo faccio val df_combined = df1.join(df2, Seq(ts,id)) Finisco con le seguenti colonne: Array(ts, id, X1, X2, ts, id, Y1, Y2) . Potrei aspettarmi che le colonne comuni vengano eliminate. C’è qualcosa di aggiuntivo […]

Come definire lo schema per il tipo personalizzato in Spark SQL?

Il seguente codice di esempio tenta di inserire alcuni oggetti del caso in un dataframe. Il codice include la definizione di una gerarchia di oggetti caso e una class case utilizzando questa caratteristica: import org.apache.spark.{SparkContext, SparkConf} import org.apache.spark.sql.SQLContext sealed trait Some case object AType extends Some case object BType extends Some case class Data( name […]

Elaborazione di file multipli come RDD indipendenti in parallelo

Ho uno scenario in cui un certo numero di operazioni incluso un gruppo deve essere applicato su un numero di file piccoli (~ 300 MB ciascuno). L’operazione sembra così .. df.groupBy(….).agg(….) Ora per elaborarlo su più file, posso usare un carattere jolly “/**/*.csv”, tuttavia, che crea un singolo RDD e lo suddivide in per le […]