Articles of apache spark

Eliminazione di una colonna nidificata da Spark DataFrame

Ho un DataFrame con lo schema root |– label: string (nullable = true) |– features: struct (nullable = true) | |– feat1: string (nullable = true) | |– feat2: string (nullable = true) | |– feat3: string (nullable = true) Mentre, sono in grado di filtrare il frame dei dati usando val data = rawData […]

Sostituisci i valori mancanti con media – Spark Dataframe

Ho un Dataframe Spark con alcuni valori mancanti. Vorrei eseguire una semplice imputazione sostituendo i valori mancanti con la media per quella colonna. Sono molto nuovo a Spark, quindi mi sono sforzato di implementare questa logica. Questo è quello che sono riuscito a fare finora: a) Per fare questo per una singola colonna (diciamo Col […]

Come accedere all’elemento di una colonna VectorUDT in Spark DataFrame?

Ho un datafame df con una colonna VectorUDT denominata features . Come ottengo un elemento della colonna, ad esempio il primo elemento? Ho provato a fare quanto segue from pyspark.sql.functions import udf first_elem_udf = udf(lambda row: row.values[0]) df.select(first_elem_udf(df.features)).show() ma ottengo una net.razorvine.pickle.PickleException: expected zero arguments for construction of ClassDict(for numpy.dtype) . Lo stesso errore se […]

Perché Spark è più veloce di Hadoop Map Reduce

Qualcuno può spiegare usando l’esempio di conteggio delle parole, perché Spark sarebbe più veloce di Map Reduce?

Come aprire / eseguire lo streaming di file .zip tramite Spark?

Ho dei file zip che vorrei aprire ‘attraverso’ Spark. Posso aprire il file .gzip senza problemi a causa del supporto codec nativo di Hadoops, ma non riesco a farlo con i file .zip. C’è un modo semplice per leggere un file zip nel tuo codice Spark? Ho anche cercato le implementazioni di codec zip da […]

Spark MLlib LDA, come dedurre la distribuzione degli argomenti di un nuovo documento invisibile?

Sono interessato ad applicare la modellazione dell’argomento LDA usando Spark MLlib. Ho controllato il codice e le spiegazioni qui ma non sono riuscito a trovare come utilizzare il modello per trovare la distribuzione dell’argomento in un nuovo documento invisibile.

Come definire una funzione di aggregazione personalizzata per sumre una colonna di Vettori?

Ho un DataFrame di due colonne, ID di tipo Int e Vec di tipo Vector ( org.apache.spark.mllib.linalg.Vector ). Il DataFrame si presenta come segue: ID,Vec 1,[0,0,5] 1,[4,0,1] 1,[1,2,1] 2,[7,5,0] 2,[3,3,4] 3,[0,8,1] 3,[0,0,1] 3,[7,7,7] …. Mi piacerebbe fare un groupBy($”ID”) quindi applicare un’aggregazione sulle righe all’interno di ciascun gruppo sumndo i vettori. L’output desiderato dell’esempio precedente […]

Come posso passare parametri extra alle UDF in SparkSql?

Voglio analizzare le colonne della data in un DataFrame e per ciascuna colonna della data, la risoluzione per la data potrebbe cambiare (ovvero 2011/01/10 => DataFrame se la risoluzione è impostata su “Mese”). Ho scritto il seguente codice: def convertDataFrame(dataframe: DataFrame, schema : Array[FieldDataType], resolution: Array[DateResolutionType]) : DataFrame = { import org.apache.spark.sql.functions._ val convertDateFunc = […]

Spark UDF con vararg

È una sola opzione per elencare tutti gli argomenti fino a 22 come mostrato nella documentazione? https://spark.apache.org/docs/1.5.0/api/scala/index.html#org.apache.spark.sql.UDFRegistration Qualcuno ha capito come fare qualcosa di simile a questo? sc.udf.register(“func”, (s: String*) => s…… (scrivendo la funzione di concat personalizzata che salta i null, ha avuto 2 argomenti al momento) Grazie

Moltiplicazione della matrice in Apache Spark

Sto cercando di eseguire la moltiplicazione della matrice usando Apache Spark e Java. Ho 2 domande principali: Come creare RDD che può rappresentare la matrice in Apache Spark? Come moltiplicare due di questi RDD?