Articles of apache spark

Come funziona la funzione di aggregazione Spark: aggregateByKey?

Diciamo che ho un sistema di distribuzione su 3 nodes e i miei dati sono distribuiti tra quei nodes. ad esempio, ho un file test.csv che esiste su tutti e 3 i nodes e contiene 2 colonne di: **row | id, c.** ————— row1 | k1 , c1 row2 | k1 , c2 row3 | […]

Differenza tra DataSet API e DataFrame API

Qualcuno può aiutarmi a capire la differenza tra l’API DataSet e l’API DataFrame con un esempio? Perché c’era la necessità di introdurre l’API DataSet?

Come funziona DAG sotto le copertine in RDD?

Il documento di ricerca Spark ha prescritto un nuovo modello di programmazione distribuita rispetto al classico Hadoop MapReduce, rivendicando la semplificazione e l’enorme incremento delle prestazioni in molti casi, specialmente in Machine Learning. Tuttavia, il materiale per scoprire la internal mechanics sui Resilient Distributed Datasets di Resilient Distributed Datasets con il Directed Acyclic Graph sembra […]

Sparklyr: come centrare un tavolo Spark in base alla colonna?

Ho un tavolo Spark: simx x0: num 1.00 2.00 3.00 … x1: num 2.00 3.00 4.00 … … x788: num 2.00 3.00 4.00 … e un handle chiamato simX_tbl nell’ambiente R che è connesso a questa tabella simx . Voglio fare un centraggio per questa tabella, che sta sottraendo ogni colonna con i suoi mezzi […]

La funzione restituisce una lista vuota in Spark

Di seguito è riportato il codice per ottenere l’elenco dei nomi di file in un file zippato def getListOfFilesInRepo(zipFileRDD : RDD[(String,PortableDataStream)]) : (List[String]) = { val zipInputStream = zipFileRDD.values.map(x => new ZipInputStream(x.open)) val filesInZip = new ArrayBuffer[String]() var ze : Option[ZipEntry] = None zipInputStream.foreach(stream =>{ do{ ze = Option(stream.getNextEntry); ze.foreach{ze => if(ze.getName.endsWith(“java”) && !ze.isDirectory()){ var […]

Perché la trasformazione sortBy triggers un lavoro Spark?

Secondo la documentazione Spark, solo le azioni RDD possono triggersre un lavoro Spark e le trasformazioni vengono ponderate quando viene chiamata un’azione. Vedo che la funzione di trasformazione sortBy viene applicata immediatamente e viene mostrata come trigger di job in SparkUI. Perché?

Spark spark-submit – gli argomenti james vogliono una lista di virgole, come dichiarare una directory di jar?

In Invio di applicazioni nei documenti di Spark, a partire dalla versione 1.6.0 e precedenti , non è chiaro come specificare l’argomento —jars, poiché apparentemente non è un classpath separato da due punti e non un’espansione di directory. I documenti dicono “Percorso di un contenitore in bundle che include l’applicazione e tutte le dipendenze. L’URL […]

Spark DataFrame: conta i valori distinti di ogni colonna

La domanda è praticamente nel titolo: esiste un modo efficace per contare i valori distinti in ogni colonna in un DataFrame? Il metodo descrivo fornisce solo il conteggio ma non il conteggio distinto e mi chiedo se esiste un modo per ottenere il conteggio distinto per tutte le colonne (o alcune selezionate).

Eliminazione di una colonna nidificata da Spark DataFrame

Ho un DataFrame con lo schema root |– label: string (nullable = true) |– features: struct (nullable = true) | |– feat1: string (nullable = true) | |– feat2: string (nullable = true) | |– feat3: string (nullable = true) Mentre, sono in grado di filtrare il frame dei dati usando val data = rawData […]

Sostituisci i valori mancanti con media – Spark Dataframe

Ho un Dataframe Spark con alcuni valori mancanti. Vorrei eseguire una semplice imputazione sostituendo i valori mancanti con la media per quella colonna. Sono molto nuovo a Spark, quindi mi sono sforzato di implementare questa logica. Questo è quello che sono riuscito a fare finora: a) Per fare questo per una singola colonna (diciamo Col […]