Diciamo che ho un sistema di distribuzione su 3 nodes e i miei dati sono distribuiti tra quei nodes. ad esempio, ho un file test.csv che esiste su tutti e 3 i nodes e contiene 2 colonne di: **row | id, c.** ————— row1 | k1 , c1 row2 | k1 , c2 row3 | […]
Qualcuno può aiutarmi a capire la differenza tra l’API DataSet e l’API DataFrame con un esempio? Perché c’era la necessità di introdurre l’API DataSet?
Il documento di ricerca Spark ha prescritto un nuovo modello di programmazione distribuita rispetto al classico Hadoop MapReduce, rivendicando la semplificazione e l’enorme incremento delle prestazioni in molti casi, specialmente in Machine Learning. Tuttavia, il materiale per scoprire la internal mechanics sui Resilient Distributed Datasets di Resilient Distributed Datasets con il Directed Acyclic Graph sembra […]
Ho un tavolo Spark: simx x0: num 1.00 2.00 3.00 … x1: num 2.00 3.00 4.00 … … x788: num 2.00 3.00 4.00 … e un handle chiamato simX_tbl nell’ambiente R che è connesso a questa tabella simx . Voglio fare un centraggio per questa tabella, che sta sottraendo ogni colonna con i suoi mezzi […]
Di seguito è riportato il codice per ottenere l’elenco dei nomi di file in un file zippato def getListOfFilesInRepo(zipFileRDD : RDD[(String,PortableDataStream)]) : (List[String]) = { val zipInputStream = zipFileRDD.values.map(x => new ZipInputStream(x.open)) val filesInZip = new ArrayBuffer[String]() var ze : Option[ZipEntry] = None zipInputStream.foreach(stream =>{ do{ ze = Option(stream.getNextEntry); ze.foreach{ze => if(ze.getName.endsWith(“java”) && !ze.isDirectory()){ var […]
Secondo la documentazione Spark, solo le azioni RDD possono triggersre un lavoro Spark e le trasformazioni vengono ponderate quando viene chiamata un’azione. Vedo che la funzione di trasformazione sortBy viene applicata immediatamente e viene mostrata come trigger di job in SparkUI. Perché?
In Invio di applicazioni nei documenti di Spark, a partire dalla versione 1.6.0 e precedenti , non è chiaro come specificare l’argomento —jars, poiché apparentemente non è un classpath separato da due punti e non un’espansione di directory. I documenti dicono “Percorso di un contenitore in bundle che include l’applicazione e tutte le dipendenze. L’URL […]
La domanda è praticamente nel titolo: esiste un modo efficace per contare i valori distinti in ogni colonna in un DataFrame? Il metodo descrivo fornisce solo il conteggio ma non il conteggio distinto e mi chiedo se esiste un modo per ottenere il conteggio distinto per tutte le colonne (o alcune selezionate).
Ho un DataFrame con lo schema root |– label: string (nullable = true) |– features: struct (nullable = true) | |– feat1: string (nullable = true) | |– feat2: string (nullable = true) | |– feat3: string (nullable = true) Mentre, sono in grado di filtrare il frame dei dati usando val data = rawData […]
Ho un Dataframe Spark con alcuni valori mancanti. Vorrei eseguire una semplice imputazione sostituendo i valori mancanti con la media per quella colonna. Sono molto nuovo a Spark, quindi mi sono sforzato di implementare questa logica. Questo è quello che sono riuscito a fare finora: a) Per fare questo per una singola colonna (diciamo Col […]