Articles of rdd

Come calcolare il numero migliore di partizioni per coalizzarsi?

Quindi, capisco che in generale si dovrebbe usare coalesce() quando: il numero di partizioni diminuisce a causa di un filter o di qualche altra operazione che può comportare la riduzione del set di dati originale (RDD, DF). coalesce() è utile per eseguire le operazioni in modo più efficiente dopo aver filtrato un set di dati […]

Come trovare la dimensione RDD / Dataframe della scintilla?

So come trovare la dimensione del file in scala.Ma come trovare una dimensione RDD / dataframe in scintilla? Scala: object Main extends App { val file = new java.io.File(“hdfs://localhost:9000/samplefile.txt”).toString() println(file.length) } Scintilla: val distFile = sc.textFile(file) println(distFile.length) ma se lo elaboro non ottenendo la dimensione del file. Come trovare la dimensione RDD?

Analisi di record multilinea in Scala

Ecco la mia RDD [Stringa] M1 module1 PIP a ZA PIP b ZB PIP c Y n4 M2 module2 PIP a I n4 PIP b OD PIP c O n5 e così via. Fondamentalmente, ho bisogno di un RDD di chiave (contenente la seconda parola sulla riga 1) e dei valori delle successive linee PIP […]

Spark: sottrae due DataFrames

In Spark versione 1.2.0 si potrebbe usare subtract con 2 SchemRDD per finire con il solo contenuto diverso dal primo val onlyNewData = todaySchemaRDD.subtract(yesterdaySchemaRDD) onlyNewData contiene le righe in todaySchemRDD che non esistono in todaySchemRDD . Come può essere realizzato con DataFrames in Spark versione 1.3.0 ?

Apache Spark: qual è l’implementazione equivalente di RDD.groupByKey () utilizzando RDD.aggregateByKey ()?

I documenti Apache Spark pyspark.RDD API menzionano che groupByKey() è inefficiente. Invece, si consiglia di utilizzare reduceByKey() , aggregateByKey() , combineByKey() o foldByKey() . Ciò comporterà una parte dell’aggregazione nei lavoratori prima del rimescolamento, riducendo così il mescolamento dei dati tra i lavoratori. Data la seguente serie di dati e l’espressione groupByKey() , che cosa […]

Come ottengo un numero di riga SQL equivalente per un RDD Spark?

Devo generare un elenco completo di numero riga per una tabella di dati con molte colonne. In SQL, questo sarebbe simile a questo: select key_value, col1, col2, col3, row_number() over (partition by key_value order by col1, col2 desc, col3) from temp ; Ora, diciamo che in Spark ho un RDD della forma (K, V), dove […]

Come ottenere elementi per Indice in Spark RDD (Java)

Conosco il metodo rdd.first () che mi dà il primo elemento in un RDD. Inoltre c’è il metodo rdd.take (num) che mi dà i primi elementi “num”. Ma non c’è la possibilità di ottenere un elemento per indice? Grazie.

Numero di partizioni in RDD e prestazioni in Spark

In Pyspark, posso creare un RDD da un elenco e decidere quante partizioni avere: sc = SparkContext() sc.parallelize(xrange(0, 10), 4) In che modo il numero di partizioni che decido di partizionare il mio RDD influenza le prestazioni? E come questo dipende dal numero di core della mia macchina?

Differenza tra DataSet API e DataFrame API

Qualcuno può aiutarmi a capire la differenza tra l’API DataSet e l’API DataFrame con un esempio? Perché c’era la necessità di introdurre l’API DataSet?

Perché la trasformazione sortBy triggers un lavoro Spark?

Secondo la documentazione Spark, solo le azioni RDD possono triggersre un lavoro Spark e le trasformazioni vengono ponderate quando viene chiamata un’azione. Vedo che la funzione di trasformazione sortBy viene applicata immediatamente e viene mostrata come trigger di job in SparkUI. Perché?