Articles of pyspark

pyspark collect_set o collect_list con groupby

Come posso utilizzare collect_set o collect_list su un dataframe dopo groupby . per esempio: df.groupby(‘key’).collect_set(‘values’) . Ottengo un errore: AttributeError: ‘GroupedData’ object has no attribute ‘collect_set’

Come risolvere l’errore rdd.collect () dopo l’installazione di java 10.1?

Ho iniziato a ricevere il seguente errore ogni volta che provo a raccogliere i miei rdd. È successo dopo aver installato java 10.1. Naturalmente l’ho rimosso e reinstallato, lo stesso errore. Ho quindi installato java 9.04 stesso errore. Ho quindi estratto python 2.7.14, apache spark 2.3.0 e Hadoop 2.7, stesso errore. Qualcuno ha qualcuno ha […]

spark.ml StringIndexer genera l’etichetta ‘Unseen’ su fit ()

Sto preparando un esempio di spark.ml giocattolo. Spark version 1.6.0 , in esecuzione su Oracle JDK version 1.8.0_65 , pyspark, notebook ipython. Innanzitutto, non ha nulla a che fare con Spark, ML, StringIndexer: gestione di etichette invisibili . L’eccezione viene generata mentre si adatta una pipeline a un set di dati, non a trasformarla. E […]

Funzionalità Spark vs prestazioni UDF?

Spark ora offre funzioni predefinite che possono essere utilizzate nei dataframes e sembra che siano altamente ottimizzate. La mia domanda iniziale stava per essere più veloce, ma ho fatto alcuni test e ho trovato che le funzioni spark erano circa 10 volte più veloci almeno in un’istanza. Qualcuno sa perché è così, e quando sarebbe […]

Pyspark filtra il dataframe per colonne di un altro dataframe

Non sono sicuro del motivo per cui mi trovo in difficoltà con questo, sembra così semplice considerando che è abbastanza facile da fare in R o in panda. Volevo evitare di usare i panda anche se ho a che fare con molti dati, e credo che toPandas() carichi tutti i dati nella memoria del driver […]

Come trovare il valore massimo nella coppia RDD?

Ho una coppia di spie RDD (chiave, contare) come di seguito Array[(String, Int)] = Array((a,1), (b,2), (c,1), (d,3)) Come trovare la chiave con il conteggio più alto utilizzando l’API spark scala? EDIT: tipo di dati della coppia RDD is org.apache.spark.rdd.RDD [(String, Int)]

Spark dà un errore StackOverflowError quando si allena usando ALS

Durante il tentativo di addestrare un modello di apprendimento automatico usando ALS in MLLib di Spark, ho continuato a ricevere StackOverflowError. Ecco un piccolo esempio della traccia dello stack: Traceback (most recent call last): File “/Users/user/Spark/imf.py”, line 31, in model = ALS.train(rdd, rank, numIterations) File “/usr/local/Cellar/apache-spark/1.3.1_1/libexec/python/pyspark/mllib/recommendation.py”, line 140, in train lambda_, blocks, nonnegative, seed) File […]

Apache Spark: qual è l’implementazione equivalente di RDD.groupByKey () utilizzando RDD.aggregateByKey ()?

I documenti Apache Spark pyspark.RDD API menzionano che groupByKey() è inefficiente. Invece, si consiglia di utilizzare reduceByKey() , aggregateByKey() , combineByKey() o foldByKey() . Ciò comporterà una parte dell’aggregazione nei lavoratori prima del rimescolamento, riducendo così il mescolamento dei dati tra i lavoratori. Data la seguente serie di dati e l’espressione groupByKey() , che cosa […]

Spline Split Spark Dataframe colonna di colonne in più colonne

Ho visto varie persone suggerire che Dataframe.explode è un modo utile per farlo, ma risulta in più file rispetto al dataframe originale, che non è affatto quello che voglio. Voglio semplicemente fare l’equivalente di Dataframe del molto semplice: rdd.map(lambda row: row + [row.my_str_col.split(‘-‘)]) che prende qualcosa come: col1 | my_str_col —–+———– 18 | 856-yygrm 201 […]

Numero di partizioni in RDD e prestazioni in Spark

In Pyspark, posso creare un RDD da un elenco e decidere quante partizioni avere: sc = SparkContext() sc.parallelize(xrange(0, 10), 4) In che modo il numero di partizioni che decido di partizionare il mio RDD influenza le prestazioni? E come questo dipende dal numero di core della mia macchina?