Articles of apache spark

Che cosa sono i lavoratori, gli esecutori, i core nel cluster Spark Standalone?

Ho letto Panoramica sulla modalità Cluster e non riesco ancora a comprendere i diversi processi nel cluster Spark Standalone e nel parallelismo. Il lavoratore è un processo JVM o no? Ho eseguito il bin\start-slave.sh e bin\start-slave.sh scoperto che ha generato il worker, che in realtà è una JVM. Come per il collegamento precedente, un executor […]

Applicazioni Multiple Spark con HiveContext

Avere due applicazioni pyspark separate che istanziano un HiveContext al posto di un SQLContext consente a una delle due applicazioni di fallire con l’errore: Eccezione: (“È necessario creare Spark con Hive. Esportare ‘SPARK_HIVE = true’ ed eseguire assembly build / sbt”, Py4JJavaError (u’nell’errore si è verificato durante la chiamata a None.org.apache.spark.sql.hive.HiveContext. \ N ‘, JavaObject […]

MatchError durante l’accesso alla colonna di vettori in Spark 2.0

Sto cercando di creare un modello LDA su un file JSON. Creazione di un contesto spark con il file JSON: import org.apache.spark.sql.SparkSession val sparkSession = SparkSession.builder .master(“local”) .appName(“my-spark-app”) .config(“spark.some.config.option”, “config-value”) .getOrCreate() val df = spark.read.json(“dbfs:/mnt/JSON6/JSON/sampleDoc.txt”) La visualizzazione del df dovrebbe mostrare DataFrame display(df) Tokenizzare il testo import org.apache.spark.ml.feature.RegexTokenizer // Set params for RegexTokenizer val tokenizer […]

Come migliorare le prestazioni per i lavori Slow Spark che utilizzano la connessione DataFrame e JDBC?

Sto cercando di accedere a una tabella Teradata di medie dimensioni (~ 100 milioni di righe) tramite JDBC in modalità standalone su un singolo nodo (locale [*]). Sto usando Spark 1.4.1. ed è configurato su una macchina molto potente (2 CPU, 24 core, RAM 126G). Ho provato diverse opzioni di configurazione e ottimizzazione della memoria […]

Causato da: java.lang.NullPointerException su org.apache.spark.sql.Dataset

Di seguito fornisco il mio codice. I iterate sui prodotti prodrows di prodRows e per ogni product_PK trovo alcuni sotto-elenchi corrispondenti di product_PKs da prodRows . numRecProducts = 10 var listOfProducts: Map[Long,Array[(Long, Int)]] = Map() prodRows.foreach{ row : Row => val product_PK = row.get(row.fieldIndex(“product_PK”)).toString.toLong val gender = row.get(row.fieldIndex(“gender_PK”)).toString val selection = prodRows.filter($”gender_PK” === gender || […]

Spiegazione del metodo di piega della scintilla RDD

Sto eseguendo Spark-1.4.0 pre-costruito per Hadoop-2.4 (in modalità locale) per calcolare la sum dei quadrati di un DoubleRDD. Il mio codice Scala sembra sc.parallelize(Array(2., 3.)).fold(0.0)((p, v) => p+v*v) E ha dato un risultato sorprendente 97.0 . Questo è abbastanza controintuitivo rispetto alla versione di fold di Scala Array(2., 3.).fold(0.0)((p, v) => p+v*v) che dà la […]

Definizione di una UDF che accetta una matrice di oggetti in Spark DataFrame?

Quando si lavora con Spark’s DataFrames, sono necessarie le User Defined Functions (UDF) per mappare i dati in colonne. Le UDF richiedono che i tipi di argomento siano specificati esplicitamente. Nel mio caso, ho bisogno di manipolare una colonna composta da matrici di oggetti e non so quale tipo usare. Ecco un esempio: import sqlContext.implicits._ […]

Come aggregare i valori in collezione dopo groupBy?

Ho un dataframe con schema in quanto tale: [visitorId: string, trackingIds: array, emailIds: array] Alla ricerca di un modo per raggruppare (o forse rollup?) Questo dataframe da visitorid dove le colonne trackingIds e emailIds si aggiungerebbero insieme. Ad esempio, se il mio file df iniziale ha il seguente aspetto: visitorId |trackingIds|emailIds +———–+————+——– |a158| [666b] | […]

Come trasporre un RDD in Spark

Ho un RDD come questo: 1 2 3 4 5 6 7 8 9 È una matrice. Ora voglio trasporre il RDD in questo modo: 1 4 7 2 5 8 3 6 9 Come posso fare questo?

DataWrame-ified zipWithIndex

Sto cercando di risolvere l’annoso problema di aggiungere un numero di sequenza a un set di dati. Sto lavorando con DataFrames e sembra che non ci sia nessun DataFrame equivalente a RDD.zipWithIndex . D’altra parte, il seguente funziona più o meno nel modo in cui lo voglio: val origDF = sqlContext.load(…) val seqDF= sqlContext.createDataFrame( origDF.rdd.zipWithIndex.map(ln […]