Articles of apache spark

Qual è la differenza tra Apache Spark SQLContext vs HiveContext?

Quali sono le differenze tra Apache Spark SQLContext e HiveContext? Alcune fonti dicono che dal momento che HiveContext è un superset di SQLContext gli sviluppatori dovrebbero sempre usare HiveContext che ha più funzionalità di SQLContext. Ma le attuali API di ogni contesto sono per lo più le stesse. Quali sono gli scenari che SQLContext / […]

Come leggere da hbase usando spark

Il codice seguente leggerà da hbase, quindi convertiremo in struttura json e convertiremo in schemaRDD, ma il problema è che sto using List per memorizzare la stringa json e poi passare a javaRDD, per i dati di circa 100 GB il master sarà caricato con dati in memoria. Qual è il modo giusto per caricare […]

Ricava più colonne da una singola colonna in Spark DataFrame

Ho un DF con un enorme metadata parseable come una singola colonna di stringa in un Dataframe, consente di chiamarlo DFA, con ColmnA. Vorrei rompere questa colonna, ColmnA in più colonne attraverso una funzione, ClassXYZ = Func1 (ColmnA). Questa funzione restituisce una class ClassXYZ, con più variabili, e ognuna di queste variabili deve ora essere […]

Partizionamento in scintilla durante la lettura da RDBMS tramite JDBC

Sto facendo scintilla in modalità cluster e leggendo i dati da RDBMS tramite JDBC. Come da Spark doc , questi parametri di partizionamento descrivono come partizionare la tabella quando si legge in parallelo da più worker: partitionColumn, lowerBound, upperBound, numPartitions Questi sono parametri opzionali. Cosa accadrebbe se non specificassi questi: Solo 1 lavoratore ha letto […]

Che cosa sono i lavoratori, gli esecutori, i core nel cluster Spark Standalone?

Ho letto Panoramica sulla modalità Cluster e non riesco ancora a comprendere i diversi processi nel cluster Spark Standalone e nel parallelismo. Il lavoratore è un processo JVM o no? Ho eseguito il bin\start-slave.sh e bin\start-slave.sh scoperto che ha generato il worker, che in realtà è una JVM. Come per il collegamento precedente, un executor […]

Applicazioni Multiple Spark con HiveContext

Avere due applicazioni pyspark separate che istanziano un HiveContext al posto di un SQLContext consente a una delle due applicazioni di fallire con l’errore: Eccezione: (“È necessario creare Spark con Hive. Esportare ‘SPARK_HIVE = true’ ed eseguire assembly build / sbt”, Py4JJavaError (u’nell’errore si è verificato durante la chiamata a None.org.apache.spark.sql.hive.HiveContext. \ N ‘, JavaObject […]

MatchError durante l’accesso alla colonna di vettori in Spark 2.0

Sto cercando di creare un modello LDA su un file JSON. Creazione di un contesto spark con il file JSON: import org.apache.spark.sql.SparkSession val sparkSession = SparkSession.builder .master(“local”) .appName(“my-spark-app”) .config(“spark.some.config.option”, “config-value”) .getOrCreate() val df = spark.read.json(“dbfs:/mnt/JSON6/JSON/sampleDoc.txt”) La visualizzazione del df dovrebbe mostrare DataFrame display(df) Tokenizzare il testo import org.apache.spark.ml.feature.RegexTokenizer // Set params for RegexTokenizer val tokenizer […]

Come migliorare le prestazioni per i lavori Slow Spark che utilizzano la connessione DataFrame e JDBC?

Sto cercando di accedere a una tabella Teradata di medie dimensioni (~ 100 milioni di righe) tramite JDBC in modalità standalone su un singolo nodo (locale [*]). Sto usando Spark 1.4.1. ed è configurato su una macchina molto potente (2 CPU, 24 core, RAM 126G). Ho provato diverse opzioni di configurazione e ottimizzazione della memoria […]

Causato da: java.lang.NullPointerException su org.apache.spark.sql.Dataset

Di seguito fornisco il mio codice. I iterate sui prodotti prodrows di prodRows e per ogni product_PK trovo alcuni sotto-elenchi corrispondenti di product_PKs da prodRows . numRecProducts = 10 var listOfProducts: Map[Long,Array[(Long, Int)]] = Map() prodRows.foreach{ row : Row => val product_PK = row.get(row.fieldIndex(“product_PK”)).toString.toLong val gender = row.get(row.fieldIndex(“gender_PK”)).toString val selection = prodRows.filter($”gender_PK” === gender || […]

Spiegazione del metodo di piega della scintilla RDD

Sto eseguendo Spark-1.4.0 pre-costruito per Hadoop-2.4 (in modalità locale) per calcolare la sum dei quadrati di un DoubleRDD. Il mio codice Scala sembra sc.parallelize(Array(2., 3.)).fold(0.0)((p, v) => p+v*v) E ha dato un risultato sorprendente 97.0 . Questo è abbastanza controintuitivo rispetto alla versione di fold di Scala Array(2., 3.).fold(0.0)((p, v) => p+v*v) che dà la […]