Articles of apache spark

Come posso aggiungere una colonna persistente di ID di riga a Spark DataFrame?

Questa domanda non è nuova, tuttavia trovo un comportamento sorprendente in Spark. Devo aggiungere una colonna di ID di riga a un DataFrame. Ho usato il metodo DataFrame monotonically_increasing_id () e mi fornisce un ulteriore col di ID di riga univoci (che NON sono consecutivi a proposito, ma sono unici). Il problema che sto avendo […]

Come calcolare il numero migliore di partizioni per coalizzarsi?

Quindi, capisco che in generale si dovrebbe usare coalesce() quando: il numero di partizioni diminuisce a causa di un filter o di qualche altra operazione che può comportare la riduzione del set di dati originale (RDD, DF). coalesce() è utile per eseguire le operazioni in modo più efficiente dopo aver filtrato un set di dati […]

Come importare più file CSV in un singolo caricamento?

Considera di avere uno schema definito per il caricamento di 10 file CSV in una cartella. C’è un modo per caricare automaticamente le tabelle usando Spark SQL. So che questo può essere eseguito utilizzando un singolo dataframe per ogni file [indicato di seguito], ma può essere automatizzato con un singolo comando piuttosto che puntare un […]

Come cambiare la memoria per nodo per apache spark worker

Sto configurando un cluster Apache Spark. Quando eseguo il cluster con 1 master e 3 slave, lo vedo nella pagina del monitor principale: Memory 2.0 GB (512.0 MB Used) 2.0 GB (512.0 MB Used) 6.0 GB (512.0 MB Used) Voglio aumentare la memoria utilizzata per i lavoratori ma non sono riuscito a trovare la configurazione […]

Perché Spark fallisce con java.lang.OutOfMemoryError: superato il limite di sovraccarico GC?

Sto cercando di implementare un lavoro Hadoop Map / Reduce che ha funzionato bene prima in Spark. La definizione dell’app Spark è la seguente: val data = spark.textFile(file, 2).cache() val result = data .map(//some pre-processing) .map(docWeightPar => (docWeightPar(0),docWeightPar(1)))) .flatMap(line => MyFunctions.combine(line)) .reduceByKey( _ + _) Dove è MyFunctions.combine def combine(tuples: Array[(String, String)]): IndexedSeq[(String,Double)] = for […]

Come trovare la dimensione RDD / Dataframe della scintilla?

So come trovare la dimensione del file in scala.Ma come trovare una dimensione RDD / dataframe in scintilla? Scala: object Main extends App { val file = new java.io.File(“hdfs://localhost:9000/samplefile.txt”).toString() println(file.length) } Scintilla: val distFile = sc.textFile(file) println(distFile.length) ma se lo elaboro non ottenendo la dimensione del file. Come trovare la dimensione RDD?

Perché PySpark non può trovare py4j.java_gateway?

Ho installato Spark, eseguito l’assembly sbt e posso aprire bin / pyspark senza problemi. Tuttavia, sto incontrando problemi nel caricare il modulo pyspark in ipython. Sto ottenendo il seguente errore: In [1]: import pyspark ————————————————————————— ImportError Traceback (most recent call last) in () —-> 1 import pyspark /usr/local/spark/python/pyspark/__init__.py in () 61 62 from pyspark.conf import […]

Perché spark-shell fallisce con NullPointerException?

Cerco di eseguire spark-shell su Windows 10, ma continuo a ricevere questo errore ogni volta che lo eseguo. Ho usato entrambe le versioni più recenti e spark-1.5.0-bin-hadoop2.4. 15/09/22 18:46:24 WARN Connection: BoneCP specified but not present in CLASSPATH (or one of dependencies) 15/09/22 18:46:24 WARN Connection: BoneCP specified but not present in CLASSPATH (or one […]

Come stampare il contenuto di RDD?

Sto tentando di stampare il contenuto di una raccolta sulla console Spark. Ho un tipo: linesWithSessionId: org.apache.spark.rdd.RDD[String] = FilteredRDD[3] E io uso il comando: scala> linesWithSessionId.map(line => println(line)) Ma questo è stampato: res1: org.apache.spark.rdd.RDD [Unità] = MappedRDD [4] alla mappa a: 19 Come posso scrivere l’RDD per consolarlo o salvarlo sul disco in modo che […]

Come prevenire java.lang.OutOfMemoryError: PermGen space alla compilation Scala?

Ho notato uno strano comportamento del mio compilatore di scala. Di tanto in tanto lancia un OutOfMemoryError durante la compilazione di una class. Ecco il messaggio di errore: [info] Compiling 1 Scala source to /Users/gruetter/Workspaces/scala/helloscala/target/scala-2.9.0/test-classs… java.lang.OutOfMemoryError: PermGen space Error during sbt execution: java.lang.OutOfMemoryError: PermGen space Succede solo una volta ogni tanto e di solito l’errore […]