Articles of apache spark

Attività non serializzabile: java.io.NotSerializableException quando si chiama la funzione all’esterno della chiusura solo su classi non su oggetti

Comportamento strano quando si chiama la funzione al di fuori di una chiusura: quando la funzione è in un object, tutto funziona quando la funzione è in una class ottieni: Attività non serializzabile: java.io.NotSerializableException: testing Il problema è che ho bisogno del mio codice in una class e non in un object. Qualche idea sul […]

Come conservare oggetti personalizzati in Dataset?

Secondo Introducing Spark Datasets : Mentre attendiamo Spark 2.0, pianifichiamo alcuni eccitanti miglioramenti agli Dataset, in particolare: … Encoder personalizzati – mentre al momento autogeneriamo gli encoder per un’ampia varietà di tipi, vorremmo aprire un’API per gli oggetti personalizzati. e tenta di archiviare il tipo personalizzato in un Dataset per Dataset l’errore seguente come: Imansible […]

Scrivi su più uscite con il tasto Spark – un lavoro Spark

Come si può scrivere su più uscite a seconda della chiave usando Spark in un singolo Job. Correlati: scrivere su più uscite tramite il tasto Scalding Hadoop, un lavoro MapReduce Per esempio sc.makeRDD(Seq((1, “a”), (1, “b”), (2, “c”))) .writeAsMultiple(prefix, compressionCodecOption) garantirebbe il cat prefix/1 a b e il cat prefix/2 sarebbe c Risposta Per una […]

Querying Spark SQL DataFrame con tipi complessi

Come posso interrogare un RDD con tipi complessi come mappe / array? per esempio, quando stavo scrivendo questo codice di test: case class Test(name: String, map: Map[String, String]) val map = Map(“hello” -> “world”, “hey” -> “there”) val map2 = Map(“hello” -> “people”, “hey” -> “you”) val rdd = sc.parallelize(Array(Test(“first”, map), Test(“second”, map2))) Anche se […]

Trova la riga massima per gruppo in Spark DataFrame

Sto cercando di usare Spark dataframes invece di RDD dato che sembrano essere di livello più alto degli RDD e tendono a produrre codice più leggibile, ma sarei più che felice di ricevere suggerimenti per qualcosa di più idiomatico per il compito in questione. In un cluster di Google Dataproc a 14 nodes, ho circa […]

Come ruotare Spark DataFrame?

Sto iniziando a utilizzare Spark Dataframes e devo essere in grado di ruotare i dati per creare più colonne su 1 colonna con più righe. C’è una funzionalità incorporata in Scalding e credo in Pandas in Python, ma non riesco a trovare nulla per il nuovo Spark Dataframe. Presumo di poter scrivere una funzione personalizzata […]

Come selezionare la prima riga di ogni gruppo?

Ho un DataFrame generato come segue: df.groupBy($”Hour”, $”Category”) .agg(sum($”value”) as “TotalValue”) .sort($”Hour”.asc, $”TotalValue”.desc)) I risultati sembrano: +—-+——–+———-+ |Hour|Category|TotalValue| +—-+——–+———-+ | 0| cat26| 30.9| | 0| cat13| 22.1| | 0| cat95| 19.6| | 0| cat105| 1.3| | 1| cat67| 28.5| | 1| cat4| 26.8| | 1| cat13| 12.6| | 1| cat23| 5.3| | 2| cat56| 39.6| […]

Come creare esempi di Apache Spark Dataframe riproducibili

Ho passato una discreta quantità di tempo a leggere alcune domande con i tag pyspark e spark-dataframe e molto spesso trovo che i poster non forniscano informazioni sufficienti per capire veramente la loro domanda. Di solito commento chiedendo loro di pubblicare un MCVE, ma a volte farli mostrare alcuni dati di input / output di […]