Articles of apache spark

Come ottenere i dettagli delle parole da TF Vector RDD in Spark ML Lib?

Ho creato Term Frequency usando HashingTF in Spark. Ho ottenuto il termine frequenze usando tf.transform per ogni parola. Ma i risultati sono mostrati in questo formato. [, …] ,[termFrequencyofWord1, termFrequencyOfWord2 ….] per esempio: (1048576,[105,3116],[1.0,2.0]) Sono in grado di ottenere l’indice nel bucket hash, usando tf.indexOf(“word”) . Ma come posso ottenere la parola usando l’indice?

Campionamento stratificato in Spark

Ho un set di dati che contiene i dati dell’utente e dell’acquisto. Ecco un esempio in cui il primo elemento è userId, il secondo è productId e il terzo indica boolean. (2147481832,23355149,1) (2147481832,973010692,1) (2147481832,2134870842,1) (2147481832,541023347,1) (2147481832,1682206630,1) (2147481832,1138211459,1) (2147481832,852202566,1) (2147481832,201375938,1) (2147481832,486538879,1) (2147481832,919187908,1) … Voglio assicurarmi di prendere solo l’80% dei dati di ciascun utente e di […]

Esplodi (trasporre?) Più colonne nella tabella Spark SQL

Sto usando Spark SQL (menziono che è in Spark nel caso in cui questo influisce sulla syntax SQL – non sono abbastanza familiare per essere sicuro ancora) e ho un tavolo che sto cercando di ri-strutturare, ma sono rimanere bloccati cercando di trasporre più colonne contemporaneamente. Fondamentalmente ho dati che assomigliano a: userId someString varA […]

Come passare il parametro -D o la variabile di ambiente al lavoro Spark?

Voglio cambiare la configurazione Typesafe di un lavoro Spark in ambiente dev / prod. Mi sembra che il modo più semplice per farlo è passare -Dconfig.resource=ENVNAME al lavoro. Quindi la libreria di configurazione Typesafe farà il lavoro per me. C’è modo di passare quell’opzione direttamente al lavoro? O forse c’è un modo migliore per cambiare […]

Operazioni Multiple Aggrega sulla stessa colonna di un dataframe spark

Ho tre matrici di tipo stringa che contengono le seguenti informazioni: groupBy array: contenente i nomi delle colonne per cui voglio raggruppare i miei dati. array aggregato: contenente i nomi delle colonne che voglio aggregare. array di operazioni: contenente le operazioni di aggregazione che voglio eseguire Sto cercando di utilizzare i frame di dati spark […]

Converti stringa pyspark in formato data

Ho un data frame di dati pyspark con una colonna di stringhe nel formato di MM-dd-yyyy e sto tentando di convertirlo in una colonna di date. Provai: df.select(to_date(df.STRING_COLUMN).alias(‘new_date’)).show() e ottengo una stringa di null. Qualcuno può aiutare?

Come caricare dipendenze di jar in IPython Notebook

Questa pagina mi ha ispirato a provare spark-csv per leggere il file .csv in PySpark Ho trovato un paio di post come questo che descrivono come usare spark-csv Ma non sono in grado di inizializzare l’istanza di ipython includendo il file .jar o l’estensione del pacchetto nell’avvio che potrebbe essere fatto tramite spark-shell. Cioè, invece […]

Spark legge file da S3 usando sc.textFile (“s3n: // …)

Cercando di leggere un file che si trova in S3 usando spark-shell: scala> val myRdd = sc.textFile(“s3n://myBucket/myFile1.log”) lyrics: org.apache.spark.rdd.RDD[String] = s3n://myBucket/myFile1.log MappedRDD[55] at textFile at :12 scala> myRdd.count java.io.IOException: No FileSystem for scheme: s3n at org.apache.hadoop.fs.FileSystem.getFileSystemClass(FileSystem.java:2607) at org.apache.hadoop.fs.FileSystem.createFileSystem(FileSystem.java:2614) at org.apache.hadoop.fs.FileSystem.access$200(FileSystem.java:91) … etc … IOException: No FileSystem per schema: errore s3n si è verificato con: Spark […]

Spianare le file in Scintilla

Sto facendo dei test per la scintilla usando lo scala. Solitamente leggiamo i file json che devono essere manipolati come nell’esempio seguente: test.json: {“a”:1,”b”:[2,3]} val test = sqlContext.read.json(“test.json”) Come posso convertirlo nel seguente formato: {“a”:1,”b”:2} {“a”:1,”b”:3}

La scintilla di Scala, listbuffer è vuota

In questo pezzo di codice nel commento 1 la lunghezza degli oggetti listbuffer è mostrata correttamente, ma nel 2 ° codice il commento non viene mai eseguito. Perché si verifica? val conf = new SparkConf().setAppName(“app”).setMaster(“local”) val sc = new SparkContext(conf) var wktReader: WKTReader = new WKTReader(); val dataSet = sc.textFile(“dataSet.txt”) val items = new ListBuffer[String]() […]