Articles of apache spark

Ottimizzazione del join DataFrame – Broadcast Hash Join

Sto cercando di unire efficacemente due DataFrame, uno dei quali è grande e il secondo è un po ‘più piccolo. C’è un modo per evitare tutto questo mischiare? Non riesco a impostare autoBroadCastJoinThreshold , perché supporta solo autoBroadCastJoinThreshold interi – e la tabella che sto tentando di trasmettere è leggermente più grande del numero intero […]

Salva il modello ML per l’utilizzo futuro

Stavo applicando alcuni algoritmi di Apprendimento Automatico come Regressione Lineare, Regressione Logistica e Naive Bayes ad alcuni dati, ma stavo cercando di evitare l’uso di RDD e di iniziare ad usare DataFrames perché gli RDD sono più lenti dei Dataframes in pyspark (vedi foto 1). L’altro motivo per cui sto usando DataFrame è perché la […]

Come definire il partizionatore personalizzato per RDD Spark di partizione di dimensioni uguali in cui ogni partizione ha un numero uguale di elementi?

Sono nuovo di Spark. Ho un grande insieme di elementi [RDD] e voglio dividerlo in due partizioni esattamente uguali che mantengono l’ordine degli elementi. Ho provato ad usare RangePartitioner come var data = partitionedFile.partitionBy(new RangePartitioner(2, partitionedFile)) Questo non dà un risultato soddisfacente perché divide l’ordine degli elementi in modo approssimativo ma non esattamente uguale. Ad […]

Come connettersi a un metastore Hive in modo programmatico in SparkSQL?

Sto usando HiveContext con SparkSQL e sto provando a connettermi a un metastore Hive remoto, l’unico modo per impostare l’hive metastore è attraverso l’hive-site.xml sul classpath (o copiarlo su / etc / spark / conf /). C’è un modo per impostare questo parametro a livello di codice in un codice java senza includere hive-site.xml? In […]

Come posso aggiornare una variabile di trasmissione in spark streaming?

Ho, credo, un caso d’uso relativamente comune per lo streaming di scintille: Ho un stream di oggetti che vorrei filtrare in base ad alcuni dati di riferimento Inizialmente, ho pensato che sarebbe stata una cosa molto semplice ottenere usando una variabile di trasmissione : public void startSparkEngine { Broadcast refdataBroadcast = sparkContext.broadcast(getRefData()); final JavaDStream filteredStream […]

come rendere saveAsTextText NON dividere l’output in più file?

Quando si utilizza Scala in Spark, ogni volta che si esegue il dump dei risultati utilizzando saveAsTextFile , sembra dividere l’output in più parti. Sto solo passando un parametro (percorso) ad esso. val year = sc.textFile(“apat63_99.txt”).map(_.split(“,”)(1)).flatMap(_.split(“,”)).map((_,1)).reduceByKey((_+_)).map(_.swap) year.saveAsTextFile(“year”) Il numero di uscite corrisponde al numero di riduttori che utilizza? Questo significa che l’output è compresso? So […]

Come impostare Spark su Windows?

Sto cercando di installare Apache Spark su Windows. Dopo aver cercato un po ‘, capisco che la modalità standalone è ciò che voglio. Quali binari devo scaricare per far funzionare Apache spark in windows? Vedo le distribuzioni con hadoop e cdh nella pagina di download della scintilla. Non ho riferimenti nel web a questo. Una […]

Spark: qual è la migliore strategia per aderire a un RDD a due chiavi di tuple con RDD a chiave singola?

Ho due RDD che voglio unire e sembrano così: val rdd1:RDD[(T,U)] val rdd2:RDD[((T,W), V)] Succede che i valori chiave di rdd1 sono unici e anche che i valori della chiave di rdd2 di rdd2 sono unici. Mi piacerebbe unire i due set di dati in modo da ottenere il seguente rdd: val rdd_joined:RDD[((T,W), (U,V))] Qual […]

Spark SQL: carica i dati con JDBC usando l’istruzione SQL, non il nome della tabella

Penso che mi manchi qualcosa ma non riesco a capire cosa. Voglio caricare i dati usando SQLContext e JDBC usando particolari istruzioni SQL come select top 1000 text from table1 with (nolock) where threadid in ( select distinct id from table2 with (nolock) where flag=2 and date >= ‘1/1/2015’ and userid in (1, 2, 3) […]

Spark: numero di prestazioni incoerente nel numero di ridimensionamento dei core

Sto facendo un semplice test di ridimensionamento su Spark usando benchmark di ordinamento – da 1 core, fino a 8 core. Ho notato che 8 core sono più lenti di 1 core. //run spark using 1 core spark-submit –master local[1] –class john.sort sort.jar data_800MB.txt data_800MB_output //run spark using 8 cores spark-submit –master local[8] –class john.sort […]