Articles of hadoop

Come definire il partizionatore personalizzato per RDD Spark di partizione di dimensioni uguali in cui ogni partizione ha un numero uguale di elementi?

Sono nuovo di Spark. Ho un grande insieme di elementi [RDD] e voglio dividerlo in due partizioni esattamente uguali che mantengono l’ordine degli elementi. Ho provato ad usare RangePartitioner come var data = partitionedFile.partitionBy(new RangePartitioner(2, partitionedFile)) Questo non dà un risultato soddisfacente perché divide l’ordine degli elementi in modo approssimativo ma non esattamente uguale. Ad […]

Come connettersi a un metastore Hive in modo programmatico in SparkSQL?

Sto usando HiveContext con SparkSQL e sto provando a connettermi a un metastore Hive remoto, l’unico modo per impostare l’hive metastore è attraverso l’hive-site.xml sul classpath (o copiarlo su / etc / spark / conf /). C’è un modo per impostare questo parametro a livello di codice in un codice java senza includere hive-site.xml? In […]

la mappa di hadoop riduce l’ordinamento secondario

Qualcuno può spiegarmi come funziona lo smistamento secondario in hadoop? Perché si deve usare GroupingComparator e come funziona in hadoop? Stavo passando attraverso il link indicato di seguito e ho dei dubbi su come funziona il groupcomapator. Qualcuno può spiegarmi come funziona il comparatore di raggruppamento? http://www.bigdataspeak.com/2013/02/hadoop-how-to-do-secondary-sort-on_25.html

Esecuzione di Apache Hadoop 2.1.0 su Windows

Sono nuovo di Hadoop e ho incontrato problemi nel tentativo di eseguirlo sulla mia macchina Windows 7. In particolare sono interessato all’esecuzione di Hadoop 2.1.0 poiché le sue note di rilascio menzionano il fatto che è in esecuzione su Windows. So che posso provare a eseguire le versioni 1.x su Windows con Cygwin o persino […]

Spark: numero di prestazioni incoerente nel numero di ridimensionamento dei core

Sto facendo un semplice test di ridimensionamento su Spark usando benchmark di ordinamento – da 1 core, fino a 8 core. Ho notato che 8 core sono più lenti di 1 core. //run spark using 1 core spark-submit –master local[1] –class john.sort sort.jar data_800MB.txt data_800MB_output //run spark using 8 cores spark-submit –master local[8] –class john.sort […]

Dovrei chiamare ugi.checkTGTAndReloginFromKeytab () prima di ogni azione su hadoop?

Nella mia applicazione server mi sto collegando al cluster Hadoop protetto da Kerberos dalla mia applicazione java. Sto usando vari componenti come il file system HDFS, Oozie, Hive, ecc. All’avvio dell’applicazione, richiamo UserGroupInformation.loginUserFromKeytabAndReturnUGI( … ); Questo mi restituisce l’istanza UserGroupInformation e la tengo per tutta la vita dell’applicazione. Quando si esegue un’azione privilegiata, li avvio […]

Qual è la differenza tra partizionamento e bucketing di una tabella in Hive?

So che entrambi sono eseguiti su una colonna nella tabella, ma come è diversa ogni operazione.

Hive: il modo migliore per eseguire aggiornamenti incremetali su una tabella principale

Quindi ho una tabella principale in Hive, memorizzerà tutti i miei dati. Voglio essere in grado di caricare un aggiornamento incrementale dei dati circa ogni mese con una grande quantità di dati da un paio di miliardi di righe. Ci saranno nuovi dati e voci aggiornate. Qual è il modo migliore per approcciarlo, so che […]

Come usare Sqoop nel programma Java?

So come usare sqoop tramite la riga di comando. Ma non so come chiamare il comando sqoop usando i programmi java. Qualcuno può dare qualche vista del codice?

Qual è lo scopo della fase di shuffling e ordinamento nel riduttore in Map Reduce Programming?

In Map Ridurre la programmazione la fase di riduzione ha shuffling, ordinamento e riduzione come le sue sottosezioni. L’ordinamento è un affare costoso. Qual è lo scopo della fase di shuffling e ordinamento nel riduttore in Map Reduce Programming?