Salva il modello ML per l’utilizzo futuro

Stavo applicando alcuni algoritmi di Apprendimento Automatico come Regressione Lineare, Regressione Logistica e Naive Bayes ad alcuni dati, ma stavo cercando di evitare l’uso di RDD e di iniziare ad usare DataFrames perché gli RDD sono più lenti dei Dataframes in pyspark (vedi foto 1).

L’altro motivo per cui sto usando DataFrame è perché la libreria ml ha una class molto utile per regolare i modelli che è CrossValidator questa class restituisce un modello dopo averlo installato, ovviamente questo metodo deve testare diversi scenari, e dopo restituisce un modello adattato ( con le migliori combinazioni di parametri).

Il cluster che uso non è così grande e i dati sono piuttosto grandi e alcuni adattamenti richiedono ore quindi voglio salvare questi modelli per riutilizzarli in seguito, ma non mi sono reso conto di come, c’è qualcosa che sto ignorando?

Gli appunti:

  • Le classi del modello di mllib hanno un metodo di salvataggio (cioè NaiveBayes ), ma mllib non ha CrossValidator e usa RDD quindi sto evitandolo premeditatamente.
  • La versione corrente è la scintilla 1.5.1.