Stavo applicando alcuni algoritmi di Apprendimento Automatico come Regressione Lineare, Regressione Logistica e Naive Bayes ad alcuni dati, ma stavo cercando di evitare l’uso di RDD e di iniziare ad usare DataFrames perché gli RDD sono più lenti dei Dataframes in pyspark (vedi foto 1).
L’altro motivo per cui sto usando DataFrame è perché la libreria ml ha una class molto utile per regolare i modelli che è CrossValidator questa class restituisce un modello dopo averlo installato, ovviamente questo metodo deve testare diversi scenari, e dopo restituisce un modello adattato ( con le migliori combinazioni di parametri).
Il cluster che uso non è così grande e i dati sono piuttosto grandi e alcuni adattamenti richiedono ore quindi voglio salvare questi modelli per riutilizzarli in seguito, ma non mi sono reso conto di come, c’è qualcosa che sto ignorando?
Gli appunti: