Che cosa significa “Stage Skipped” significa nell’interfaccia utente web di Apache Spark?

Dall’interfaccia utente di Spark. Cosa significa saltare?

inserisci la descrizione dell'immagine qui

In genere significa che i dati sono stati recuperati dalla cache e non è stato necessario rieseguire la fase specificata. È coerente con il tuo DAG che mostra che la fase successiva richiede il mescolamento ( reduceByKey ). Ogni volta che c’è mischia coinvolto Spark memorizza automaticamente nella cache i dati generati :

Shuffle genera anche un gran numero di file intermedi sul disco. A partire da Spark 1.3, questi file vengono conservati fino a quando i corrispondenti RDD non vengono più utilizzati e vengono raccolti. Questo è fatto in modo che i file shuffle non debbano essere ricreati se il lignaggio viene ricalcolato.