Utilizza collect_list e collect_set in Spark SQL

Secondo i documenti , le funzioni collect_set e collect_list dovrebbero essere disponibili in Spark SQL. Tuttavia, non riesco a farlo funzionare. Sto usando Spark 1.6.0 usando un’immagine Docker .

Sto provando a farlo in Scala:

 import org.apache.spark.sql.functions._ df.groupBy("column1") .agg(collect_set("column2")) .show() 

E ricevi il seguente errore in fase di runtime:

 Exception in thread "main" org.apache.spark.sql.AnalysisException: undefined function collect_set; 

Anche provato con pyspark , ma fallisce anche. I documenti dichiarano che queste funzioni sono alias di Hive UDAFs, ma non riesco a capire per abilitare queste funzioni.

Come risolvere questo? Grazie!