Aggiungi una variabile a un frame di dati contenente il valore massimo di ogni riga

Voglio aggiungere una variabile (colonna) a un dataframe ( df ), contenente in ogni riga il valore massimo di quella riga tra la 2a e la 26a colonna.

Per la prima riga, il codice sarebbe:

 df$max[1] <- max(df[1,2:26]) 

Sto cercando un modo per generalizzare quello per le righe da 1 a 865. Se do:

 df$max[1:865] <- max(df[1:865, 2:26]) 

Ottengo il massimo complessivo su tutte le righe per la variabile df$max .

Puoi usare apply . Per esempio:

 df[, "max"] <- apply(df[, 2:26], 1, max) 

Ecco un esempio di base:

 > df <- data.frame(a=1:50, b=rnorm(50), c=rpois(50, 10)) > df$max <- apply(df, 1, max) > head(df, 2) abc max 1 1 1.3527115 9 9 2 2 -0.6469987 20 20 > tail(df, 2) abc max 49 49 -1.4796887 10 49 50 50 0.1600679 13 50 

Versione vettoriale con pmax :

 df$max <- do.call(pmax, df[2:26]) 

Ecco due metodi aggiuntivi. Il primo, in R base, consiste nel combinare l’estrazione della matrice [ con max.col , che restituisce un vettore che indicizza la posizione della colonna del valore massimo in ogni riga.

 df$max <- df[2:26][cbind(seq_len(nrow(df)), max.col(df[2:26]))] 

cbind costruisce una matrice indicizzando la posizione del valore massimo per ogni riga e [ usa per estrarre questo valore.

Il secondo è usare rowMaxs nel pacchetto matrixStats .


Facciamo un po 'di benchmarking.

 # data.frame with 1000 observations and 26 variables set.seed(1234) df <- data.frame(id=paste0(letters[-1], 1:40), matrix(rnorm(25000L, 5L, 10L), 1000L)) 

Aggiungete anche la funzione rowMaxs dal pacchetto matrixStats al mix.

 library(matrixStats) library(microbenchmark) microbenchmark(apply=apply(df[, 2:26], 1, max), pmax=do.call(pmax, df[2:26]), max.colSub=df[2:26][cbind(seq_len(nrow(df)), max.col(df[2:26]))], rowMaxs=rowMaxs(as.matrix(df[2:26]))) Unit: microseconds expr min lq mean median uq max neval cld apply 1610.540 1786.5905 2193.5334 1863.5680 1990.4380 6915.999 100 c pmax 354.382 364.6455 380.1720 373.3405 385.4580 567.923 100 a max.colSub 604.416 651.7430 822.6015 664.7155 681.2510 3086.512 100 b rowMaxs 243.762 264.0040 320.2350 277.9750 290.5190 2328.712 100 a 

Quindi, rowMaxs è il chiaro vincitore seguito da pmax e poi da max.col , con l'estrazione della matrice, e si apply alla coda del pacchetto.

Con un data.frame con 10000 righe e 26 colonne, otteniamo una storia simile:

 set.seed(1234) df <- data.frame(id=paste0(letters[-1], 1:400), matrix(rnorm(250000L, 5L, 10L), 10000L)) 

Il codice sopra riportato restituisce

 Unit: milliseconds expr min lq mean median uq max neval cld apply 15.193361 18.299830 21.737516 20.337880 21.774793 99.44836 100 c pmax 3.060853 3.101481 3.156630 3.137545 3.191430 3.54182 100 a max.colSub 3.338828 3.642603 7.051700 3.992708 6.336531 84.43119 100 b rowMaxs 1.244184 1.322302 2.675281 1.508474 1.638053 79.28054 100 a