Articles of dplyr

dplyr: seleziona i nomi delle colonne che contengono lo spazio bianco

df <- structure(list(`aa` = 1:3, `ab` = 2:4), .Names = c("aa", "ab" ), row.names = c(NA, -3L), class = "data.frame") e i dati sono simili aaab 1 1 2 2 2 3 3 3 4 Dopo la chiamata per selezionare select(df, ‘a a’) dà Error in abs(ind[ind < 0]) : non-numeric argument to mathematical function […]

Trovare la percentuale in un sottogruppo usando group_by e riepilogare

Sono nuovo di dplyr e sto cercando di fare la seguente trasformazione senza fortuna. Ho cercato su internet e ho trovato esempi per fare lo stesso in ddply, ma mi piacerebbe usare dplyr. Ho i seguenti dati: month type count 1 Feb-14 bbb 341 2 Feb-14 ccc 527 3 Feb-14 aaa 2674 4 Mar-14 bbb […]

Riassumi con condizioni in dplyr

Illustrerò la mia domanda con un esempio. Dati di esempio: df <- data.frame(ID = c(1, 1, 2, 2, 3, 5), A = c("foo", "bar", "foo", "foo", "bar", "bar"), B = c(1, 5, 7, 23, 54, 202)) df ID AB 1 1 foo 1 2 1 bar 5 3 2 foo 7 4 2 foo 23 […]

Combina mutate con valori condizionali

In un grande dataframe (“myfile”) con quattro colonne devo aggiungere una quinta colonna con valori conditonalmente basati sulle prime quattro colonne. Recentemente sono diventato un grande fan di dplyr, principalmente per la sua velocità in grandi dataset. Quindi mi chiedevo se potevo affrontare il mio problema usando la funzione mutate. Il mio dataframe (in realtà […]

Diffusione di un frame di dati a due colonne con tidyr

Ho un frame di dati che assomiglia a questo: ab 1 x 8 2 x 6 3 y 3 4 y 4 5 z 5 6 z 6 e voglio trasformarlo in questo: xyz 1 8 3 5 2 6 4 6 Ma chiamando library(tidyr) df % spread(a, b) ritorna xyz 1 8 NA NA […]

R: Sostituzione dei valori NA per mezzo di ora con dplyr

Sto imparando il pacchetto dplyr in R e mi piace molto. Ma ora ho a che fare con i valori di NA nei miei dati. Vorrei sostituire qualsiasi NA con la media dell’ora corrispondente, ad esempio con questo esempio molto semplice: #create an example day = c(1, 1, 2, 2, 3, 3) hour = c(8, […]

R – aggiungi la colonna che conta in sequenza all’interno dei gruppi, ma si ripete per i duplicati

Sto cercando una soluzione per aggiungere la colonna “desired_result” preferibilmente usando dplyr e / o ave (). Vedere il riquadro dei dati qui, dove il gruppo è “sezione” e le istanze univoche che voglio che la colonna “desired_results” da conteggiare in sequenza siano in “exhibit”: structure(list(section = c(1L, 1L, 1L, 1L, 2L, 2L, 2L, 2L), […]

ignora NA in sum riga dplyr

c’è un modo elegante per gestire NA come 0 (na.rm = TRUE) in dplyr? data % mutate(sum = a + b + c) abc sum 1 4 7 12 2 NA 8 NA 3 5 9 17 4 6 NA NA but I like to get abc sum 1 4 7 12 2 NA 8 […]

dplyr :: mutate per aggiungere più valori

Ci sono un paio di problemi a riguardo sul dplyr Github repo già, e almeno una domanda SO correlata, ma nessuno di loro copre la mia domanda – penso. Aggiungere più colonne in una chiamata muting dplyr è più o meno quello che voglio, ma c’è una risposta caso speciale per quel caso ( tidyr::separate […]

Utilizzo di spread con identificativi duplicati per le righe

Ho un dataframe di forma lunga che ha più voci per la stessa data e persona. jj <- data.frame(month=rep(1:3,4), student=rep(c("Amy", "Bob"), each=6), A=c(9, 7, 6, 8, 6, 9, 3, 2, 1, 5, 6, 5), B=c(6, 7, 8, 5, 6, 7, 5, 4, 6, 3, 1, 5)) Voglio convertirlo in forma ampia e renderlo così: month […]