Come convertire un fattore in intero-numerico senza perdita di informazioni?

Question

Altro

Question

Come convertire un fattore in intero-numerico senza perdita di informazioni?

Quando converto un fattore in un numerico o intero, ottengo i codici di livello sottostanti, non i valori come numeri.

f <- factor(sample(runif(5), 20, replace = TRUE))
##  [1] 0.0248644019011408 0.0248644019011408 0.179684827337041 
##  [4] 0.0284090070053935 0.363644931698218  0.363644931698218 
##  [7] 0.179684827337041  0.249704354675487  0.249704354675487 
## [10] 0.0248644019011408 0.249704354675487  0.0284090070053935
## [13] 0.179684827337041  0.0248644019011408 0.179684827337041 
## [16] 0.363644931698218  0.249704354675487  0.363644931698218 
## [19] 0.179684827337041  0.0284090070053935
## 5 Levels: 0.0248644019011408 0.0284090070053935 ... 0.363644931698218

as.numeric(f)
##  [1] 1 1 3 2 5 5 3 4 4 1 4 2 3 1 3 5 4 5 3 2

as.integer(f)
##  [1] 1 1 3 2 5 5 3 4 4 1 4 2 3 1 3 5 4 5 3 2

Devo ricorrere al paste per ottenere i valori reali:

as.numeric(paste(f))
##  [1] 0.02486440 0.02486440 0.17968483 0.02840901 0.36364493 0.36364493
##  [7] 0.17968483 0.24970435 0.24970435 0.02486440 0.24970435 0.02840901
## [13] 0.17968483 0.02486440 0.17968483 0.36364493 0.24970435 0.36364493
## [19] 0.17968483 0.02840901

C'è un modo migliore per convertire un fattore in numerico?

Jaap

Domanda modificata 1º aprile 2018 в 11:06

Programmazione

casting

r

r-faq

Solution / Answer

Jealie

27º marzo 2014 в 11:39

Altro

R ha un certo numero di funzioni (non documentate) per convertire i fattori:

as.character.factor
as.data.frame.factor
as.Date.factor
as.list.factor
as.vector.factor
...

Ma fastidiosamente, non c'è nulla per gestire la conversione fattore -> numerico. Come estensione della risposta di Joshua Ulrich, suggerirei di superare questa omissione con la definizione di una propria funzione idiomatica:

as.numeric.factor <- function(x) {as.numeric(levels(x))[x]}

che puoi memorizzare all'inizio del tuo script, o meglio ancora nel tuo file .Rprofile.

MrLore

Risposta modificata 4º giugno 2014 в 6:19

80

0

djhurio

9º ottobre 2015 в 12:34

Altro

È possibile solo nel caso in cui le etichette dei fattori corrispondano ai valori originali. Lo spiego con un esempio.

Supponiamo che i dati siano il vettore x:

x <- c(20, 10, 30, 20, 10, 40, 10, 40)

Ora creerò un fattore con quattro etichette:

f <- factor(x, levels = c(10, 20, 30, 40), labels = c("A", "B", "C", "D"))

x è di tipo double, f è di tipo integer. Questa è la prima inevitabile perdita di informazioni. I fattori sono sempre memorizzati come interi.

> typeof(x)
[1] "double"
> typeof(f)
[1] "integer"

Non è possibile tornare ai valori originali (10, 20, 30, 40) avendo solo f a disposizione. Possiamo vedere che f contiene solo i valori interi 1, 2, 3, 4 e due attributi - la lista di etichette ("A", "B", "C", "D") e l'attributo di classe "factor". Niente di più.

> str(f)
 Factor w/ 4 levels "A","B","C","D": 2 1 3 2 1 4 1 4
> attributes(f)
$levels
[1] "A" "B" "C" "D"

$class
[1] "factor"

Per tornare ai valori originali dobbiamo conoscere i valori dei livelli utilizzati nella creazione del fattore. In questo caso c(10, 20, 30, 40). Se conosciamo i livelli originali (nell'ordine corretto), possiamo tornare ai valori originali.

> orig_levels <- c(10, 20, 30, 40)
> x1 <- orig_levels[f]
> all.equal(x, x1)
[1] TRUE

E questo funzionerà solo nel caso in cui le etichette siano state definite per tutti i possibili valori nei dati originali.

Quindi, se avete bisogno dei valori originali, dovete conservarli. Altrimenti c'è un'alta probabilità che non sarà possibile tornare ad essi solo da un fattore.

8

0

Aggiungi domanda

Categorie

Tutti

Tecnologia

Cultura / Tempo Libero

Vita / Arte

Scienza

Professionista

Business

Utenti

Tutti

Nuovo

Popolare

1

Ксения Комарова

Registrato 3 settimane fa

2

3

4

5

Do you have a question? Add it on the site and get an answer instantly

en.kzen.dev

Joshua Ulrich · Accepted Answer · 2010-08-05T19:01:13+00:00

Vedi la sezione Warning di ?factor:

In particolare, as.numeric applicato a

un fattore è privo di significato, e può avvenire per coercizione implicita. Per trasformare un fattore f in circa i suoi valori numerici originali valori, as.numeric(levels(f))[f] è raccomandato e leggermente più efficiente di as.numeric(as.character(f)).

Le FAQ su R hanno un consiglio simile.

**Perché as.numeric(levels(f))[f]è più efficace di as.numeric(as.character(f))?

as.numeric(as.character(f))è effettivamente as.numeric(levels(f)[f]), quindi state eseguendo la conversione in numerico sui valori di length(x), piuttosto che sui valori di nlevels(x). La differenza di velocità sarà più evidente per vettori lunghi con pochi livelli. Se i valori sono per lo più unici, non ci sarà molta differenza di velocità. Comunque tu faccia la conversione, è improbabile che questa operazione sia il collo di bottiglia del tuo codice, quindi non preoccupartene troppo.

Alcuni tempi

library(microbenchmark)
microbenchmark(
  as.numeric(levels(f))[f],
  as.numeric(levels(f)[f]),
  as.numeric(as.character(f)),
  paste0(x),
  paste(x),
  times = 1e5
)
## Unit: microseconds
##                         expr   min    lq      mean median     uq      max neval
##     as.numeric(levels(f))[f] 3.982 5.120  6.088624  5.405  5.974 1981.418 1e+05
##     as.numeric(levels(f)[f]) 5.973 7.111  8.352032  7.396  8.250 4256.380 1e+05
##  as.numeric(as.character(f)) 6.827 8.249  9.628264  8.534  9.671 1983.694 1e+05
##                    paste0(x) 7.964 9.387 11.026351  9.956 10.810 2911.257 1e+05
##                     paste(x) 7.965 9.387 11.127308  9.956 11.093 2419.458 1e+05