Jak przekonwertować czynnik na liczbę całkowitą bez utraty informacji?

Question

Więcej

Question

Jak przekonwertować czynnik na liczbę całkowitą bez utraty informacji?

Kiedy konwertuję czynnik na numeryczny lub całkowity, otrzymuję bazowe kody poziomów, a nie wartości jako liczby.

f <- factor(sample(runif(5), 20, replace = TRUE))
##  [1] 0.0248644019011408 0.0248644019011408 0.179684827337041 
##  [4] 0.0284090070053935 0.363644931698218  0.363644931698218 
##  [7] 0.179684827337041  0.249704354675487  0.249704354675487 
## [10] 0.0248644019011408 0.249704354675487  0.0284090070053935
## [13] 0.179684827337041  0.0248644019011408 0.179684827337041 
## [16] 0.363644931698218  0.249704354675487  0.363644931698218 
## [19] 0.179684827337041  0.0284090070053935
## 5 Levels: 0.0248644019011408 0.0284090070053935 ... 0.363644931698218

as.numeric(f)
##  [1] 1 1 3 2 5 5 3 4 4 1 4 2 3 1 3 5 4 5 3 2

as.integer(f)
##  [1] 1 1 3 2 5 5 3 4 4 1 4 2 3 1 3 5 4 5 3 2

Muszę uciekać się do wklejania, aby uzyskać prawdziwe wartości:

as.numeric(paste(f))
##  [1] 0.02486440 0.02486440 0.17968483 0.02840901 0.36364493 0.36364493
##  [7] 0.17968483 0.24970435 0.24970435 0.02486440 0.24970435 0.02840901
## [13] 0.17968483 0.02486440 0.17968483 0.36364493 0.24970435 0.36364493
## [19] 0.17968483 0.02840901

Czy istnieje lepszy sposób na konwersję współczynnika na numeryczny?

Jaap

Edytowane pytanie 1. kwietnia 2018 в 11:06

Programowanie

casting

r

r-faq

Solution / Answer

Jealie

27. marca 2014 в 11:39

Więcej

R posiada wiele (nieudokumentowanych) funkcji ułatwiających konwersję współczynników:

as.character.factor
as.data.frame.factor
as.Date.factor
as.list.factor
as.vector.factor
...

Ale irytujące jest to, że nie ma nic do obsługi factor -> konwersja numeryczna. Jako rozszerzenie odpowiedzi Joshua Ulrich's, sugerowałbym przezwyciężyć to przeoczenie za pomocą definicji własnej funkcji idiomatycznej:

as.numeric.factor <- function(x) {as.numeric(levels(x))[x]}

którą możesz przechowywać na początku swojego skryptu, a jeszcze lepiej w swoim pliku .Rprofile.

MrLore

Edytowana odpowiedź 4. czerwca 2014 в 6:19

80

0

djhurio

9. października 2015 в 12:34

Więcej

Jest to możliwe tylko w przypadku, gdy etykiety czynników odpowiadają oryginalnym wartościom. Wyjaśnię to na przykładzie.

Załóżmy, że dane to wektor x:

x <- c(20, 10, 30, 20, 10, 40, 10, 40)

Teraz utworzę czynnik z czterema etykietami:

f <- factor(x, levels = c(10, 20, 30, 40), labels = c("A", "B", "C", "D"))

x jest typu double, f jest typu integer. Jest to pierwsza nieunikniona utrata informacji. Czynniki są zawsze przechowywane jako liczby całkowite.

> typeof(x)
[1] "double"
> typeof(f)
[1] "integer"

Nie jest możliwe przywrócenie oryginalnych wartości (10, 20, 30, 40) mając do dyspozycji tylko f. Widzimy, że f przechowuje tylko wartości całkowite 1, 2, 3, 4 i dwa atrybuty - listę etykiet ("A", "B", "C", "D") i atrybut klasy "factor". Nic więcej.

> str(f)
 Factor w/ 4 levels "A","B","C","D": 2 1 3 2 1 4 1 4
> attributes(f)
$levels
[1] "A" "B" "C" "D"

$class
[1] "factor"

Aby powrócić do oryginalnych wartości musimy znać wartości poziomów użytych przy tworzeniu czynnika. W tym przypadku c(10, 20, 30, 40). Jeśli znamy oryginalne poziomy (w prawidłowej kolejności), możemy powrócić do oryginalnych wartości.

> orig_levels <- c(10, 20, 30, 40)
> x1 <- orig_levels[f]
> all.equal(x, x1)
[1] TRUE

I to będzie działać tylko w przypadku, gdy etykiety zostały zdefiniowane dla wszystkich możliwych wartości w oryginalnych danych.

Więc jeśli będziesz potrzebował oryginalnych wartości, musisz je zachować. W przeciwnym razie istnieje duże prawdopodobieństwo, że nie będzie można do nich wrócić tylko z czynnika.

8

0

Dodaj pytanie

Kategorie

Wszystkie

Technologia

Kultura / Rekreacja

Życie / Sztuka

Nauka

Profesjonalny

Biznes

Użytkownicy

Wszystkie

Nowy

Popularny

1

Ксения Комарова

Zarejestrowany 1 miesiąc temu

2

Артур «Апер»

Zarejestrowany 2 miesiące temu

3

Viktor Malyutin

Zarejestrowany 2 miesiące temu

4

Viktor Malyutin

Zarejestrowany 2 miesiące temu

5

Syahputra Zhedenk

Zarejestrowany 3 miesiące temu

Do you have a question? Add it on the site and get an answer instantly

en.kzen.dev

Joshua Ulrich · Accepted Answer · 2010-08-05T19:01:13+00:00

Zobacz sekcję Ostrzeżenia w ?factor:

W szczególności, as.numeric zastosowany do czynnika jest bez znaczenia, i może zdarzyć się przez niejawne wymuszenie. Aby przekształcić czynnik f na w przybliżeniu jego oryginalne wartości numeryczne wartości, as.numeric(levels(f))[f] jest zalecane i nieco bardziej wydajny niż as.numeric(as.character(f)).

FAQ na temat R ma podobną poradę.

**Dlaczego as.numeric(levels(f))[f] jest bardziej efektywne niż as.numeric(as.character(f))?

as.numeric(as.character(f)) jest efektywnie as.numeric(levels(f)[f]), więc wykonujesz konwersję na numeryczne na length(x) wartości, a nie na nlevels(x) wartości. Różnica prędkości będzie najbardziej widoczna dla długich wektorów z kilkoma poziomami. Jeśli wartości są w większości unikalne, nie będzie dużej różnicy w szybkości. Jakkolwiek dokonasz konwersji, ta operacja prawdopodobnie nie będzie wąskim gardłem w twoim kodzie, więc nie przejmuj się nią zbytnio.

Niektóre czasy

library(microbenchmark)
microbenchmark(
  as.numeric(levels(f))[f],
  as.numeric(levels(f)[f]),
  as.numeric(as.character(f)),
  paste0(x),
  paste(x),
  times = 1e5
)
## Unit: microseconds
##                         expr   min    lq      mean median     uq      max neval
##     as.numeric(levels(f))[f] 3.982 5.120  6.088624  5.405  5.974 1981.418 1e+05
##     as.numeric(levels(f)[f]) 5.973 7.111  8.352032  7.396  8.250 4256.380 1e+05
##  as.numeric(as.character(f)) 6.827 8.249  9.628264  8.534  9.671 1983.694 1e+05
##                    paste0(x) 7.964 9.387 11.026351  9.956 10.810 2911.257 1e+05
##                     paste(x) 7.965 9.387 11.127308  9.956 11.093 2419.458 1e+05