Избегание неиспользуемых уровней факторов [дублировать]

Question

Избегание неиспользуемых уровней факторов [дублировать]

Давайте посмотрим на лес сначала, прежде чем смотреть на деревья.

Здесь есть много информативных ответов с большими подробностями, я не буду повторять ни одного из них. Ключ к программированию в JavaScript имеет сначала правильную ментальную модель общего исполнения.

Ваша точка входа (ов) выполняется в результате события. Например, в браузер загружается тег сценария с кодом. (Соответственно, поэтому вам, возможно, придется заботиться о готовности страницы запускать ваш код, если он требует, чтобы элементы dom были сконструированы первыми и т. Д.)
Ваш код выполняется до завершения, однако многие асинхронные вызовы, которые он делает, без выполнения каких-либо ваших обратных вызовов, включая запросы XHR, установку тайм-аутов, обработчиков событий dom и т. д. Каждый из этих обратных вызовов, ожидающих выполнения, будет находиться в очереди, ожидая, что их очередь будет запущена после других событий
Каждый отдельный обратный вызов XHR-запроса, установленного таймаута или dom события после вызова будет завершен.

Хорошие новости заключается в том, что, если вы хорошо понимаете этот момент, вам никогда не придется беспокоиться о гоночных условиях. Прежде всего вы должны понимать, как вы хотите упорядочить свой код как по существу ответ на разные дискретные события, и как вы хотите объединить их в логическую последовательность. Вы можете использовать обещания или новые асинхронные / ожидающие более высокие уровни в качестве инструментов для этой цели, или вы можете откатывать свои собственные.

Но вы не должны использовать какие-либо тактические инструменты для решения проблемы, пока вам не понравится актуальная проблемная область. Нарисуйте карту этих зависимостей, чтобы знать, что нужно запускать, когда. Попытка ad-hoc подхода ко всем этим обратным вызовам просто не поможет вам.

434

r

задан zx8754 27 May 2015 в 11:17

12 ответов

Вот еще один способ, который, я считаю, эквивалентен подходу factor(..):

> df <- data.frame(let=letters[1:5], num=1:5)
> subdf <- df[df$num <= 3, ]

> subdf$let <- subdf$let[ , drop=TRUE]

> levels(subdf$let)
[1] "a" "b" "c"

10

ответ дан ars 26 August 2018 в 19:06

Для полноты, теперь есть fct_drop в пакете forcats http://forcats.tidyverse.org/reference/fct_drop.html .

Он отличается от droplevels тем, как он имеет дело с NA:

f <- factor(c("a", "b", NA), exclude = NULL)

droplevels(f)
# [1] a    b    <NA>
# Levels: a b <NA>

forcats::fct_drop(f)
# [1] a    b    <NA>
# Levels: a b

6

ответ дан Aurèle 26 August 2018 в 19:06

Я написал служебные функции для этого. Теперь, когда я знаю о drop.levels gdata, он выглядит довольно похожим. Здесь они (из здесь ):

present_levels <- function(x) intersect(levels(x), x)

trim_levels <- function(...) UseMethod("trim_levels")

trim_levels.factor <- function(x)  factor(x, levels=present_levels(x))

trim_levels.data.frame <- function(x) {
  for (n in names(x))
    if (is.factor(x[,n]))
      x[,n] = trim_levels(x[,n])
  x
}

5

ответ дан Brendan OConnor 26 August 2018 в 19:06

Другой способ сделать то же самое, но с dplyr

library(dplyr)
subdf <- df %>% filter(numbers <= 3) %>% droplevels()
str(subdf)

Изменить:

Также работает! Благодаря agenis

subdf <- df %>% filter(numbers <= 3) %>% droplevels
levels(subdf$letters)

14

ответ дан Community 26 August 2018 в 19:06

1

– agenis 24 November 2015 в 19:51

здесь есть способ сделать это

varFactor <- factor(letters[1:15])
varFactor <- varFactor[1:5]
varFactor <- varFactor[drop=T]

6

ответ дан David Arenburg 26 August 2018 в 19:06

Очень интересная нить, мне особенно понравилась идея просто подставить подзаголовок снова. Раньше у меня была аналогичная проблема, и я просто перешел к символу, а затем вернулся к коэффициенту.

   df <- data.frame(letters=letters[1:5],numbers=seq(1:5))
   levels(df$letters)
   ## [1] "a" "b" "c" "d" "e"
   subdf <- df[df$numbers <= 3]
   subdf$letters<-factor(as.character(subdf$letters))

4

ответ дан DfAC 26 August 2018 в 19:06

Это известная проблема, и одно возможное решение предоставляется drop.levels() в пакете gdata , где ваш пример становится

> drop.levels(subdf)
  letters numbers
1       a       1
2       b       2
3       c       3
> levels(drop.levels(subdf)$letters)
[1] "a" "b" "c"

Существует также dropUnusedLevels в пакете Hmisc . Однако он работает только путем изменения оператора подмножества [ и здесь неприменим.

В качестве следствия прямой подход на основе столбца является простым as.factor(as.character(data)):

> levels(subdf$letters)
[1] "a" "b" "c" "d" "e"
> subdf$letters <- as.factor(as.character(subdf$letters))
> levels(subdf$letters)
[1] "a" "b" "c"

33

ответ дан Dirk Eddelbuettel 26 August 2018 в 19:06

1

– daroczig 17 January 2011 в 12:31
2

– Vrokipal 20 June 2018 в 19:12
3

– Dirk Eddelbuettel 20 June 2018 в 19:21

Если вы не хотите этого поведения, не используйте факторы, используйте вместо него векторы символов. Я думаю, что это имеет больше смысла, чем исправление. Попробуйте выполнить следующие действия перед загрузкой данных с помощью read.table или read.csv:

options(stringsAsFactors = FALSE)

Недостатком является то, что вы ограничены алфавитным порядком. (переупорядочить ваш друг для сюжетов)

36

ответ дан hadley 26 August 2018 в 19:06

1

– andrewj 29 July 2009 в 02:37
2

– TMS 22 July 2018 в 05:58

Глядя на код droplevels методов в источнике R, вы можете видеть , он обтекает функцию factor. Это означает, что вы можете в основном воссоздать столбец с функцией factor. Ниже data.table способ сбросить уровни из всех столбцов факторов.

library(data.table)
dt = data.table(letters=factor(letters[1:5]), numbers=seq(1:5))
levels(dt$letters)
#[1] "a" "b" "c" "d" "e"
subdt = dt[numbers <= 3]
levels(subdt$letters)
#[1] "a" "b" "c" "d" "e"

upd.cols = sapply(subdt, is.factor)
subdt[, names(subdt)[upd.cols] := lapply(.SD, factor), .SDcols = upd.cols]
levels(subdt$letters)
#[1] "a" "b" "c"

6

ответ дан jangorecki 26 August 2018 в 19:06

1

– David Arenburg 24 January 2016 в 14:24
2

– jangorecki 30 November 2016 в 14:25

Это неприятно. Так я обычно делаю это, чтобы не загружать другие пакеты:

levels(subdf$letters)<-c("a","b","c",NA,NA)

, который получает вас:

> subdf$letters
[1] a b c
Levels: a b c

Обратите внимание, что новые уровни заменят все, что занимает их индекс в старые значения (subdf $ letters), поэтому что-то вроде:

levels(subdf$letters)<-c(NA,"a","c",NA,"b")

не будет работать.

Это, очевидно, не идеально, когда у вас много уровней, но для Несколько, это быстро и легко.

6

ответ дан Matt Parker 26 August 2018 в 19:06

Поскольку R версии 2.12, есть функция droplevels().

levels(droplevels(subdf$letters))

454

ответ дан Roman Luštrik 26 August 2018 в 19:06

1

– Señor O 30 January 2014 в 19:28
2

– tim 28 June 2015 в 19:02
3

– Mars 21 November 2015 в 06:44
4

– Meep 5 July 2016 в 00:48

Другие вопросы по тегам:

r

Избегание неиспользуемых уровней факторов [дублировать]

12 ответов

Похожие вопросы: