Быстрое векторизованное слияние списка data.frames по строкам

Question

Быстрое векторизованное слияние списка data.frames по строкам

Большинство вопросов о слиянии data.frame в списках на SO не совсем относятся к тому, что я пытаюсь здесь донести, но не стесняйтесь доказать, что я неправ.

У меня есть список data.frames. Я хотел бы "привязать" строки к другому data.frame за строкой. По сути, все первые строки образуют один data.frame, вторые строки - второй data.frame и так далее. Результатом будет список той же длины, что и количество строк в моем исходном data.frame (s). Пока что data.frames идентичны по размерам.

Вот некоторые данные, с которыми можно поиграть.

sample.list <- list(data.frame(x = sample(1:100, 10), y = sample(1:100, 10), capt = sample(0:1, 10, replace = TRUE)),
        data.frame(x = sample(1:100, 10), y = sample(1:100, 10), capt = sample(0:1, 10, replace = TRUE)),
        data.frame(x = sample(1:100, 10), y = sample(1:100, 10), capt = sample(0:1, 10, replace = TRUE)),
        data.frame(x = sample(1:100, 10), y = sample(1:100, 10), capt = sample(0:1, 10, replace = TRUE)),
        data.frame(x = sample(1:100, 10), y = sample(1:100, 10), capt = sample(0:1, 10, replace = TRUE)),
        data.frame(x = sample(1:100, 10), y = sample(1:100, 10), capt = sample(0:1, 10, replace = TRUE)),
        data.frame(x = sample(1:100, 10), y = sample(1:100, 10), capt = sample(0:1, 10, replace = TRUE)))

Вот что я придумал с помощью старого доброго цикла for.

#solution 1
my.list <- vector("list", nrow(sample.list[[1]]))
for (i in 1:nrow(sample.list[[1]])) {
    for (j in 1:length(sample.list)) {
        my.list[[i]] <- rbind(my.list[[i]], sample.list[[j]][i, ])
    }
}

#solution 2 (so far my favorite)
sample.list2 <- do.call("rbind", sample.list)
my.list2 <- vector("list", nrow(sample.list[[1]]))

for (i in 1:nrow(sample.list[[1]])) {
    my.list2[[i]] <- sample.list2[seq(from = i, to = nrow(sample.list2), by = nrow(sample.list[[1]])), ]
}

Можно ли это улучшить, используя векторизация без особых проблем? Правильный ответ, конечно же, будет содержать фрагмент кода. «Да» в качестве ответа не считается.

РЕДАКТИРОВАТЬ

#solution 3 (a variant of solution 2 above)
ind <- rep(1:nrow(sample.list[[1]]), times = length(sample.list))
my.list3 <- split(x = sample.list2, f = ind)

ЭТАЛОННЫЙ МАРКИРОВАНИЕ

Я увеличил свой список, увеличив количество строк на каждый кадр data.frame. Я проверил следующие результаты:

#solution 1
system.time(for (i in 1:nrow(sample.list[[1]])) {
    for (j in 1:length(sample.list)) {
        my.list[[i]] <- rbind(my.list[[i]], sample.list[[j]][i, ])
    }
})
   user  system elapsed 
 80.989   0.004  81.210 

# solution 2
system.time(for (i in 1:nrow(sample.list[[1]])) {
    my.list2[[i]] <- sample.list2[seq(from = i, to = nrow(sample.list2), by = nrow(sample.list[[1]])), ]
})
   user  system elapsed 
  0.957   0.160   1.126 

# solution 3
system.time(split(x = sample.list2, f = ind))
   user  system elapsed 
  1.104   0.204   1.332 

# solution Gabor
system.time(lapply(1:nr, bind.ith.rows))
   user  system elapsed 
  0.484   0.000   0.485 

# solution ncray
system.time(alply(do.call("cbind",sample.list), 1,
                .fun=matrix, ncol=ncol(sample.list[[1]]), byrow=TRUE,
                dimnames=list(1:length(sample.list),names(sample.list[[1]]))))
   user  system elapsed 
 11.296   0.016  11.365

49

r performance list merge dataframe

задан smci 2 March 2015 в 23:28

0 ответов

Другие вопросы по тегам:

r performance list merge dataframe

Быстрое векторизованное слияние списка data.frames по строкам

0 ответов

Похожие вопросы: