У меня есть data.table со строкой для каждого дня в течение 30-летнего периода с несколькими различными переменными столбцами. Причина использования data.table заключается в том, что используемый мной файл .csv огромен (примерно 1,2 ...
Существует ли простой способ агрегирования (сумма, среднее значение, максимальное значение и т. д.) нескольких переменных из фрейма данных одновременно? Ниже приведены некоторые примеры данных: библиотека (смазка)
дней = 365*2
date = seq(as.Date("2000-0
(вопрос больше не актуален, поскольку новая версия data.table от 25 ноября 2016 года - см. принятый ответ ниже). Итак, у меня есть таблица с несколькими пустыми строками в середине. Когда я пытаюсь открыть его с фредом, ...
Используя таблицу data.table, какой самый быстрый способ «подметать» статистику по выбранным столбцам? Начиная с (значительно больших версий )DT p <-3 DT <-data.table(id=c("A"...
У меня есть следующая data.table: dt < - data.table (col1 = rep ("a", 6), col2 = c (1,1,1,2,3,1)) Теперь я хочу заменить все 1 в col2 со значением "bigDog". Я могу сделать это, используя дух data.frame: ...
Я пытаюсь добавить столбцы в свою таблицу данных, где имена являются динамическими. Кроме того, мне нужно использовать аргумент by при добавлении этих столбцов. Например, :test _dtb < -data.table (a = sample (1 :100,...
Я хотел бы напечатать все столбцы таблицы данных dt, кроме одного из них с именем V3, но не хочу ссылаться на него по номеру, а по имени. Это код, который у меня есть :dt = data.table (matrix (sample (c (0,...
Я иметь data.table со столбцами со 2 по 20 в виде строк с пробелами (например, «Species Name»). Я хочу запустить str_replace () для всех этих столбцов одновременно, чтобы все «Имя вида» превратилось в «...
.SD выглядит полезным, но я действительно не знаю, что я с ним делаю. Что это означает? Почему стоит предшествующий период (точка). Что происходит, когда я его использую? Я прочитал: .SD - это таблица данных ...
У меня большой код, и шаг агрегации является текущим узким местом с точки зрения скорости. В моем коде я хотел бы ускорить шаг группировки данных, чтобы быть быстрее. SNOTE (простой нетривиальный пример) ...
У меня есть вопрос по идиоме data.table для "не- joins », вдохновленный вопросом Iterator. Вот пример: library (data.table) dt1 <- data.table (A1 = letter [1:10], B1 = sample (1: 5,10, replace = ...
ОБНОВЛЕНИЕ: Старый вопрос ... он был решен с помощью data.table v1 .5.3 в феврале 2011 года. Я пытаюсь использовать пакет data.table, и мне очень нравятся получаемые ускорения, но эта ошибка ставит меня в тупик, когда я ...
Мой вопрос связан с присваиванием по ссылке или копированием в data.table. Я хочу знать, если можно удалить строки по ссылке, аналогично DT [, someCol: = NULL] Я хочу знать о DT [...
[Обновление 1: как заметил Мэтью Доул, я использую data.table версии 1.6.7 на R- Кузница, а не КРАН. Вы не увидите такого же поведения с более ранней версией data.table.] В качестве фона: я портирую некоторые ...
R имеет семантику передачи по значению, которая минимизирует случайные побочные эффекты (хорошая вещь). Однако, когда код организован во множество функций/методов для повторного использования/удобочитаемости/обслуживаемости и когда...
В этом вопросе обсуждался вопрос использования дат в data.tables. Решение - использовать встроенные классы для времени и даты. Они работают с точностью до секунды. Есть ли работа -...
У меня есть полный фрейм данных, из которого я хочу взять последний столбец и столбец v. Затем я хочу отсортировать оба столбца в v самым быстрым способом. full считывается из csv, но это можно использовать...
При загрузке .csv с помощью sqldf все идет нормально, пока я не загружу data.table. Например: library (sqldf)
write.table (tree, file = "trees.csv", row.names = FALSE, col.names = FALSE, sep = ",")
my .df <- ...
У меня есть два фрейма данных df1 и df2, каждый из которых имеет около 10 миллионов строк и 4 столбца. Я читаю их в R с помощью RODBC / sqlQuery без проблем, но когда я пытаюсь их привязать, я получаю это самое ужасное ...
Я ищу эффективный (как с точки зрения компьютерных ресурсов, так и с точки зрения обучения/реализации) метод для слияния двух больших (размер> 1 миллиона / 300 КБ файла RData) данных кадры. «объединить» в базе R и «объединить»…
Я хотел бы присоединиться к двум таблицам данных, используя дату в качестве соединения. Ну, когда-то у меня не было точного совпадения, и в этом случае я хотел бы найти ближайшую меньшую дату. Моя проблема очень похожа на...
Я изо всех сил пытаюсь эффективно выполнить сопоставление даты «закрытия» между двумя фреймами данных. В этом вопросе исследуется решение, использующее idata.frame из пакета plyr, но я был бы очень доволен другим ...
Хотелось бы, чтобы fastPOSIXct работал - но не работал в этом случае. Вот мои данные времени (у которых нет дат) - и мне нужно получить часть часов от них. раз <- c ("9:46", "11:06", "14:17", "19:53", "...
Функция available.packages() выводит список всех пакетов, доступных в CRAN. Есть ли аналогичная функция для поиска всех доступных виньеток? Если нет, то как мне получить список всех виньеток и...
Я пытаюсь субдискретизировать строки DataFrame в соответствии с группировкой. Вот пример. Скажем, я определяю следующие данные: from pandas import *
df = DataFrame ({'group1': ["a", "b", "a", "a", "b", "c", "...
У меня есть фрейм данных с примерно 200 столбцами, из них я хочу сгруппировать таблицу по первым 10 или около того, которые являются факторами, и суммировать остальные столбцы. У меня есть список всех имен столбцов, которые мне нужны ...
Есть ли способ запретить data.table печатать новую таблицу данных после назначения нового столбца по ссылке? Я понимаю, что стандартное поведение - это библиотека (data.table )пример (data.table )ДТ #х у v #1 :...
У меня есть набор данных и набор подогнанных коэффициентов. Я хочу рассчитать подходящее значение для каждой строки. dt = data.table (a = rep (c ("x", "y"), каждый = 5), b = rnorm (10), c = rnorm (10), d = ...
В моем файле более 4 миллионов строк, и мне нужен более эффективный способ преобразования моих данных в матрицу терминов корпуса и документа, чтобы я мог передать их в байесовский классификатор. Рассмотрим следующий код: ...