0
ответов

Рассчитать среднемесячный итог по группам из таблицы data.table в R

У меня есть data.table со строкой для каждого дня в течение 30-летнего периода с несколькими различными переменными столбцами. Причина использования data.table заключается в том, что используемый мной файл .csv огромен (примерно 1,2 ...
вопрос задан: 18 April 2018 03:56
0
ответов

Агрегирование/обобщение нескольких переменных в группе (например, сумма, среднее значение)

Существует ли простой способ агрегирования (сумма, среднее значение, максимальное значение и т. д.) нескольких переменных из фрейма данных одновременно? Ниже приведены некоторые примеры данных: библиотека (смазка) дней = 365*2 date = seq(as.Date("2000-0
вопрос задан: 8 April 2018 20:24
0
ответов

Любой способ заставить fread () data.table не останавливаться на пустых строках?

(вопрос больше не актуален, поскольку новая версия data.table от 25 ноября 2016 года - см. принятый ответ ниже). Итак, у меня есть таблица с несколькими пустыми строками в середине. Когда я пытаюсь открыть его с фредом, ...
вопрос задан: 1 April 2018 22:37
0
ответов

data.tables и функция развертки

Используя таблицу data.table, какой самый быстрый способ «подметать» статистику по выбранным столбцам? Начиная с (значительно больших версий )DT p <-3 DT <-data.table(id=c("A"...
вопрос задан: 13 December 2017 09:15
0
ответов

Условная замена значений столбца на data.table

У меня есть следующая data.table: dt < - data.table (col1 = rep ("a", 6), col2 = c (1,1,1,2,3,1)) Теперь я хочу заменить все 1 в col2 со значением "bigDog". Я могу сделать это, используя дух data.frame: ...
вопрос задан: 28 August 2017 08:29
0
ответов

Имена динамических столбцов в data.table

Я пытаюсь добавить столбцы в свою таблицу данных, где имена являются динамическими. Кроме того, мне нужно использовать аргумент by при добавлении этих столбцов. Например, :test _dtb < -data.table (a = sample (1 :100,...
вопрос задан: 1 August 2017 16:40
0
ответов

Выбор подмножества столбцов в data.table

Я хотел бы напечатать все столбцы таблицы данных dt, кроме одного из них с именем V3, но не хочу ссылаться на него по номеру, а по имени. Это код, который у меня есть :dt = data.table (matrix (sample (c (0,...
вопрос задан: 1 July 2017 07:12
0
ответов

Как мне запустить приложение для таблицы data.table?

Я иметь data.table со столбцами со 2 по 20 в виде строк с пробелами (например, «Species Name»). Я хочу запустить str_replace () для всех этих столбцов одновременно, чтобы все «Имя вида» превратилось в «...
вопрос задан: 19 June 2017 15:47
0
ответов

Что означает .SD в data.table в R

.SD выглядит полезным, но я действительно не знаю, что я с ним делаю. Что это означает? Почему стоит предшествующий период (точка). Что происходит, когда я его использую? Я прочитал: .SD - это таблица данных ...
вопрос задан: 19 June 2017 14:41
0
ответов

Ускорьте работу группы data.table с помощью нескольких ядер и параллельного программирования

У меня большой код, и шаг агрегации является текущим узким местом с точки зрения скорости. В моем коде я хотел бы ускорить шаг группировки данных, чтобы быть быстрее. SNOTE (простой нетривиальный пример) ...
вопрос задан: 23 May 2017 12:18
0
ответов

не соединяется с data.tables

У меня есть вопрос по идиоме data.table для "не- joins », вдохновленный вопросом Iterator. Вот пример: library (data.table) dt1 <- data.table (A1 = letter [1:10], B1 = sample (1: 5,10, replace = ...
вопрос задан: 23 May 2017 12:15
0
ответов

R: При использовании data.table как мне получить столбцы y, когда я сделаю x [y]?

ОБНОВЛЕНИЕ: Старый вопрос ... он был решен с помощью data.table v1 .5.3 в феврале 2011 года. Я пытаюсь использовать пакет data.table, и мне очень нравятся получаемые ускорения, но эта ошибка ставит меня в тупик, когда я ...
вопрос задан: 23 May 2017 12:14
0
ответов

Как удалить строку по ссылке в data.table?

Мой вопрос связан с присваиванием по ссылке или копированием в data.table. Я хочу знать, если можно удалить строки по ссылке, аналогично DT [, someCol: = NULL] Я хочу знать о DT [...
вопрос задан: 23 May 2017 12:10
0
ответов

Перенос операций набора из фреймов данных R в таблицы данных: как идентифицировать повторяющиеся строки?

[Обновление 1: как заметил Мэтью Доул, я использую data.table версии 1.6.7 на R- Кузница, а не КРАН. Вы не увидите такого же поведения с более ранней версией data.table.] В качестве фона: я портирую некоторые ...
вопрос задан: 23 May 2017 12:10
0
ответов

R: using data.table := операции для вычисления новых столбцов

Возьмем следующие данные: dt <- data.table(TICKER=c(rep("ABC",10),"DEF"), PERIOD=c(rep(as.Date(" 2010-12-31"),10),as.Date("2011-12-31")), DATE=as.Date(c("2010-01-05","2010-01-...
вопрос задан: 23 May 2017 12:09
0
ответов

R: Передача фрейма данных по ссылке

R имеет семантику передачи по значению, которая минимизирует случайные побочные эффекты (хорошая вещь). Однако, когда код организован во множество функций/методов для повторного использования/удобочитаемости/обслуживаемости и когда...
вопрос задан: 23 May 2017 12:09
0
ответов

метки времени в миллисекундах как ключи в data.table

В этом вопросе обсуждался вопрос использования дат в data.tables. Решение - использовать встроенные классы для времени и даты. Они работают с точностью до секунды. Есть ли работа -...
вопрос задан: 23 May 2017 12:09
0
ответов

Самая быстрая сортировка по столбцам в R

У меня есть полный фрейм данных, из которого я хочу взять последний столбец и столбец v. Затем я хочу отсортировать оба столбца в v самым быстрым способом. full считывается из csv, но это можно использовать...
вопрос задан: 23 May 2017 12:08
0
ответов

конфликты маскировки

При загрузке .csv с помощью sqldf все идет нормально, пока я не загружу data.table. Например: library (sqldf) write.table (tree, file = "trees.csv", row.names = FALSE, col.names = FALSE, sep = ",") my .df <- ...
вопрос задан: 23 May 2017 12:03
0
ответов

R: как связать два огромных фрейма данных без нехватки памяти

У меня есть два фрейма данных df1 и df2, каждый из которых имеет около 10 миллионов строк и 4 столбца. Я читаю их в R с помощью RODBC / sqlQuery без проблем, но когда я пытаюсь их привязать, я получаю это самое ужасное ...
вопрос задан: 23 May 2017 11:46
0
ответов

Эффективные альтернативы слиянию для больших data.frames R

Я ищу эффективный (как с точки зрения компьютерных ресурсов, так и с точки зрения обучения/реализации) метод для слияния двух больших (размер> 1 миллиона / 300 КБ файла RData) данных кадры. «объединить» в базе R и «объединить»…
вопрос задан: 23 May 2017 11:33
0
ответов

Присоединяйтесь к data.table с точной датой или, если это не так, с ближайшей датой меньше

Я хотел бы присоединиться к двум таблицам данных, используя дату в качестве соединения. Ну, когда-то у меня не было точного совпадения, и в этом случае я хотел бы найти ближайшую меньшую дату. Моя проблема очень похожа на...
вопрос задан: 23 May 2017 10:29
0
ответов

R - Ускорение приблизительного совпадения даты. idata.frame?

Я изо всех сил пытаюсь эффективно выполнить сопоставление даты «закрытия» между двумя фреймами данных. В этом вопросе исследуется решение, использующее idata.frame из пакета plyr, но я был бы очень доволен другим ...
вопрос задан: 23 May 2017 10:29
0
ответов

Самый быстрый способ извлечь час из времени (ЧЧ: ММ)

Хотелось бы, чтобы fastPOSIXct работал - но не работал в этом случае. Вот мои данные времени (у которых нет дат) - и мне нужно получить часть часов от них. раз <- c ("9:46", "11:06", "14:17", "19:53", "...
вопрос задан: 9 May 2017 00:02
0
ответов

доступные виньетки CRAN

Функция available.packages() выводит список всех пакетов, доступных в CRAN. Есть ли аналогичная функция для поиска всех доступных виньеток? Если нет, то как мне получить список всех виньеток и...
вопрос задан: 23 January 2017 19:59
0
ответов

Как эффективно выполнить субдискретизацию большого DataFrame по группам с помощью pandas?

Я пытаюсь субдискретизировать строки DataFrame в соответствии с группировкой. Вот пример. Скажем, я определяю следующие данные: from pandas import * df = DataFrame ({'group1': ["a", "b", "a", "a", "b", "c", "...
вопрос задан: 4 January 2017 20:17
0
ответов

Группировка по нескольким столбцам и суммирование других нескольких столбцов

У меня есть фрейм данных с примерно 200 столбцами, из них я хочу сгруппировать таблицу по первым 10 или около того, которые являются факторами, и суммировать остальные столбцы. У меня есть список всех имен столбцов, которые мне нужны ...
вопрос задан: 8 November 2016 13:12
0
ответов

как подавить вывод при использовании `:= `в R {data.table} до v1.8.3?

Есть ли способ запретить data.table печатать новую таблицу данных после назначения нового столбца по ссылке? Я понимаю, что стандартное поведение - это библиотека (data.table )пример (data.table )ДТ #х у v #1 :...
вопрос задан: 22 September 2016 14:01
0
ответов

R data.table dot product с соответствующими именами столбцов (для каждой группы)

У меня есть набор данных и набор подогнанных коэффициентов. Я хочу рассчитать подходящее значение для каждой строки. dt = data.table (a = rep (c ("x", "y"), каждый = 5), b = rnorm (10), c = rnorm (10), d = ...
вопрос задан: 3 August 2016 13:25
0
ответов

Более эффективные средства для создания корпуса и DTM с 4M строк

В моем файле более 4 миллионов строк, и мне нужен более эффективный способ преобразования моих данных в матрицу терминов корпуса и документа, чтобы я мог передать их в байесовский классификатор. Рассмотрим следующий код: ...
вопрос задан: 15 July 2016 02:23