15
ответов

Самый быстрый способ слияния больших наборов данных [дубликат]

Переработка текущего процесса с двумя кадрами данных. DF1 - строки из 65kish, 15 столбцов DF2 - 300kish строк, 270 столбцов. Мы объединяем zip как таковой: newdf & lt;-merge (df1, df2, by.x = "ZipA", by.y = ...
вопрос задан: 22 March 2017 17:14
7
ответов

Присоедините таблицу к себе по следующему значению [duplicate]

У меня есть таблица с переменной группировки и переменной времени. Я хочу рассчитать для каждого наблюдения, сколько времени это происходит до следующего наблюдения (внутри групп). Моя идея состояла в том, чтобы присоединиться к столу с ...
вопрос задан: 4 February 2013 16:59
5
ответов

Вычислить максимальное значение для нескольких столбцов несколькими группами

У меня есть файл данных с числовыми значениями в трех столбцах и двух переменных группировки (ID и Группа), из которых мне нужно вычислить одно максимальное значение по ID и Group: structure (list (ID = structure (c (1L, ...
вопрос задан: 13 July 2018 19:51
5
ответов

как отделить строку, разделенную запятыми, в столбце таблицы данных во множество столбцов [duplicate]

У меня есть datatable, который имеет столбец, который имеет целую цепочку целых чисел, разделенную запятой, разной длины. Я хочу, чтобы каждый элемент находился в отдельном столбце. Я попробовал stringr :: str_extract и базу ...
вопрос задан: 4 March 2015 04:51
4
ответа

Как применить таблицу к нескольким столбцам с data.table?

Скажем, у меня есть таблица данных. Prueba - таблица данных (aa = 1: 7, bb = c (1,2, NA, NA, 3,1,1), cc = c (1,2, NA, NA, 3,1,1), YEAR = c (1,1,1,2,2,2,2)) и я хочу ...
вопрос задан: 16 January 2019 21:48
4
ответа

К чему с более высокими характеристиками альтернативно для циклов для данных подмножества идентификатором группы?

Повторяющаяся аналитическая парадигма, с которой я встречаюсь в своем исследовании, является потребностью к подмножеству на основе всех значений идентификаторов другой группы, выполняя статистический анализ каждой группы в свою очередь, и вставляя результ
вопрос задан: 29 May 2018 10:06
4
ответа

Добавьте 0 в таблицу данных, где конец 0 был опущен [дубликат]

Я узнал, что по моим исходным данным у меня есть поля, которые постоянно следуют за потреблением гранул. Однако, когда число заканчивалось на 0, нуль был опущен, и поэтому я хотел бы ...
вопрос задан: 11 November 2015 19:42
3
ответа

regex R - извлечь строку между запятыми

Поскольку мой CSV-файл поврежден, я считываю его в R, используя: dataDT < - data.table :: fread ("... / test.csv", sep = NULL). И это дает набор данных примерно так: dataDT < - data.table ("ColA, ColB, ColC, ...
вопрос задан: 27 June 2019 00:30
3
ответа

Как сделать Countifs в R

Данные: set.seed (42) df1 = data.frame (Date = seq.Date (as.Date ("2018-01-01"), as.Date ("2018-01-30"), 1), значение = выборка (1:30), Y = выборка (c («да», «нет»), 30, заменить = ИСТИНА)) df2 = data.frame (...
вопрос задан: 27 March 2019 08:46
3
ответа

Слияние, когда один из столбцов является списком, создание нового столбца, который является списком

У меня есть два набора данных, которые я хочу объединить. Один из столбцов, который я хочу использовать в качестве ключа для слияния, имеет значения в списке. Если какое-либо из этих значений появится в столбце второго набора данных, я хочу ...
вопрос задан: 18 March 2019 17:29
3
ответа

Более быстрый эквивалент group_by% >% в R

Я пытаюсь создать последовательность лет для нескольких идентификаторов в R. Моя входная таблица содержит по одной строке для каждого идентификатора и дает Start_year. Это выглядит так: ID Start_year 01 1999 02 ...
вопрос задан: 11 March 2019 13:57
3
ответа

Round and signif и merge data.table проблема неправильного объединения [duplicate]

Я столкнулся с проблемой слияния, и, похоже, проблема связана с некоторыми внутренними механизмами, которые я не могу понять. У меня есть два data.table со столбцом, общим для слияния, в dt1 столбец был ...
вопрос задан: 30 May 2018 19:56
3
ответа

Как сделать, data.table объединяет операцию

примечание: этот вопрос и следующие ответы относятся к data.table версиям <1.5.3; v. 1.5.3 был выпущен в феврале 2011 для решения этого вопроса. посмотрите более свежую обработку (03-2012): Перевод SQL...
вопрос задан: 23 May 2017 01:55
3
ответа

r используя переменную имени столбца таблицы данных в вызове функции [дубликат]

Я работаю над структурой таблиц данных, и я хочу создать новый столбец на основе вызова функции, использующей столбец существующей таблицы данных. Вот мой текущий код: `for (i in 1: nbNewColumns) ...
вопрос задан: 19 March 2016 13:33
3
ответа

Передача целочисленных переменных в виде столбцов в функции, используемых в таблице данных [duplicate]

У меня проблема с колонками в отношении таблиц данных (по крайней мере, я думаю, что столбцы являются источником моей проблемы). Предположим, у меня есть следующая таблица данных dt: z V1 V2 y 1: a 1 5 ...
вопрос задан: 5 June 2013 16:29
2
ответа

Ненормальные записи

У меня есть эти данные. Таблица A: Характеристики личности1 A 1 A 1 A 2 A 1 A 1 A ...
вопрос задан: 18 March 2019 17:09
2
ответа

Подсчет строк, соответствующих критериям относительно текущей строки

У меня есть структурированный фрейм данных (но на самом деле он содержит ~ 400 тыс. Строк): библиотека (data.table) df < - fread ("id end end 174095 2018-12-19 2018-12-31 227156 2018-12-19 2018-12-31 210610 ...
вопрос задан: 6 March 2019 18:02
2
ответа

Совокупность только в определенных строках с data.table

У меня есть data.table, который довольно большой. Я хотел бы сделать некоторую агрегацию только для выбора строк, но используя все данные (т. Е. Не только строки выбора). Вот пример: library (data.table) ...
вопрос задан: 13 July 2018 14:14
2
ответа

Печать данных. Таблица работает только во втором вызове. Странное поведение [дубликат]

Я использую последнюю версию data.table: & gt; packageVersion ("data.table") # [1] '1.11.4' Рассмотрим этот пример: df & lt; - data.frame (id = c (rep (1,5), rep (2,4)), subgrp = rep (буквы [1: 3], ...
вопрос задан: 25 May 2018 10:11
2
ответа

Использование оператора% like% в R [дубликат]

библиотека (data.table) testvar & lt; - 'A (новая) переменная' testvar% like% 'A (new)' # [1] FALSE testvar% like% '(new)' # [1] TRUE Каков правильный путь использовать% like% operator, и в этом случае первый ...
вопрос задан: 7 June 2016 05:23
2
ответа

Ошибка, когда rbindlist в data.table в R [дубликат]

Я получаю эту ошибку при попытке получить таблицу данных. Есть ли способ решить эту проблему? Ошибка в FUN (X [[i]], ...): ожидаемый sep (','), но новая строка, EOF (или другой непечатаемый символ) завершает поле 0 ...
вопрос задан: 18 March 2016 12:45
2
ответа

Замените значения NA минимальным наблюдаемым значением на группу [duplicate]

Хотя есть некоторые подобные вопросы, я не могу найти один ответ, который относится к моему делу в частности. Я просто хочу заменить отсутствующие значения (NA) в моем фрейме данных mydf с минимальным значением ...
вопрос задан: 13 October 2014 09:59
2
ответа

Как data.table :: setkey сортирует символы в R? [Дубликат]

Я нашел в data.table package setkey function не сортирует значения символов, такие как base :: sort. Какова логика сортировки символов в setkey, и как я могу сделать setkey и sort ...
вопрос задан: 20 August 2013 14:48
2
ответа

Эффективно заменить все значения, превышающие 0, на 1 в массиве данных [дублировать]

У меня есть огромный объект data.table (100 строк по 10 ^ 7 столбцов), который я хочу преобразовать все ненулевые значения в 1. Ниже приводится способ, которым я сейчас это делаю, но преобразовывая в матрицу с этим большим ...
вопрос задан: 10 November 2012 18:52
2
ответа

data.table и “должен оценить для списка” Ошибки

Я хотел бы использовать data.table пакет в R для динамичной генерации агрегирований, но я сталкиваюсь с ошибкой. Ниже, позвольте my.dt иметь тип data.table. пол <-c ("M", "F", "M", "F") возраст <-c (...
вопрос задан: 15 July 2010 03:41
1
ответ

образец из data.table

У меня есть некоторые data.table, из которого я хочу выбрать случайное подмножество, но только для некоторых операций. Предположим, что данные dat < - data.table (id = 1: 100, group = sample (1: 20,100, replace = TRUE), a = runif (...
вопрос задан: 27 June 2019 19:05
1
ответ

Выполнение записей счета во временных рядах в соответствии с условием

У меня есть игрушечный набор данных с отметкой времени и ценой: time < - c (as.POSIXlt ("2017-02-03 09:00:01"), as.POSIXlt ("2017-02-03 09:00 : 03 "), as.POSIXlt (" 2017-02-03 09:00:06 "), ...
вопрос задан: 26 March 2019 14:03
1
ответ

Объединить агрегированные данные с возвратом реальных значений в R

В двух наборах данных есть ключевые столбцы ad_set_id.1 (из att1) и ad_set_id из (sp1) (к этим столбцам присоединяются данные) Здесь количество категорий. Например, 23842689912150735 имеет 4 строки > att1 # A ...
вопрос задан: 18 March 2019 13:20
1
ответ

data.table выбирает строки по условию другого условия

У меня есть заданный тип данных AB 1 2 3 4 3 2 2 1 Я хотел бы выбрать строку с максимальным A. Если существует более одной строки с максимальным A, я выберу строку с максимальным B из .. ,
вопрос задан: 21 February 2019 04:43
1
ответ

Как эффективно определить максимальную разницу между значением переменной в каждой строке и той же переменной в последующих значениях строки в data.table в R

Как наиболее эффективно определить максимальную положительную разницу между значением (X) для каждой строки и последующими значениями той же переменной (X) в группе (Y) в data.table в R. ...
вопрос задан: 19 January 2019 23:59