Я наткнулся на pandas, и это выглядит идеально для простых вычислений, которые я хотел бы сделать. У меня есть опыт работы с SAS, и я думал, что он заменит proc freq — похоже, он масштабируется до того, что я могу захотеть…
Имеет ли pandas (или другой модуль) какие-либо функции для поддержки объединения (или объединения) двух таблиц на основе нескольких ключей? Например, у меня есть две таблицы (DataFrames) a и b: > > > a A B значение1 1 1 ...
Я хотел бы разделить (отфильтровать) фрейм данных, указав, какие строки не (!) Сохранять в новом фрейме данных . Вот упрощенный образец фрейма данных: данные
v1 v2 v3 v4
а в г в
а в г г
б н п г
b ...
Предположим, я иметь переменную ответа и данные, содержащие три ковариаты (в качестве игрушечного примера): y = c (1,4,6)
d = data.frame (x1 = c (4, -1,3), x2 = c (3,9,8), x3 = c (4, -4, -2)) Я хочу подобрать линейный .. .
У меня есть следующий индексированный DataFrame с именованными столбцами и строками, не являющимися непрерывными числами: a b c d 2 0.671399 0.101208 -0.181532 0.241273 3 0.446172 -0.243316 ...
Я пытаюсь получить кумулятивную сумму переменной (v) для групп ("a" и " b") внутри фрейма данных. Как я могу получить результат внизу, чьи строки правильно пронумерованы, в столбец cs...
У меня есть фрейм данных m, и я хочу удалить все строки, в которых столбец f_name имеет запись больше 3. Я предполагаю, что могу использовать что-то похожее на m <- m [-grep ("nchar ( m $ f_name)> 3 ", m $ f_name]
У меня два списка сначала = список (a = 1, b = 2, с = 3)
second = list (a = 2, b = 3, c = 4) Я хочу объединить эти два списка, чтобы конечный продукт был $ a
[1] 1 2 $ b
[1] 2 3 $ c
[1] 3 4 Есть простой ...
Привет, я хочу получить количество уникальных значений данных. count_values реализует это, однако я хочу использовать его вывод в другом месте. Как я могу преобразовать вывод .count_values в панд ...
У меня есть датафрейм в pyspark. Некоторые из его числовых столбцов содержат 'nan', поэтому, когда я читаю данные и проверяю схему dataframe, эти столбцы будут иметь тип 'string'. Как я могу измениться ...
Я хочу преобразовать таблицу, представленную в виде списка списков, в DataFrame Pandas. В качестве чрезвычайно упрощенного примера: a = [['a', '1.2', '4.2'], ['b', '70', '0.03'], ['x', '5', '0'] ] df = pd ....
У меня есть вопрос о подсчете нулей в ряду. У меня есть такой кадр данных: a = c (1,2,3,4,5,6,0,2,5) b = c (0,0,0,2,6,7,0,0,0 ) c = c (0,5,2,7,3,1,0,3,0) d = c (1,2,6,3,8,4,0,4,0) e = c (0 , 4,6,3,8,4,0,6, ...
У меня есть фрейм данных, содержащий «имена» президентов США, годы, когда они начинают и заканчивают свой пост, (столбцы «от» и «до» ). Вот пример имени :от до Билл Клинтон 1993 2001...
Новичок в Пандах, так что, может быть, мне не хватает большой идеи? У меня есть Pandas DataFrame регистровых транзакций с формой, подобной (500,4): Время datetime64 [нс] Net Total float64 Налог ...
Мне нужно отсортировать данные по кадрам в R. Все даты в форме "дд / мм / гггг". Даты указаны в 3-й колонке. Заголовок столбца V3. Я видел, как сортировать данные по столбцам ...
Мне нужно транспонировать большой фрейм данных, поэтому я использовал: df.aree <- t (df.aree)
df.aree <- as.data.frame (df.aree) Вот что я получаю: df.aree [c (1: 5), c (1: 5)] 10428 ...
Скажем, у меня есть фрейм данных, подобный этому: ID, ID_2, FIRST, VALUE
-----------------------
'а', 'аа', ИСТИНА, 2
'а', 'аб', ЛОЖЬ, Н/Д
'a', 'ac', ЛОЖЬ, Н/Д
'б', 'аа', ИСТИНА, 5
'b', 'ab', FALSE, NA Таким образом, ЗНАЧЕНИЕ равно ...
Я знаю, как добавить столбец списка:> df <- data.frame (a = 1: 3)
> df $ b <- список (1: 1, 1: 2, 1: 3)
> df a b
1 1 1
2 2 1, 2
3 3 1, 2, 3 Это работает, но не работает:> df <- data ....
У меня большой набор данных (но следующий, например, маленький). Я могу разделить фрейм данных, а затем я хочу вывести в несколько текстовых файлов, соответствующих уровню, используемому для разделения. mydata <- data....
Я хочу обновить один столбец фрейма данных, ссылаясь на него, используя исходное имя, возможно ли это? Например, скажем, у меня была таблица «данные» abc 1 2 2 3 2 3 4 1 2, и я хотел обновить ...
У меня возникли проблемы с заменой значений в кадре данных. Я хотел бы заменить значения на основе отдельной таблицы. Ниже приведен пример того, что я пытаюсь сделать. У меня есть таблица, где каждая строка ...
Я пытаюсь выполнить слияние панд и получить указанную выше ошибку из заголовка, когда пытаюсь его запустить. Я использую 3 столбца для сопоставления, тогда как непосредственно перед тем, как сделать подобное слияние только на 2 столбцах, и это работает ..
Как мы можем генерировать уникальные идентификационные номера в каждой группе фрейма данных? Вот некоторые данные, сгруппированные по "personid" :измерению даты personid. 1 х 23 1 х 32 2 года 21 3...
Я пытаюсь перенести в панд. У меня есть что-то похожее на это: A B C D E F G H I 1 2 3 4 5 6 7 8 9 Я хочу, чтобы это выглядело так: A 1 B 2 C 3 D 4 E 5 F 6 G 7 H 8 I 9
У меня есть кадр данных размером 180 000 x 400, где строки соответствуют пользователям, но у каждого пользователя есть ровно две строки. дата идентификации ... 1 2012 ... 3 2010 ... 2 2013 ... 2 2014 ... 1 2011 ...
У меня есть два data.frames, один только с символами, а другой с символами и ценности. df1 = data.frame (x = c ('a', 'b', 'c', 'd', 'e'))
df2 = data.frame (x = c ('a', 'b', 'c'), y = c (0,1,0))
merge (...
Сейчас есть много похожих вопросов, но большинство из них отвечают, как удалить дублирующиеся столбцы. Тем не менее, я хочу знать, как я могу составить список кортежей, где каждый кортеж содержит имена столбцов ...