2
ответа

Лучший способ объединения данных в группу в кадре данных через равные интервалы

У меня есть датафрейм, который характеризуется многими различными идентификаторами. Для каждого идентификатора есть несколько событий, которые характеризуются совокупной продолжительностью времени между событиями (часами) и ...
вопрос задан: 16 January 2019 14:59
2
ответа

заменить последующий символ, если значения ряда содержат определенный набор символов в пандах

У меня есть такой фрейм данных: df: col1 col2 col3 1 123xy56 pyrxyz 3 hcv P xy12 R T 5 453xy Z 2 lxy6 Q I ...
вопрос задан: 16 January 2019 14:47
2
ответа

Почему мой питон DataFrame работает так медленно

Я создаю приложение, которое обеспечивает очень простой анализ больших наборов данных. Эти наборы данных поставляются в CSV-файлах размером более 10 миллионов строк с 30 столбцами (Мне не нужно много ...
вопрос задан: 16 January 2019 14:30
2
ответа

Преобразуйте вложенный DataFrame с отсортированными уникальными значениями во вложенный словарь в Python

Я пытаюсь взять вложенный DataFrame и преобразовать его во вложенный словарь. Вот мой оригинальный DataFrame со следующими уникальными значениями: input: df.head (5) output: reviewerName ...
вопрос задан: 16 January 2019 08:45
2
ответа

Найти корреспондентов в фреймах данных для расчета

Два кадра данных, как показано ниже, и я хочу рассчитать коэффициент корреляции. Он отлично работает, когда оба столбца заполнены фактическими значениями. Но когда они не, это берет ноль как ценность, когда ...
вопрос задан: 16 January 2019 06:08
2
ответа

Как эффективно переместить файл данных / Dask размером 67 ГБ, не загружая его полностью в память?

У меня есть 3 довольно больших файла (67 ГБ, 36 ГБ, 30 ГБ), на которых мне нужно тренировать модели. Однако элементы представляют собой строки, а образцы - столбцы. Так как Dask не реализовал транспонирование и хранит DataFrames ...
вопрос задан: 16 January 2019 01:25
2
ответа

Как проверить, присутствует ли вложенный список, а если нет, вкладывать?

У меня есть одна строка df, которая выглядит следующим образом: теги id 1 [[[band_music, fun], tv], movies] Иногда в зависимости от источника df может выглядеть так: теги id 1 [[[...
вопрос задан: 16 January 2019 00:34
2
ответа

Получение имен столбцов и количества пустых значений из df.info () pandas

У меня есть пандас DataFrame с именем df: df = {'a': [1, NaN, 2, NaN]}, ... 'b': [1, 5, 6, 6]} Я хочу список кортежей, каждый кортеж, содержащий: (column_name, #_non_null ...
вопрос задан: 15 January 2019 22:09
2
ответа

Присоединение Spark датафреймов по ключу

Я построил два кадра данных. Как мы можем объединить несколько фреймов данных Spark? Например: PersonDf, ProfileDf с общим столбцом в качестве personId как (ключ). Теперь, как мы можем иметь один Dataframe ...
вопрос задан: 6 January 2019 17:59
2
ответа

Добавить одну строку в панды DataFrame

Я понимаю, что pandas предназначен для загрузки полностью заполненного DataFrame, но мне нужно создать пустой DataFrame, а затем добавить строки, одну за другой. Каков наилучший способ сделать это? Я успешно создал ...
вопрос задан: 3 January 2019 15:25
2
ответа

Числа в качестве имен столбцов фреймов данных

Есть ли причина, почему R победил? Позволить мне иметь номер в качестве имени столбца моего кадра данных? Также заметил, что если я делаю data.frame (XX), он добавляет X ко всем заголовкам столбцов, которые имеют номера в ...
вопрос задан: 2 January 2019 18:25
2
ответа

Как я могу изменить XTS на data.frame и сохранить Индекс?

У меня есть XTS timeseries в R следующего формата, и пытаюсь сделать некоторую обработку, подмножество и реконструкцию прежде, чем экспортировать как CSV для работы в другой программе. голова (master_1)...
вопрос задан: 3 October 2018 19:15
2
ответа

pandas конвертирует серии в DataFrame без & ddpeo; dtype & rdquo; Информация

У меня есть серию под названием Sizemode со следующей структурой: В [1]: Sizemode Out [1]: 0 50000 1 248000 dtype: int64, и пока я пытаюсь создать из него файл данных ...
вопрос задан: 13 July 2018 18:53
2
ответа

Как составить список для каждой строки значений двух столбцов данных

У меня есть два столбца, и я хотел бы создать список для каждой строки. Таким образом, каждый список будет содержать два значения; значения каждого столбца для этой конкретной строки. Например: A B 1 2 3 4 5 6 Я бы ...
вопрос задан: 13 July 2018 17:51
2
ответа

Добавить имена данных в виде столбцов

Я хотел бы объединить несколько фреймов данных, но до этого я хотел бы добавить имя dataframe в качестве символьной строки в каждой записи нового столбца. Я почти там, но не вижу проблемы. ...
вопрос задан: 13 July 2018 15:06
2
ответа

создать data.frame на основе двух data.frames

Этот вопрос очень прост, но я не получаю способ сделать это, не используя цикл for, который выполняет итерацию столбца по столбцу. У меня есть два data.frames с одинаковым столбцом индекса и разными столбцами. Мне нужно ...
вопрос задан: 13 July 2018 09:30
2
ответа

Количество нулей среди нескольких столбцов

У меня есть pandas DataFrame, который имеет 10 столбцов, которые содержат либо 0, 1, либо NaN. Вот пример кадра данных, который напоминает то, что у меня есть. id col_1 col_2 col_3 'jk3' 1 1 NaN 'kp2' 1 ...
вопрос задан: 13 July 2018 08:13
2
ответа

Сохранить массив как значение в столбце Pandas

У меня есть набор данных с двумя столбцами данных категориальной метки (имена команд NBA). Я хочу использовать одну горячую кодировку для генерации двоичного, 1D-вектора в виде массива, представляющего каждую команду. Вот мой ...
вопрос задан: 13 July 2018 07:19
2
ответа

Элегантная индексация до конца вектора / матрицы

Можно ли в R сказать - мне нужны все индексы с позиции i до конца вектора / матрицы? Скажем, мне нужна подматрица с третьей колонка и далее. В настоящее время я знаю только этот способ: A = matrix (rep (1: 8, each = ...
вопрос задан: 16 June 2018 15:44
2
ответа

слияние двух строк на основе условия и результата вывода в новый столбец R [дубликат]

У меня есть dataframe следующим образом: A B C nick 1-8-2018 cat nick 1-8-2018 dog jess 5-6-2018 cat jess 5-6-2018 dog Я хотел бы объединить A и B ...
вопрос задан: 21 May 2018 07:23
2
ответа

Pyspark Взорвать два столбца массива, сохраняя при этом карту между ними [duplicate]

У меня есть фреймворк pyspark, где два столбца являются массивами и имеют один к одному соответствие (первый элемент первого массива сопоставляется первому элементу второго массива и т. Д.). Затем я создаю ...
вопрос задан: 26 December 2017 05:16
2
ответа

Что лучший способ состоит в том, чтобы не раздавать кадр данных?

У меня есть 12 data.frames для работы с. Они подобны, и я должен сделать ту же обработку каждому, таким образом, я записал функцию, которая берет data.frame, обрабатывает его и затем возвращает data.frame. Это...
вопрос задан: 14 December 2017 00:07
2
ответа

создать фрейм данных в цикле foreach apache spark [duplicate]

Я новичок в Spark Scala. Я был бы очень признателен, если бы кто-то помог мне здесь. У меня есть dataframe, называемый df. df.printSchema () root | - tab: string (nullable = true) | - cust: string (nullable = ...
вопрос задан: 17 November 2017 20:43
2
ответа

создать кадр данных из столбца, имеющего список значений в pandas [duplicate]

У меня есть рамка данных pandas с тремя столбцами. v1, v2, v3. v1 и v3 - числовые столбцы. Каждое значение в v2 представляет собой список из 128 чисел. Я хочу разбить этот список, чтобы эти 128 чисел стали 128 ...
вопрос задан: 12 October 2017 08:16
2
ответа

Фильтр по частоте данных в R [дубликат]

Я пытаюсь отфильтровать фрейм данных по частоте наблюдения, у меня есть dataframe с 70000 строк. Это часть его. Мне нужно отфильтровать, например, если в столбце ...
вопрос задан: 20 August 2017 21:56
2
ответа

Фильтр из фрейма данных на основе условия в строке [дубликат]

У меня есть dataframe, подобный следующему: s = sc.parallelize ([Row (items = [1], freq = 3), Row (items = [2], freq = 3), Row (items = [2, 1] , freq = 3), Row (items = [5], freq = 2), Row (items = [5, 2], freq = 2), Row (items = [5, ...
вопрос задан: 1 August 2017 02:56
2
ответа

Замена символа оценивает с NA в кадре данных

У меня есть кадр данных, содержащий (в случайных местах), символьное значение (скажите "нечто"), что я хочу заменить NA. Что лучший способ состоит в том, чтобы сделать так через целый кадр данных?
вопрос задан: 27 April 2017 12:54
2
ответа

Преобразование фрейма данных в xts

Я пытаюсь преобразовать фрейм данных в объект xts, используя файл as.xts () -метод. Вот мой входной кадр данных q: qtx 1 01.01.2006 00:00:00 1 2 2006-01-01 01:00:00 2 3 2006 -...
вопрос задан: 6 March 2017 14:31
2
ответа

Pandas - Как пропустить первую строку файла csv, чтобы сделать заголовок с объединением нескольких файлов csv [duplicate]

Я пытаюсь объединить список файлов csv в соответствии с приведенным ниже кодом. Однако исходный файл csv не имеет заголовка, и, следовательно, последний Dataframe берет первую строку первого файла csv как ...
вопрос задан: 23 November 2016 17:32
2
ответа

кадры данных rbind в списке списков

У меня есть список списков, который похож на это: x [[состояние]] [[год]]. Каждый элемент этого является кадром данных, и доступ к ним индивидуально не является проблемой. Однако я хотел бы к rbind кадрам данных через...
вопрос задан: 10 November 2016 11:58