1
ответ

Пользовательская группировка для всех возможных групп при наличии пропущенных значений

У меня есть словарь, который представляет набор продуктов. Мне нужно найти все дубликаты продуктов в этих продуктах. Если продукты имеют одинаковый product_type, цвет и размер -> они являются дубликатами. Я мог бы ...
вопрос задан: 19 March 2019 09:00
1
ответ

Кадр данных от длинного к широкому с использованием двух столбцов в качестве переменных

Я хочу изменить следующие данные от длинного к широкому, используя и port1, и port2 в качестве переменных интереса
вопрос задан: 19 March 2019 08:00
1
ответ

Слияние двух столбцов с неуникальными строками и NaNs в пандах

У меня есть два столбца в кадре данных df: A B 0 NaN NaN 1 3,14 NaN 2 NaN 4,20 3 3,65 0,68 Ожидаемый результат для df: A B C 0 NaN NaN NaN 1 3,14 NaN 3,14 2 NaN 4,20 4,20 3 3,65 ...
вопрос задан: 19 March 2019 03:44
1
ответ

Ошибка в df $ лошадиных силах: объект типа 'замыкание' не может быть подмножеством

Ошибка в df $ лошадиных силах: объект типа 'замыкание' не является поднабором `библиотека (nnet) библиотека (ISLR) df < - Auto df < - na.omit (df) glimpse (df) имена строк (df) < - c () neural_formul = df $ ...
вопрос задан: 18 March 2019 18:18
1
ответ

Удаление выпадающих значений создает пустые значения в панде

У меня есть ненулевой dataframe df, который имеет около 100 столбцов. Я хочу удалить выбросы из каждого столбца, для чего я делаю следующее. df1 = df [np.abs (df - df.mean ()) < = (3 * df.std ())] Я бы ...
вопрос задан: 18 March 2019 17:49
1
ответ

объединить и развернуть 2 кадра данных

Мне нужен способ объединить и развернуть два кадра данных. Так что в этом упрощенном примере мне нужно объединить по типу и развернуть график так, чтобы он появлялся в каждой строке нового фрейма данных, где он соответствует типу. ...
вопрос задан: 18 March 2019 17:00
1
ответ

Нахождение среднего из трех последовательных строк в пандах и групповых

У меня есть набор данных GPS (в формате CSV) сотен людей, и я должен изучить мобильность их. Мне удалось вычислить расстояние между каждой из двух точек, а затем вычислить скорость по ...
вопрос задан: 18 March 2019 12:49
1
ответ

Pandas - возвращает последний / первый день месяца в пользовательском указателе даты и времени

Я использую мульти-индексный столбец данных с пользовательскими датами (определенные праздники, будни ...). DatetimeIndex (['1989-01-31', '1989-02-01', '1989-02-02', '1989-02-03', '1989-02-06', '1989-02-07' ...
вопрос задан: 18 March 2019 01:56
1
ответ

Pandas - агрегирование значения столбца из другого кадра данных на основе общего столбца между двумя кадрами данных

У меня есть 2 разных кадра данных, например, и мне нужно добавить столбец «Present In» к первому кадру данных, в котором перечислены все элементы в C, которые соответствуют K ID во втором кадре данных. Итак ...
вопрос задан: 18 March 2019 00:19
1
ответ

Замените некоторые значения в кадре данных на NaN, если индекс строки не существует в другом кадре данных

У меня действительно большой массив данных, похожий на этот: CustomerId Latitude Longitude 0. a x1 y1 1. a x2 y2 2. b x3 y3 3. ...
вопрос задан: 17 March 2019 23:49
1
ответ

r удалить элементы из списка во фрейме данных

У меня есть фрейм данных, в котором есть список Id lists 1 5,2,3 2 2,3,4 Я хотел удалить элемент из списка, который совпадает с другим столбцом Id lists 1 5,2,3 2 3,4
вопрос задан: 14 March 2019 19:50
1
ответ

заменить пустой список значениями в другом столбце в панде

Я пытаюсь заменить список значений в одном столбце другим столбцом, ниже приведены данные и сценарий, которые я использую old = [[51, 1], [52, 1], [53, -1], [], [54 , 0] ...
вопрос задан: 11 March 2019 14:52
1
ответ

Удаление строк в DataFrame с помощью условий для значений столбцов, равных None

У меня есть датафрейм, в котором есть столбец «статус», я пытаюсь удалить все строки, в которых столбцы «статус» содержит значение «Нет». Я сделал это так: oppty_oppline.dropna (subset = ['status']) Но "...
вопрос задан: 11 March 2019 13:40
1
ответ

Spark DataFrame в XML-файл

Я новичок в программировании Scala / Spark, и мне нужно сохранить DataFrame в виде файла XML, я получаю DataFrame из запроса HQL (Hive). Это простой DataFrame (без массивов или другого сложного типа), я уже ...
вопрос задан: 10 March 2019 00:08
1
ответ

Эффективный способ генерировать большие рандомизированные данные в Spark

Я пытаюсь создать большой случайный набор данных искры. По сути, я хочу начать с 2018-12-01 09:00:00, и для каждой новой строки отметка времени будет меняться на scala.util.Random.nextInt (3) секунды (...
вопрос задан: 9 March 2019 23:57
1
ответ

Python: Как выбрать определенные столбцы путем нарезки для замены значений NaN после группового?

Предполагая, что мы имеем df следующим образом , 5], 'Col3': [2, None, None, 3, None, None, 4], ...
вопрос задан: 9 March 2019 16:11
1
ответ

поиск информации общего столбца - наименее распространенный вопрос предка

У меня есть объект data.frame, состоящий из столбцов информации в виде дерева. Например, я выполнил поиск набора функций (query_name) и возвратил набор потенциальных совпадений (...
вопрос задан: 7 March 2019 16:15
1
ответ

Дата графика против времени. питон

У меня есть данные о преступности из Сан-Франциско. Мои исходные данные выглядят так. Данные из Сан-Франциско Короче говоря, мне нужно построить график зависимости времени от времени (после некоторой фильтрации) и создать ...
вопрос задан: 7 March 2019 13:48
1
ответ

Как конвертировать String в spark.sql.Column для запросов?

Ситуация такова, что я хочу дать пользователю возможность отфильтровывать данные из кадра данных. Прогамматически я могу сделать это нормально, как это. val filter = col ("SomeColA") > 0,1 & amp; Col (»...
вопрос задан: 6 March 2019 16:13
1
ответ

Запись словаря данных в один файл

Попытка захватить несколько лет ежедневно обновляемых 2-D таблиц. Я могу скачать их в словарь данных. Попытка записать его в файл CSV, поэтому мне не нужно загружать его каждый раз. Импортировать ...
вопрос задан: 6 March 2019 12:08
1
ответ

Переназначение значений столбцов в группах переменных

У меня есть этот конкретный кадр данных, и я хотел бы провести некоторые манипуляции с этим. По сути, я хочу разбить значения так, чтобы каждая запись в столбце зарплаты перемещалась вверх, чтобы заменить ранее ...
вопрос задан: 6 March 2019 08:58
1
ответ

Процент прогнозирования неверен (логическая ошибка)

В приведенном ниже коде я пытался предсказать вероятность диабета. В разделе, в котором я хочу вычислить процент истинного ложного во фрейме данных, и код для этой обязанности выглядит следующим образом ...
вопрос задан: 5 March 2019 16:43
1
ответ

новый кадр данных в операторе if. питон

Вот часть кода, с которой у меня возникают проблемы: для диапазона х (len (df ['Days'])): if df ['Days'] [x] > 0 и df ['Days'] [x] < = 30: b = df ['Days'] [x] b Результат, который я получаю: b = 14 ...
вопрос задан: 5 March 2019 15:54
1
ответ

Обновите и объедините DataFrame с уровнями иерархии в цикле for

У меня есть набор файлов (25 файлов) в каталоге. Мне нужно загрузить все файлы данных в один DataFrame, не теряя ссылки на имя файла. Файловая структура (df): дата Var1 Var2 Var3 ...
вопрос задан: 5 March 2019 15:21
1
ответ

Изменение в одном столбце должно измениться и в другом столбце

У меня есть две колонки, скажем, A и B: A B A12 A14 A13 A22 B54 A43 B43 B52 A43 B52 A43 B53 и так далее. Когда я пытаюсь изменить A, записи в B остаются прежними, они не меняются ...
вопрос задан: 5 March 2019 11:24
1
ответ

Sklearn PCA: правильная размерность ПК

У меня есть датафрейм, df, который содержит столбец с именем 'event', в котором есть массив 24x24x40. Я хочу: извлечь этот массив NumPy; сплющить его в вектор 1x23040; добавить эту запись как ...
вопрос задан: 5 March 2019 10:39
1
ответ

Заменить имя столбца Dataframe

У меня есть фрейм данных со столбцами ниже: «ТЕРРИТОРИЯ», «ПОЛЕ ИЗУЧЕНИЯ», «ВЫБЕРИТЕ ГОД Т (АКАДЕМИЧЕСКИЙ ГОД = Т-1 ИЛИ Т)», «ЗНАЧЕНИЕ» Я хочу заменить «ГОД», если имя столбца фрейма данных содержит «ВЫБОР» ГОД". ...
вопрос задан: 5 March 2019 08:11
1
ответ

Подсчет строк с 1 или более NaN в Dataframe

У меня есть следующее: print (df.isna (). Sum ()) Что дает мне: город 2 страна 0 тест 0 дом 1807 номер_дома 248 po_box ...
вопрос задан: 5 March 2019 06:09
1
ответ

Каков наиболее эффективный способ хранения списка внутри столбца панд?

У меня есть датафрейм для панд, содержащий 100 миллионов твитов. Я извлек URL-адреса из данных и в настоящее время храню их в виде списка в столбце панд: Dataframe Я хочу провести анализ этих URL-адресов ...
вопрос задан: 5 March 2019 05:17
1
ответ

Создание нового фрейма данных из применения функции ко всей ячейке фрейма данных

У меня есть фрейм данных, df, например: data = {'A': ['Jason (121439)', 'Molly (194439)', 'Tina (114439)', 'Jake (127859)', 'Amy ( 122579) '],' B ': [' Bob (127439) ',' Mark (136489) ',' Tyler (121443) ...
вопрос задан: 5 March 2019 01:07