0
ответов

Сохранить форму после группового

Итак, допустим, у меня есть df, который является частотой животных в разных домах: Частота животных 0 Собака 5 1 Кошка 7 2 Кошка 2 3 Рыба 2 4 Собака 8 Теперь допустим, что мне все равно ...
вопрос задан: 29 March 2019 12:19
0
ответов

Сложные функции от Python до Pyspark - РЕДАКТИРОВАТЬ: проблема конкатенации (я думаю)

Я пытаюсь преобразовать функцию панды на двух фреймах данных в функцию pyspark. В частности, у меня есть дата-кадр ключей и функций в виде строк, а именно: > мв | Ключи | Формула ...
вопрос задан: 29 March 2019 11:41
0
ответов

Получение NewsId с помощью Lead Paragraph и web_url с использованием Cosine Similarity

Я пытаюсь получить рекомендуемые news_id с помощью lead_paragraph и web_url, используя косинусное сходство. В моем наборе данных есть 3 столбца news_id, lead_paragraph, web_url. Следующий код возвращает только ...
вопрос задан: 29 March 2019 11:33
0
ответов

Есть ли более быстрый способ конвертировать большой файл из шестнадцатеричного в двоичный и двоичный в int?

У меня большой DataFrame (1999048 строк и 1col) с шестнадцатеричными данными. Я хочу поместить каждую строку в двоичную форму, разрезать ее на части и преобразовать каждую часть в десятичном формате. Я попробовал это: для меня в диапазоне ...
вопрос задан: 29 March 2019 10:43
0
ответов

Pickle-загрузка более 1 строки файла модели pkl

Файл, о котором идет речь, имеет такие строки при открытии с помощью Notepad ++: € X Neural Networksq. €] q (X ClassificationqKX Team1 winq] q (X Team1qX Team2qe] q (X Team1_rankqX Team2_rankqX Diff1q X ...
вопрос задан: 29 March 2019 06:09
0
ответов

Создание нового столбца на условных двух других столбцах панд

У меня есть датафрейм с двумя столбцами. Я хочу создать новый столбец и ввести любой столбец с самой длинной строкой. итак column_a column_b column_c 0 "собака быстра" "...
вопрос задан: 29 March 2019 02:27
0
ответов

Перемещение строковых данных в новые столбцы, где число значений является произвольным

Я извлекаю собственные существительные из столбца, содержащего строковые данные. Я хочу переместить извлеченные существительные в новый столбец в виде списка (или, в качестве альтернативы, как одно существительное на дополнительный столбец). Есть ...
вопрос задан: 28 March 2019 23:10
0
ответов

Панды: воссоздание сводных таблиц с использованием группового

У меня есть такой фрейм данных: df = pd.DataFrame ({'country': ['usa', 'canada', 'usa', 'canada', 'mexico', 'usa'], 'color': [' серебро »,« коричневый »,« коричневый »,« черный »,« серебро »,« черный »], ...
вопрос задан: 28 March 2019 22:28
0
ответов

Функция Numpy Rate на большом наборе данных, возвращающая нули

Я использую функцию NumPy Rate для того, чтобы имитировать функцию Excel Rate по кредитам. Функция возвращает правильный результат при работе с подмножеством моего фрейма данных (1 миллион записей). ...
вопрос задан: 28 March 2019 20:00
0
ответов

Почему pandas dayofyear возвращает 366 строк после того, как я удалил високосные дни?

У меня есть фрейм данных, который содержит данные о максимальной и минимальной температуре за 11 лет (с 2005 по 2015 год). Я пытаюсь найти самую высокую и самую низкую температуру для каждого дня года в течение 10-летнего периода ...
вопрос задан: 28 March 2019 09:05
0
ответов

Написать таблицу панд в pdf

Я пытаюсь написать таблицу панд, написанную с таблицей в PDF или текст. У меня проблемы с этим, потому что большинство авторов PDF-файлов выдают мне ошибку об Unicode. Любых предложений было бы много ...
вопрос задан: 28 March 2019 01:46
0
ответов

Ошибка TypeEr: списочные индексы должны быть целыми или кусочками, а не str, при попытке выполнить одно горячее кодирование с помощью get_dummies

не позволяйте мне горячо кодировать этот столбец, чтобы сделать его в двоичном виде, любая идея почему, не понимает опечатка. В прошлом ИТ отлично работало с теми же данными, не зная, что происходит ...
вопрос задан: 27 March 2019 18:14
0
ответов

Ошибка при попытке & ldquo; groupby & rdquo; этот проект через панд в питоне

Я хочу построить систему рекомендаций и следовать учебнику. Я пытаюсь сгруппировать эти столбцы, но у меня куча странных ошибок, и я не могу понять, почему. импортировать numpy как np импортировать pandas как pd ...
вопрос задан: 27 March 2019 13:38
0
ответов

Ошибка повторной выборки панд в AWS Ubuntu?

AWS Ubuntu 18.04 Когда я запускаю следующую программу на моей локальной машине, она работает без проблем. Однако на AWS выдает ошибку памяти. Я видел кучу вопросов / ответов, но ни один из них, казалось, не ...
вопрос задан: 27 March 2019 11:20
0
ответов

Назначение для DataFrame не работает, но dtypes изменился

Назначение для DataFrame не работает, но dtypes изменился. Новичок в науке о данных, я хочу назначить target_frame для empty_frame, но он не работает до повторного назначения И во время выполнения заданий ...
вопрос задан: 27 March 2019 06:44
0
ответов

Dask Dataframe: определение меты для различий в датах

Я пытаюсь найти время между покупками (то есть, дни между заказами) для клиентов. Хотя мой код работает правильно без определения мета, я бы хотел, чтобы он работал правильно и больше не ...
вопрос задан: 26 March 2019 17:56
0
ответов

создать статус через строки

Значения соответствуют виду плана, который есть у клиента: хотя столбцы (периоды) df: customer 0 | 1 | 2 | 3 | 4 | 5 | 6 | 7 | 8 | 9 | 10 | 11 | 12 .. ,
вопрос задан: 26 March 2019 13:47
0
ответов

Панды, сложите несколько столбцов, снимите другие

Чистые данные панд, разбросанные переменные из одного столбца, собранные из другого Моя проблема Мне нужно преобразовать приведенный ниже кадр данных в аккуратный формат, где каждая строка будет уникальной ['GEOG_CODE', 'COUNTRY'] - '...
вопрос задан: 25 March 2019 21:32
0
ответов

Написать список в Excel, все числа в одном столбце

Любые идеи о том, как я могу получить эти значения в отдельных столбцах? Проверьте картинку ниже. импорт панд как pd импорт numpy как np импорт matplotlib.pyplot как plt импорт seaborn как sns импорт ...
вопрос задан: 25 March 2019 18:38
0
ответов

Как я могу преобразовать фрейм данных с несколькими возможными значениями в одном столбце в более двоичные объекты? [Дубликат]

Рассмотрим следующий кадр данных панд, в [1]: d = {'ID': [1, 1, 1, 2, 3, 4, 4], 'PROPERTY': ['A', 'B', 'C' , 'A', 'D', 'A', 'B']} В [2]: test_df = pd.DataFrame (data = d) В [3]: test_df Out [3]: ID ...
вопрос задан: 25 March 2019 17:18
0
ответов

Расчет последнего значения для таймфрейма

У меня есть таблица, где мне нужно рассчитать максимальное значение последнего значения в скользящий период времени 15 минут. Ожидаемый столбец - это столбец «MAX». Я хотел бы получить максимальное значение Last для ...
вопрос задан: 25 March 2019 15:39
0
ответов

Выбрать по частичной строке из кадра данных pandas

У меня есть DataFrame с 4 столбцами, 2 из которых содержат строковые значения. Мне было интересно, есть ли способ выбрать строки на основе частичного совпадения строк с определенным столбцом? Иными словами, а...
вопрос задан: 25 March 2019 00:22
0
ответов

обмен ошибками измерений в 2d массиве

У меня есть очень большие данные оценки деформаций, которые я импортирую как 2d массивы в Python. Краткий пример: X = np.array ([[210, 211, 209, 10000, 215, -5000], [220, 221, 219, 10000, 225, ...
вопрос задан: 24 March 2019 19:59
0
ответов

Python панды: рассчитать скользящее среднее на основе нескольких критериев

У меня есть датафрейм, который показывает значение закрытия для группы акций за последние 10 дней. Имеет индекс даты и времени & amp; акции могут быть идентифицированы по их названию / коду. Можете ли вы помочь мне понять, как ...
вопрос задан: 24 March 2019 19:45
0
ответов

Обработка чисел в формате Excel

Я читаю файл CSV, который был сгенерирован другой системой, и у них есть некоторые столбцы, числовые значения которых отформатированы для чего-то вроде «3.6417E + 11». Этот CSV размещен в удаленном SFTP и ...
вопрос задан: 23 March 2019 21:13
0
ответов

Проблемы с загрузкой str.get_dummies () panda df из csv

У меня есть файл CSV, содержание которого содержит экспертов и список навыков, которые он / она знает примерно так: 0 «Производительность», «Данные» 1, «Компиляция», «Алгоритмы», 3 «Данные», «Алгоритмы».
вопрос задан: 23 March 2019 20:11
0
ответов

Как исправить ошибку форм массива Numpy и TPOT?

Я пытаюсь передать функцию и пометить массив numpy в train_test_split. Объекты представляют собой один столбец (дата-время dtype преобразуется в целое число). В массиве меток содержится 900 наблюдений. ...
вопрос задан: 22 March 2019 23:48
0
ответов

Как найти вероятность подпоследовательностей, полученных из последовательностей в данном наборе данных?

У меня есть набор данных (файл CSV) последовательности ссылок с их порядком размещенных статусов для каждой последовательности. Я получил подпоследовательности с их счетом с помощью алгоритма prefixSpan (как описано здесь). ...
вопрос задан: 22 March 2019 12:47
0
ответов

сохранить случайное наименьшее значение на строку в наборе данных Python Pandas

У меня есть dataframe, где каждая строка ранжируется по нескольким атрибутам по сравнению со всеми другими строками Одна строка может иметь одинаковый ранг в 2 атрибутах (то есть строка может быть лучшей в нескольких атрибутах), например
вопрос задан: 21 March 2019 09:48
0
ответов

Pandas Dataframe mask на основе номера строки / индекса

У меня есть следующие данные: Индекс Открыть Высокий Низкий Закрыть 0 2016-01-22 7355.70 7433.40 7327.60 7422.45 1 2016-01-25 7468.75 7487.15 7421.20 7436.15 2 2016-01-27
вопрос задан: 21 March 2019 02:47