Итак, допустим, у меня есть df, который является частотой животных в разных домах: Частота животных 0 Собака 5 1 Кошка 7 2 Кошка 2 3 Рыба 2 4 Собака 8 Теперь допустим, что мне все равно ...
Я пытаюсь преобразовать функцию панды на двух фреймах данных в функцию pyspark. В частности, у меня есть дата-кадр ключей и функций в виде строк, а именно: > мв | Ключи | Формула ...
Я пытаюсь получить рекомендуемые news_id с помощью lead_paragraph и web_url, используя косинусное сходство. В моем наборе данных есть 3 столбца news_id, lead_paragraph, web_url. Следующий код возвращает только ...
У меня большой DataFrame (1999048 строк и 1col) с шестнадцатеричными данными. Я хочу поместить каждую строку в двоичную форму, разрезать ее на части и преобразовать каждую часть в десятичном формате. Я попробовал это: для меня в диапазоне ...
Файл, о котором идет речь, имеет такие строки при открытии с помощью Notepad ++: € X Neural Networksq. €] q (X ClassificationqKX Team1 winq] q (X Team1qX Team2qe] q (X Team1_rankqX Team2_rankqX Diff1q X ...
У меня есть датафрейм с двумя столбцами. Я хочу создать новый столбец и ввести любой столбец с самой длинной строкой. итак column_a column_b column_c 0 "собака быстра" "...
Я извлекаю собственные существительные из столбца, содержащего строковые данные. Я хочу переместить извлеченные существительные в новый столбец в виде списка (или, в качестве альтернативы, как одно существительное на дополнительный столбец). Есть ...
Я использую функцию NumPy Rate для того, чтобы имитировать функцию Excel Rate по кредитам. Функция возвращает правильный результат при работе с подмножеством моего фрейма данных (1 миллион записей). ...
У меня есть фрейм данных, который содержит данные о максимальной и минимальной температуре за 11 лет (с 2005 по 2015 год). Я пытаюсь найти самую высокую и самую низкую температуру для каждого дня года в течение 10-летнего периода ...
Я пытаюсь написать таблицу панд, написанную с таблицей в PDF или текст. У меня проблемы с этим, потому что большинство авторов PDF-файлов выдают мне ошибку об Unicode. Любых предложений было бы много ...
не позволяйте мне горячо кодировать этот столбец, чтобы сделать его в двоичном виде, любая идея почему, не понимает опечатка. В прошлом ИТ отлично работало с теми же данными, не зная, что происходит ...
Я хочу построить систему рекомендаций и следовать учебнику. Я пытаюсь сгруппировать эти столбцы, но у меня куча странных ошибок, и я не могу понять, почему. импортировать numpy как np импортировать pandas как pd ...
AWS Ubuntu 18.04 Когда я запускаю следующую программу на моей локальной машине, она работает без проблем. Однако на AWS выдает ошибку памяти. Я видел кучу вопросов / ответов, но ни один из них, казалось, не ...
Назначение для DataFrame не работает, но dtypes изменился. Новичок в науке о данных, я хочу назначить target_frame для empty_frame, но он не работает до повторного назначения И во время выполнения заданий ...
Я пытаюсь найти время между покупками (то есть, дни между заказами) для клиентов. Хотя мой код работает правильно без определения мета, я бы хотел, чтобы он работал правильно и больше не ...
Чистые данные панд, разбросанные переменные из одного столбца, собранные из другого Моя проблема Мне нужно преобразовать приведенный ниже кадр данных в аккуратный формат, где каждая строка будет уникальной ['GEOG_CODE', 'COUNTRY'] - '...
Любые идеи о том, как я могу получить эти значения в отдельных столбцах? Проверьте картинку ниже. импорт панд как pd импорт numpy как np импорт matplotlib.pyplot как plt импорт seaborn как sns импорт ...
У меня есть таблица, где мне нужно рассчитать максимальное значение последнего значения в скользящий период времени 15 минут. Ожидаемый столбец - это столбец «MAX». Я хотел бы получить максимальное значение Last для ...
У меня есть DataFrame с 4 столбцами, 2 из которых содержат строковые значения. Мне было интересно, есть ли способ выбрать строки на основе частичного совпадения строк с определенным столбцом? Иными словами, а...
У меня есть очень большие данные оценки деформаций, которые я импортирую как 2d массивы в Python. Краткий пример: X = np.array ([[210, 211, 209, 10000, 215, -5000], [220, 221, 219, 10000, 225, ...
У меня есть датафрейм, который показывает значение закрытия для группы акций за последние 10 дней. Имеет индекс даты и времени & amp; акции могут быть идентифицированы по их названию / коду. Можете ли вы помочь мне понять, как ...
Я читаю файл CSV, который был сгенерирован другой системой, и у них есть некоторые столбцы, числовые значения которых отформатированы для чего-то вроде «3.6417E + 11». Этот CSV размещен в удаленном SFTP и ...
У меня есть файл CSV, содержание которого содержит экспертов и список навыков, которые он / она знает примерно так: 0 «Производительность», «Данные» 1, «Компиляция», «Алгоритмы», 3 «Данные», «Алгоритмы».
Я пытаюсь передать функцию и пометить массив numpy в train_test_split. Объекты представляют собой один столбец (дата-время dtype преобразуется в целое число). В массиве меток содержится 900 наблюдений. ...
У меня есть набор данных (файл CSV) последовательности ссылок с их порядком размещенных статусов для каждой последовательности. Я получил подпоследовательности с их счетом с помощью алгоритма prefixSpan (как описано здесь). ...
У меня есть dataframe, где каждая строка ранжируется по нескольким атрибутам по сравнению со всеми другими строками Одна строка может иметь одинаковый ранг в 2 атрибутах (то есть строка может быть лучшей в нескольких атрибутах), например
У меня есть следующие данные: Индекс Открыть Высокий Низкий Закрыть 0 2016-01-22 7355.70 7433.40 7327.60 7422.45 1 2016-01-25 7468.75 7487.15 7421.20 7436.15 2 2016-01-27