У меня следующая проблема: я использую PySpark для чтения таблицы из Snowflake в качестве кадра данных. Затем я выполняю pivot в кадре данных. После этого я хочу преобразовать объект сводки обратно в фрейм данных ...
У меня очень большой фрейм данных pyspark. Фрейм данных содержит два важных столбца: ключ и токены, связанные с этим ключом. Таким образом, в каждой строке есть ключ и список токенов: load_df.show (5) + -----------------...
Я хотел бы создать систему управления, когда я создаю проект, проект содержит много TaskGroup, таких как «To do», «Doing» и «Done», и который является типом TaskGroup по умолчанию, который называется ...
Я пытаюсь подсчитать, сколько повторных данных есть в каждом столбце в DataFrame. Это питон 3.7. Я пробовал df_.count (), но он предназначен для оси. Я ожидаю, что результат будет выглядеть так: ...
Я пытаюсь написать таблицу панд, написанную с таблицей в PDF или текст. У меня проблемы с этим, потому что большинство авторов PDF-файлов выдают мне ошибку об Unicode. Любых предложений было бы много ...
AWS Ubuntu 18.04 Когда я запускаю следующую программу на моей локальной машине, она работает без проблем. Однако на AWS выдает ошибку памяти. Я видел кучу вопросов / ответов, но ни один из них, казалось, не ...
У меня есть таблица, где мне нужно рассчитать максимальное значение последнего значения в скользящий период времени 15 минут. Ожидаемый столбец - это столбец «MAX». Я хотел бы получить максимальное значение Last для ...
У меня есть DataFrame с 4 столбцами, 2 из которых содержат строковые значения. Мне было интересно, есть ли способ выбрать строки на основе частичного совпадения строк с определенным столбцом? Иными словами, а...
Я пытаюсь повысить частоту этих данных до ежедневной. Идея состоит в том, чтобы поставить нулевые значения для элементов с повышенной дискретизацией. Я получаю следующую ошибку в моей оболочке: 'TypeError: Действителен только с DatetimeIndex, ...
У меня есть два фрейма данных, а именно акции и Log_Returns. Я хочу умножить первую цифру акций на 1-й столбец Log_Returns. 2-я цифра акций со 2-м столбцом и т. Д. Я пытался за цикл, но ...
У меня есть файл CSV, содержание которого содержит экспертов и список навыков, которые он / она знает примерно так: 0 «Производительность», «Данные» 1, «Компиляция», «Алгоритмы», 3 «Данные», «Алгоритмы».
У меня есть DataFrame, как показано ниже. > print (df_user_preferences) user_id food_id int64 int64 int64 ... Этот информационный кадр представляет отношение «многие ко многим» между пользователем и продуктом питания. Там ...
У меня есть dataframe, где каждая строка ранжируется по нескольким атрибутам по сравнению со всеми другими строками Одна строка может иметь одинаковый ранг в 2 атрибутах (то есть строка может быть лучшей в нескольких атрибутах), например
У меня есть образец набора данных. Я создал подмножество исходного фрейма данных с использованием некоторого условия. Теперь мне нужно извлечь оставшееся содержимое исходного образца данных, кроме подмножества ...
У меня есть датафрейм с несколькими столбцами. Два столбца в кадре данных - это имя_таблицы и имя_столбца. Мне нужно проверить, доступно ли column_name в table_name в SQL Server ...
У меня странный вывод при использовании to_csv код, который я запускаю, выглядит следующим образом. импортировать панд как pd импортировать numpy как np df = pd.DataFrame () символ _ = 'SHFE.rb1906' сторона _ = 'long' dtStr = '2019-03-20 9: ...
У меня есть простой фрейм данных со столбцами и строками, которые я хочу визуализировать с помощью hvpolot.heatmap. Я могу сделать что-то похожее с: df.style.background_gradient (cmap = 'summer') .. в Jupyter, ...
Так что я очень плохо знаком с R и пытался втиснуть некоторые знания R в свой мозг для проекта на моей работе. Я все еще изучаю основы и не могу понять, почему моя функция не будет работать. Я ...
У меня есть этот код панд, но он очень медленный. Как я мог оптимизировать это? Это означает, что когда я запускаю его, это занимает около 4 секунд. Этот код я называю здесь, это то, что я называю снова и снова, и это ...
Я хочу использовать функцию фильтра для фильтрации строк в кадре данных. Код выглядит следующим образом: f15_ABC = фильтр (лямбда х: х [0: 3] == "ABC", f15 ['var1']) Поэтому я хочу получить датафрейм только со строками, где ...
Возможный дубликат: Как отсортировать фрейм данных по столбцу(ам) в R Вот набор данных: odervect <- c("xaf", "c3a", "c3b", "ka101", "jk12", "cd101", "kl01v", "klm1")
odervect
[1] "xaf" "c3a" "...
У меня возникли проблемы с определением наиболее элегантного и гибкого способа переключения данных из длинного формата в широкий формат, когда у меня есть более одной переменной измерения, которую я хочу взять с собой. Например, вот...
school_earning_premium_hourly dips_cert_earning_premium_weekly 5.785123966942149 \ B 110.7438016528926 \ У меня есть несколько столбцов (2 из них выше) в моем фрейме данных. Мне нужен способ ...
Добрый день всем, я хочу отфильтровать из DataFrame столбцы, которые мне не интересны. Для этого - и так как столбцы могут меняться в зависимости от ввода пользователя (что я не буду здесь показывать) ...
Может кто-нибудь объяснить, чем эти три метода нарезки отличаются? Я видел документы, и я видел эти ответы, но я все еще не могу объяснить, чем они отличаются. Мне, ...
Как перевести оператор SQL в Pandas: выберите PolicyNumber, Coverage из ClaimsData, где AccidentState = 'AZ' и Coverage = 'Liability' Я знаю, как выбирать столбцы для одного ...