Используя python, я создал следующий фрейм данных, который содержит значения подобия: cosinFcolor cosinEdge cosinTexture histoFcolor histoEdge histoTexture jaccard 1 0.770 0.489 0 ....
У меня есть два dataframes, df1 и df2, каждый из которых содержит различную информацию и разной длины, но с общим столбцом «DAY», хотя и не всегда с одинаковым значением. Для контекста одна информация ...
У меня есть очень большие таблицы (30 миллионов строк), которые я хотел бы загрузить в виде фреймов данных в R. read.table () имеет много удобных функций, но кажется, что в ...
У меня есть dataframe, полный дат. Используя dfdate.iloc [6], он вернется ниже. 6 2011-01-01 04:31:18 2011-01-01 00:12:54 2011-01-01 04:30:22 2011-01-01 04:15:28 2011-01-01 01:54: 00 ...
У меня есть dataframe: test & lt; - data.frame (seq (as.POSIXct ("12-31-1999 12:15:00", format = "% m-% d-% Y% H:% M:% S "), as.POSIXct (" 12-31-2000 12:15:00 ", format ="% m-% d-% Y% H:% M:% S "), на =" 15 минут ") ) ...
Я создал RDD с тремя столбцами, классы которых - WrappedArray, SparseVector и DenseVector соответственно. Однако, когда я хочу вызывать методы любого объекта SparseVector, этот объект ...
Я новичок в Scala и Spark. У меня вопрос о том, как удалить вложенный массив из моего DataFrame. Это моя схема DataFrame: root | - dedupeMode: string (nullable = true) | - modules: array (...
В принципе, предположим, что мы получаем вход для: «Crayola Blue Short Crayons». Я хочу, чтобы программа проходила через csv-файл и находила первую / лучшую ячейку, которая соответствует строке. Так, например, это ...
У меня есть массив, созданный из dataframe с использованием .value_counts (), который появляется как 7 600 6 522 8 358 1 336 5 323 11 319 4 316 10 299 12 294 9 278 3 233 2 232 ...
Я хочу эффективно оценивать внешний вид в рамке данных панд. Вот мои данные, а это имя dataframe No Customer_id 1 678 2 678 3 679 Вот что я хочу Нет ...
Я изучаю ML на kaggle (проект Titanic). У меня проблема с написанием кода для добавления новых функций! import pandas as pd import numpy как np data = pd.read_csv ('train.csv') print (data.drop (['Name ",' Sex ', ...
Все еще привыкший к пандам, я вижу, что я вижу, когда я трансформирую группу по выражению, глядя на то, что значения превращаются в научную нотацию, тогда как когда это не так, значения находятся в ...
Для этого упражнения у меня есть dataframe, содержащий номера заказов, идентификаторы предметов, идентификаторы компаний, страны и счет. На практике у меня много столбцов. Теперь я хочу автоматизировать некоторые вычисления для анализа ...
У меня два df df1, количество ключей один 2 два 3 df2, количество ключей четыре 5 пять 6 Я попытался добавить, но добавляет в конце, мой желаемый результат должен быть, df, количество ключей один 2 два 3 четыре 5 ...
У меня есть data.frame, который похож на это> голова (df) Память Памяти Памяти Памяти Памяти, Наивная Наивный 10472501 6.075714 5.898929 6.644946 6.023901 6.332126 8....
Я нахожу меня написанием кода как это, когда я хочу повторить некоторое выполнение n времена: для (я <-1 к n) {doSomething ()} я ищу более короткий синтаксис как это: n.times (doSomething ()) Делает...
Я пытаюсь найти способ преобразовать несколько строк текста в кадр данных. Я не уверен, существует ли путь, где можно использовать read.delim (), чтобы читать в нескольких строках текста и создать следующее...
Предположим, что у меня есть вектор, который вкладывается в кадре данных один или два уровня. Существует ли быстрый и грязный способ получить доступ к последнему значению, не используя длину () функция? Что-то $ Perl крыла # особенный...
Я хочу преобразовать некоторое значение строки в столбец, если они существуют несколько раз в зависимости от конкретного идентификатора. У меня есть один df, в котором есть столбец, такой как идентификатор и номер телефона. Я хочу сделать номер телефона д
Я хотел бы удалить некоторые строки, которые соответствуют определенным условиям, но я не хочу удалять первую строку, даже если первая строка соответствует этим критериям. Я пытался сбросить строки с помощью функции df.drop, но ...
У меня есть кадр данных (14.5K строки на 15 столбцов) содержащий тарификацию данных с 2001 до 2007. Я добавляю новые данные 2008 года к нему с: небывалый <-rbind (небывалый, all2008), К сожалению, который генерирует...