0
ответов

Получение определенного поля из выбранной строки в Pyspark DataFrame

У меня есть Spark DataFrame, построенный через pyspark из файла JSON, как sc = SparkContext () sqlc = SQLContext (sc) users_df = sqlc.read.json ('users.json') Теперь я хочу получить доступ к данным selected_user, где. ..
вопрос задан: 13 January 2019 20:31
0
ответов

Почему Spark считает, что это кросс / декартово соединение

Я хочу объединить данные дважды, как показано ниже: rdd1 = spark.createDataFrame ([(1, 'a'), (2, 'b'), (3, 'c')], ['idx', 'val'] ) rdd2 = spark.createDataFrame ([(1, 2, 1), (1, 3, 0), (2, 3, 1)], ['key1', 'key2', 'val'] ...
вопрос задан: 7 January 2019 17:58
0
ответов

Как создать DataFrame из текстового файла в Spark

У меня есть текстовый файл в HDFS, и я хочу преобразовать его в фрейм данных в Spark. Я использую Spark Context для загрузки файла, а затем пытаюсь сгенерировать отдельные столбцы из этого файла. val myFile = ...
вопрос задан: 7 January 2019 17:34
0
ответов

Агрегирование нескольких столбцов с пользовательской функцией в Spark

Мне было интересно, если есть какой-то способ указать пользовательскую функцию агрегирования для фреймов данных искры по нескольким столбцам. У меня есть такая таблица типа (имя, предмет, цена): Джон | помидор | 1 ....
вопрос задан: 7 January 2019 15:36
0
ответов

Как рассчитать разницу дат в писпарке?

У меня есть такие данные: df = sqlContext.createDataFrame ([('1986/10/15', 'z', 'null'), ('1986/10/15', 'z', 'null'), ( '1986/10/15', 'c', 'null'), ('1986/10/15', 'null', 'null'), (...
вопрос задан: 7 January 2019 05:57
0
ответов

Spark добавить новый столбец в dataframe со значением из предыдущей строки

Мне интересно, как я могу добиться следующего в исходном кадре данных Spark (Pyspark): + - + --- + | id | num | + - + --- + | 4 | 9.0 | + - + --- + | 3 | 7.0 | + - + --- + | 2 | 3.0 | + - + --- + | 1 | 5.0 | + - + --- + В результате ...
вопрос задан: 6 January 2019 15:00
0
ответов

Установить максимальное значение (верхняя граница) в пандах DataFrame

Я пытаюсь установить максимальное значение столбца DataFrame панд. Например: my_dict = {'a': [10,12,15,17,19,20]} df = pd.DataFrame (my_dict) df ['a']. Set_max (15) даст: a 0 10 1 12 2 ...
вопрос задан: 3 January 2019 13:45
0
ответов

Как организовать dataFrame следующим образом в Python:

У меня есть файл, в котором есть некоторая информация: 1. Идентификатор фильма (первый символ перед «:») 2. Идентификатор пользователя 4. Рейтинг пользователя 3. Дата Все элементы разделены знаком «,», но идентификатором фильма, который разделен по ...
вопрос задан: 31 December 2018 02:40
0
ответов

Обнаруживать и исключать выбросы в кадре данных Pandas

У меня есть пандас dataframe с несколькими столбцами. Теперь я знаю, что определенные строки являются выбросами на основе определенного значения столбца. Например, столбцы - «Vol» имеет все значения около 12xx, а одно значение - 4000 (...
вопрос задан: 25 December 2018 00:09
0
ответов

Каков наилучший способ транспонировать data.frame в R и установить один из столбцов в качестве заголовка для новая транспонированная таблица?

Как лучше всего транспонировать data.frame в R и установить один из столбцов в качестве заголовка для новой транспонированной таблицы? Я описал способ сделать это ниже. Я все еще новичок в R. Я бы ...
вопрос задан: 18 December 2018 11:59
0
ответов

Определение UDF, который принимает массив объектов в Spark DataFrame?

При работе с DataFrames Spark пользовательские функции (UDF) необходимы для отображения данных в столбцах. UDF требуют, чтобы типы аргументов были указаны явно. В моем случае мне нужно ...
вопрос задан: 17 December 2018 10:33
0
ответов

Pandas dataframe: удалить вторичное предстоящее то же значение

У меня есть фрейм данных: col1 col2 a 0 b 1 c 1 d 0 c 1 d 0 В 'col2' я хочу оставить только первую 1 сверху и заменить каждую 1 ниже первой на 0, например ...
вопрос задан: 6 December 2018 15:46
0
ответов

Преобразование формата столбца data.frame из символа в коэффициент

Я хотел бы изменить формат (класс) некоторых столбцов моего объекта data.frame (mydf) с символа на коэффициент. Я не хочу этого делать, когда читаю текстовый файл функцией read.table (). ...
вопрос задан: 6 December 2018 08:37
0
ответов

Выбор нескольких столбцов в кадре данных pandas

У меня есть данные в разных столбцах, но я не знаю, как извлечь их, чтобы сохранить в другой переменной. index a b c 1 2 3 4 2 3 4 5 Как выбрать «a», «b» и сохранить их в df1? ...
вопрос задан: 2 December 2018 06:06
0
ответов

Преобразование серии списков панд в датафрейм

У меня есть серия из списков импорта панд как pd s = pd.Series ([[1, 2, 3], [4, 5, 6]]), и я хочу DataFrame с каждым столбцом списка. Ни один из from_items, from_records, DataFrame Series.to_frame ...
вопрос задан: 27 November 2018 22:09
0
ответов

Назначьте несколько столбцов, используя := в data.table, по группам

Каков наилучший способ назначить несколько столбцов с помощью data.table? Например, :f < -function (x ){c ("привет", "привет" )} x < -data.table (id = 1 :10 )Я хотел бы сделать что-то вроде этого (из...
вопрос задан: 13 November 2018 13:19
0
ответов

Добавьте метки x и y к графику панд

Предположим, у меня есть следующий код, который строит что-то очень простое с использованием панд: импортировать панд как значения pd = [[1, 2], [2, 5]] df2 = pd.DataFrame (values, columns = ['Type A', ' Тип B '], ...
вопрос задан: 20 October 2018 23:05
0
ответов

Панды Заменить NaN пустой / пустой строкой

У меня есть Pandas Dataframe, как показано ниже: 1 2 3 0 a чтение NaN 1 b l непрочитанное чтение 2 c чтение NaN Я хочу удалить значения NaN пустой строкой, чтобы она выглядела так: ...
вопрос задан: 20 October 2018 20:38
0
ответов

Извлечь int из строки в Пандах

Допустим, у меня есть фрейм данных df как AB 1 V2 3 W42 1 S03 2 T02 3 U71 Я хочу иметь новый столбец (либо в конце df, либо заменить столбец B на него, как это не имеет значения), который только извлекает ...
вопрос задан: 3 October 2018 00:11
0
ответов

вычесть значение из предыдущего ряда по группе

В R, скажем, у меня есть этот фрейм данных: Значение даты идентификатора данных 2380 30.10.12 21.01 2380 31.10.12 22.04 2380 11.11.112 22.65 2380 11.12.212 23.11 20100 10.10.12 35 ....
вопрос задан: 2 October 2018 04:56
0
ответов

Python: панды объединяют несколько фреймов данных

У меня есть разные фреймы данных, и мне нужно объединить их на основе столбца даты. Если бы у меня было только два кадра данных, я мог бы использовать df1.merge (df2, on = 'date'), чтобы сделать это с тремя кадрами данных, я бы использовал df1 ....
вопрос задан: 24 September 2018 14:50
0
ответов

Pandas dataframe условное среднее на основе имен столбцов

Это будет проще всего объяснить, начиная с выборки данных: TimeStamp 382.098 382.461 383.185 383.548 10:28:00 0.012448 0.012362 0.0124485 0.012362 ...
вопрос задан: 6 September 2018 01:43
0
ответов

Извлечь подстроку в R, используя grepl

У меня есть таблица со строковым столбцом, отформатированным как этот abcdWorkstart.csv abcdWorkcomplete.csv, и я хотел бы извлечь последнее слово в этом имени файла. Поэтому я думаю, что начальный шаблон будет ...
вопрос задан: 28 August 2018 15:18
0
ответов

Удалить строки со всеми или некоторыми NA (отсутствующими значениями) в data.frame

Я хотел бы удалить строки в этом фрейме данных, которые: a) содержат NA по всем столбцам. Ниже мой пример фрейма данных. ген hsap mmul mmus rnor cfam 1 ENSG00000208234 0 нет данных NA ...
вопрос задан: 12 August 2018 12:32
0
ответов

Идентификация повторяющихся столбцов в кадре данных

Я новичок в R и пытаюсь удалить повторяющиеся столбцы из большого кадра данных (50 тыс. строк, 215 столбцов). Фрейм представляет собой смесь дискретных непрерывных и категориальных переменных. Мой подход…
вопрос задан: 4 August 2018 15:37
0
ответов

Среднее по строке для подмножества столбцов с пропущенными значениями

У меня есть DataFrame, который иногда пропускает значения и выглядит примерно так: понедельник, вторник, среда ========================== ===================== ...
вопрос задан: 27 July 2018 13:29
0
ответов

выбор размера шага при разрезании столбцов данных

Я ничего не могу найти по этой теме, так что ... Я интуитивно только что пошел с: df = pd.iloc [:, 1: -1: 2], но он не работал, и, когда вы искали решение, найти что-нибудь для этого. Есть ли ...
вопрос задан: 14 July 2018 02:44
0
ответов

Исключение Null Pointer в любое время, когда я пытаюсь выполнить операцию на фрейме Spark

Я использую pyspark в ноутбуке zeppelin, чтобы попытаться выполнить SQL-запрос в базе данных postgres. Я использую драйвер postgresql jdbc. Я могу успешно сделать это с некоторыми запросами, но у меня есть один ...
вопрос задан: 13 July 2018 23:51
0
ответов

файл не создается при записи данных в csv

В приведенном ниже коде создается папка, но в ней нет файлов. Я использую два машинных искрового кластера и отправляю работу в автономном режиме. df.coalesce (1) .write.format ("com.databricks.spark.csv") .option ("...
вопрос задан: 13 July 2018 21:39
0
ответов

'& gt; =' не поддерживается между экземплярами 'tuple' и 'datetime.datetime'

Я использую Python3 и имею следующий код (частичный код). tsret = pd.DataFrame (index = tslag.index) start_date = datetime.datetime (2011,1,10) tsret = tsret [tsret.index & gt; = start_date] tslag in ...
вопрос задан: 13 July 2018 19:36