2
ответа

как изменить часть «когда» части данных pyspark [duplicate]

Я хочу сгладить один столбец в Dataframe, как показано ниже: df.select (* caculate_gender (). Values ​​()) def caculate_gender (): return {'gender': ** F.when ((F.col ('gender' ) == 1 | F.col ('gender') == ...
вопрос задан: 8 June 2016 21:02
2
ответа

Pyspark конвертирует числовые данные в категорию без значения reindex [duplicate]

Как я могу пометить целое поле как поле категории без повторной индексации в Pyspark? Например: Категория = [1,5,3,6,7,8] -> искра использует его как числовое поле -> Я хочу, чтобы искра рассматривала их как номинальные ...
вопрос задан: 28 May 2016 10:38
2
ответа

Как ссылаться на значение строки DataFrame в пользовательской функции Spark SQL? [Дубликат]

У меня есть Spark DataFrame с заголовками столбцов ['tsmID', 'sigID', 'Timestamp', 'Value']. Я хотел бы создать пользовательскую функцию, такую, что она сравнивает измерение в Valuecolumn с элементом ...
вопрос задан: 25 May 2016 04:59
2
ответа

Ошибка запуска Pyspark - Ошибка hive.HiveSessionState [duplicate]

Я установил Spark 2.1 с Cloudera. Когда я запускаю искровую оболочку из / usr / bin / spark2-shell, она запускается (с scala). Когда я запускаю Pyspark, я получаю эту проблему sudo -u hdfs ./pyspark2. Я получаю: ...
вопрос задан: 29 March 2016 16:38
2
ответа

Фильтр данных PySpark на основе установленного равенства [дубликат]

Предположим, у меня есть фреймворк PySpark с столбцом типа set: from pyspark import SparkContext import pyspark.sql.functions как f sc = SparkContext () df = sc.parallelize ([[1, 'A'], [1, '. ..
вопрос задан: 24 March 2016 19:39
2
ответа

Pyspark: найти первое появление максимального значения [duplicate]

В моем наборе данных есть скорость, записанная для нескольких автомобилей, как функция времени. У каждого автомобиля есть определенный идентификатор. Данные выглядят так: + ----------------- + ----------- + ------ + | отметка времени | ...
вопрос задан: 25 February 2016 12:40
2
ответа

Spark Drop Duplicates в нескольких столбцах - проблема с производительностью [дубликат]

У меня проблема аналогичная этому, но я хочу проверить дубликаты в нескольких столбцах и сохранить запись с самой старой отметкой времени. Я попытался создать порядок столбцов timestamp с этим, а затем отбросить ...
вопрос задан: 25 February 2016 12:40
2
ответа

Исключить дубликаты данных из подмножества столбцов [дубликат]

У меня есть два фрейма данных в Spark, у которых есть много столбцов плюс столбец timestamp. Я хочу исключить дубликаты для всех столбцов, кроме столбца timestamp. Поэтому мой окончательный кадр данных должен быть ...
вопрос задан: 25 February 2016 12:40
2
ответа

Группа Pyspark и наименьший элемент [дубликат]

Имея кадр данных, как показано ниже (на самом деле он содержит гораздо больше строк): Time | EventType | OrderId | Размер | Цена | Направление | message_id | Вторая | | 34200.105 | 5 | 0 | 100 | 1103400 | 1 | ...
вопрос задан: 25 February 2016 12:40
2
ответа

Извлечение нескольких столбцов, связанных с минимальным pyspark [duplicate]

Используя pyspark, мне нужно найти что-то похожее на команду SQL KEEP (DENSE RANK LAST ORDER). Используя groupBy и agg, я хочу извлечь другие значения столбцов, которые связаны с минимумом групп. ...
вопрос задан: 25 February 2016 12:40
2
ответа

Получить максимальный столбец на основе значения другого столбца [duplicate]

Вот как выглядят мои данные csv: TagNumber, DatePaid, TotalPaid ABCD, 11/5/2017, $ 101 EFGH, 12/5/2017, $ 201 ABCD, 11/7/2017, $ 501 ABCD, 12/5/2017, $ 201 Я создаю dataframe, который будет группировать данные с помощью ...
вопрос задан: 25 February 2016 12:40
2
ответа

livy открыть файл, добавленный из hadoop в контекст партии [duplicate]

Я запускаю скрипт python в запросе на публикацию в листинге. В моей просьбе я добавил список «pyFiles», и все работает отлично. Но я также добавил свои json-файлы с помощью «файлов». И я вижу ...
вопрос задан: 22 January 2016 06:19
2
ответа

Python Чтение из SQL в pandas dataframes [duplicate]

Я использую приведенный ниже сценарий для чтения данных с MSSQL Server в Pyspark dataframes. DFFSA = spark.read.format ("jdbc"). Option ("url", jdbcURLDev) .option ("driver", MSSQLDriver) .option ("dbtable", "FSA.dbo ....
вопрос задан: 15 January 2016 19:34
2
ответа

Как сохранить линейную регрессионную модель в PySpark 1.4.2? [Дубликат]

Я пытаюсь сохранить модель в PySpark 1.4.2. но ниже модели error.save (sc, modelpath) Traceback (последний последний вызов): Файл «& lt; stdin & gt;», строка 1, в & lt; module & gt; AttributeError: '...
вопрос задан: 9 October 2015 00:09
2
ответа

Apache Spark: проблема с картой [duplicate]

написав простую операцию объединения на искру и пытаясь получить значения карты. почему я получаю синтаксическую проблему? что такое правильный синтаксис? Spark 2.x joinrdd = webrdd.join (titlerdd) \ .map (...
вопрос задан: 2 September 2015 02:07
2
ответа

Единичное тестирование PySpark UDF [дубликат]

Я создал искровое приложение. Я нахожусь на этапе тестирования, поэтому мне нужно создать модульные тесты для всех моих функций python. Я создал локальную искровую сессию в настроенном классе def setUpClass (cls): ...
вопрос задан: 27 June 2015 20:25
2
ответа

PySpark группируется по 2 столбцам, чтобы получить первое число за группу [duplicate]

У меня есть файловый фрейм PySpark mydf, и я группируюсь по 2 столбцам (код и col1), чтобы получить результирующую таблицу с наивысшим разным числом третьего столбца (newid). Например: mydf code col1 newid 100 ...
вопрос задан: 26 June 2015 03:08
2
ответа

Как пары RDD - pyspark [duplicate]

Для RDD для генерации пары, например: rdd1 = sc.parallelize (['d', '112', 'b', 'c', 'i', 'a', 'e']) output: [(' d ',' 112 '), (' d ',' b '), (' d ',' c '), (' d ',' i '), ..., (' a ',' e ' )] Благодаря
вопрос задан: 25 June 2015 22:54
2
ответа

Невозможно зарегистрировать Scala UDF для pyspark [duplicate]

В pyspark я хочу использовать Scala UDF для фильтрации массива с произвольным типом элемента. пакет com.example.spark.udf import scala.collection.mutable.WrappedArray import org.apache.spark.sql.api.java ....
вопрос задан: 12 May 2013 10:43
2
ответа

PySpark Вход в HDFS вместо локальной файловой системы [duplicate]

Я хотел бы использовать библиотеку регистрации Pythons, но хочу, чтобы выходные данные журналов попадали в HDFS вместо локальной файловой системы для рабочего узла. Есть ли способ сделать это? регистрация журналов импорта ....
вопрос задан: 7 May 2013 14:21
1
ответ

Как я могу показать мой файл данных CSV в блокноте Jupyter с помощью Pyspark

Я работаю над большим набором данных CSV данных. Мне нужно прочитать это на ноутбуке с помощью pyspark. У меня более 4 миллионов записей (540000 строк и 7 столбцов). Что я могу сделать, чтобы я мог показать весь свой набор данных ...
вопрос задан: 14 April 2019 11:52
1
ответ

Как сделать sql jointure на спарк?

Я хотел бы сделать SQL-соединение между двумя таблицами в spark, и я получил неожиданную ошибку: > > > cyclistes.printSchema () root | - id: string (nullable = true) | - age: string (nullable = ...
вопрос задан: 30 March 2019 03:53
1
ответ

Поддержка Papermill PySpark

Я ищу способ легко выполнить параметризованный прогон ноутбуков Jupyter, и я нашел проект Papermill (https://github.com/nteract/papermill/). Этот инструмент, кажется, соответствует моим требованиям, но я ...
вопрос задан: 29 March 2019 16:53
1
ответ

pyspark: как изменить значение столбца на основе других столбцов для того же идентификатора

У меня есть фрейм данных pyspark с 5 столбцами: Id, значение X, lower & amp; верхние границы X и дата обновления (этот кадр данных упорядочен по «Id, Update»). Я прочитал это из таблицы улья: (spark.sql (Выбрать ...
вопрос задан: 24 March 2019 20:16
1
ответ

Создать 5-минутный интервал между двумя отметками времени

У меня есть куча точек данных для каждого есть два столбца: start_dt и end_dt. Мне интересно, как я могу разделить промежуток времени между start_dt и end_dt на 5 минут? Например, id ++++ ...
вопрос задан: 24 March 2019 05:55
1
ответ

Как исправить & ldquo; Integer не может принять объект '24' в типе < тип 'str' > & rdquo ;?

Когда я создаю фрейм данных из RDD, применяя схему, он выдает ошибку «Целочисленный тип не может принять объект« 24 »в типе». Это мой код: myschema = StructType ([StructField ('name', StringType (), False), ...
вопрос задан: 24 March 2019 04:37
1
ответ

PySpark: groupBy два столбца с категориальными переменными и сортировать по возрастанию

Я совершенно новый в Spark, и у меня есть проблема с dataframe. Мне нужно сгруппировать уникальные категориальные переменные из двух столбцов (estado, producto), а затем посчитать и отсортировать (asc) уникальные значения ...
вопрос задан: 19 March 2019 23:56
1
ответ

Pyspark разобрать пользовательский формат даты

Я сталкиваюсь с этой проблемой: у меня сложный формат даты, представленный в виде строки. Поэтому я использую функцию unix_timestamp для ее анализа. Однако я не могу найти правильный шаблон для использования. Я не знаю ...
вопрос задан: 19 March 2019 08:29
1
ответ

Фильтрация набора данных улья на основе списка Python

Я довольно новичок в улье и искре, но то, что я хочу сделать, кажется, что это должно быть просто. По сути, я хочу взять список из Python, а затем только извлекать записи из улья, в которых есть ключ к этому ...
вопрос задан: 18 March 2019 18:50
1
ответ

Агрегат PySpark и условия

У меня есть вопрос по PySpark. df = (sc.parallelize ([{"Day": 1, "Sensitive_ID": "1234", "Num": 3}, {"Day": 1, "Sensitive_id": "1234", "NUM": 3 }, {"Day": 2, "itive_id ":" 1234 "," num ": 3}, {" ...
вопрос задан: 18 March 2019 16:04