pyspark - список вопросов по программированию pyspark

2

ответа

как изменить часть «когда» части данных pyspark [duplicate]

Я хочу сгладить один столбец в Dataframe, как показано ниже: df.select (* caculate_gender (). Values ()) def caculate_gender (): return {'gender': ** F.when ((F.col ('gender' ) == 1 | F.col ('gender') == ...

вопрос задан: 8 June 2016 21:02

2

ответа

Pyspark конвертирует числовые данные в категорию без значения reindex [duplicate]

Как я могу пометить целое поле как поле категории без повторной индексации в Pyspark? Например: Категория = [1,5,3,6,7,8] -> искра использует его как числовое поле -> Я хочу, чтобы искра рассматривала их как номинальные ...

apache-spark pyspark random-forest categorical-data

вопрос задан: 28 May 2016 10:38

2

ответа

Как ссылаться на значение строки DataFrame в пользовательской функции Spark SQL? [Дубликат]

У меня есть Spark DataFrame с заголовками столбцов ['tsmID', 'sigID', 'Timestamp', 'Value']. Я хотел бы создать пользовательскую функцию, такую, что она сравнивает измерение в Valuecolumn с элементом ...

apache-spark pyspark apache-spark-sql pyspark-sql

вопрос задан: 25 May 2016 04:59

2

ответа

Ошибка запуска Pyspark - Ошибка hive.HiveSessionState [duplicate]

Я установил Spark 2.1 с Cloudera. Когда я запускаю искровую оболочку из / usr / bin / spark2-shell, она запускается (с scala). Когда я запускаю Pyspark, я получаю эту проблему sudo -u hdfs ./pyspark2. Я получаю: ...

apache-spark hive pyspark cloudera apache-spark-2.0

вопрос задан: 29 March 2016 16:38

2

ответа

Фильтр данных PySpark на основе установленного равенства [дубликат]

Предположим, у меня есть фреймворк PySpark с столбцом типа set: from pyspark import SparkContext import pyspark.sql.functions как f sc = SparkContext () df = sc.parallelize ([[1, 'A'], [1, '. ..

pyspark

вопрос задан: 24 March 2016 19:39

2

ответа

Pyspark: найти первое появление максимального значения [duplicate]

В моем наборе данных есть скорость, записанная для нескольких автомобилей, как функция времени. У каждого автомобиля есть определенный идентификатор. Данные выглядят так: + ----------------- + ----------- + ------ + | отметка времени | ...

apache-spark pyspark pyspark-sql