0
ответов

Влияние скейлеров на категориальные столбцы в PySpark

Когда я посмотрел на реализацию PySpark ml, я увидел стандартизированный скейлер, примененный после того, как функции были собраны в вектор. Тем не менее, мой собранный векторный элемент состоит из некоторых элементов, которые ...
вопрос задан: 19 January 2019 11:20
0
ответов

Как setInitMode () для объекта KMeans влияет на то, как параметр setSeed () используется в PySpark?

Документация по этому вопросу не помогла, поэтому я ищу человека, который лучше понимает. У объекта KMeans в PySpark есть необязательный параметр setInitMode (), который по умолчанию равен «k-means ||» ...
вопрос задан: 18 January 2019 19:29
0
ответов

DataFrame от Pandas до Spark, очевидно, работает, но затем не может работать с Spark DF

Я работаю с DF в пандах, затем я хочу работать с этими данными с Spark, поэтому я создаю DF в PySpark, используя: conf = SparkConf (). SetAppName ("StackOverFlow") sc = SparkContext (conf = conf) ...
вопрос задан: 18 January 2019 14:49
0
ответов

pyspark udf печать анализируемая строка

У меня есть проблема внутри функции pyspark udf, и я хочу напечатать номер строки, генерирующей проблему. Я пытался посчитать строки, используя эквивалент статической переменной в Python, но это ...
вопрос задан: 18 January 2019 11:18
0
ответов

Лямбда-выражение не работает в PySpark, PyCharm?

следующий код выполняется в PyCharm IDE из pyspark.sql import SparkSession spark = SparkSession.builder.appName («Welcome»). config («spark.some.config.option», «some-value»). getOrCreate () sc = ...
вопрос задан: 17 January 2019 17:10
0
ответов

Создайте RDD или Dataframe, используя pyspark для списка csv-файлов, где должна быть удалена 1-я строка каждого файла

Мой CSV-файл выглядит следующим образом: «ABC REPORT (16 января 2019 г.)» Cid, Aid, Часовой пояс, Просмотр, Актив, Впечатления, Измеримые abc, abc tea, (GMT-05: 00) Восточное время, 0,0.00% , 0,0.00% Я использую pyspark для удаления ...
вопрос задан: 17 January 2019 15:37
0
ответов

Передача зависимостей Python в Spark Cluster

Я понимаю, что мы можем передать python-файлы в кластер spark, используя --py-files spark-submit --py-files. Что если я хочу пропустить модуль python, то реальная проблема, с которой я сталкиваюсь, - это udf, который использует ...
вопрос задан: 17 January 2019 15:24
0
ответов

Inner Join On (Hive) дает другой результат, чем PySpark Inner Join

Я наблюдал это явление сегодня. Когда я выполняю следующую команду в Hive CLI, я получаю что-то отличное от того, что делает это с pyspark: Hive: Выберите count (отличный t1.fieldX) от ...
вопрос задан: 17 January 2019 15:12
0
ответов

Последовательный LSTM на свече

У меня есть последовательный lstm keras, который отлично работает на краевом узле кластера hadoop, но мне нужно распределить его для вычисления на подчиненных узлах. Теперь я знаю, что Elepha существует, и это было бы здорово ...
вопрос задан: 16 January 2019 23:08
0
ответов

Pyspark 2.3.2 не работает с hadoop 2.8.3 из-за netty?

Я установил Hadoop версии 2.8.3 в моей среде Windows 10 (псевдо-распределенный режим), и она работает нормально. После этого я пытаюсь установить спарк 2.3.2 поверх него. Я пишу искровую работу в pyspark. ...
вопрос задан: 16 January 2019 17:03
0
ответов

Как создать df динамически при зацикливании списка в python?

def create_df (src, header = None): df = spark.read.csv (src, header = header) вернуть df result = source_df.filter (f.col ('Job_name') == job_name) .select (source_df [' dfname '], source_df [' srcpath ']) ....
вопрос задан: 16 January 2019 16:01
0
ответов

Постоянная таблица Spark недоступна на другом узле

У меня есть простой Spark (2.3.0) автономный кластер с 1 мастером и 2 работниками (узел-1 и узел-2). Я сохранил свой фрейм данных как постоянную таблицу в метасторое Hive, используя команду saveAsTable с ...
вопрос задан: 16 January 2019 15:55
0
ответов

Создайте один массив данных из нескольких файлов CSV с разными заголовками в Spark

В Spark с Pyspark я хочу создать один фрейм данных (где путь фактически является папкой в ​​S3), который содержит несколько файлов CSV с общими столбцами и различными столбцами. Проще говоря, я ...
вопрос задан: 16 January 2019 15:07
0
ответов

получить тип данных столбца, используя pyspark

Мы читаем данные из коллекции MongoDB. Столбец коллекции имеет два разных значения (например: (bson.Int64, int) (int, float)). Я пытаюсь получить тип данных, используя pyspark. Моя проблема в некоторых столбцах ...
вопрос задан: 16 January 2019 12:37
0
ответов

структура и массив во фрейме данных, показывающий тип данных в виде строки в pyspark

У меня есть файл Json, как упомянуто ниже, который имеет массив и структуру для одного элемента Json, поэтому после чтения этого файла JSON с помощью фрейма данных pyspark получите тип данных «String» вместо Array / Struct. ...
вопрос задан: 16 January 2019 12:37
0
ответов

почему объединенный столбец Pyspark превращается в нулевые значения?

Я пытаюсь соединить два кадра данных, но значения второго продолжают превращаться в нули: joint = sdf.join (k, "date", how = 'left'). Select (sdf.date, sdf.Res, sdf. Ind, k.gen.cast (IntegerType ())). OrderBy ('...
вопрос задан: 16 January 2019 04:16
0
ответов

Аналогичные алгоритмы хеширования в Teradata и Spark

Я выполняю инкрементную загрузку данных, поступающих из базы данных Teradata, и сохраняю их в виде файла паркета. Поскольку таблицы из Teradata содержат миллиарды строк, мне нужен мой скрипт PySpark ...
вопрос задан: 16 January 2019 03:07
0
ответов

Pyspark Структурированные потоковые динамические раздвижные окна

Я пытаюсь получить максимальное, среднее для всех строк за последние x минут (например, 10 минут) по столбцу s1 относительно столбца времени события. За исключением того, что данные поступают в виде потоков из Кафки. Для каждой входящей строки я ...
вопрос задан: 16 January 2019 00:32
0
ответов

Использование Spark DataFrame непосредственно в Keras (блоки данных)

У меня есть текст, который я хочу классифицировать с помощью keras. Я создал конвейер, который принимает текст и выполняет некоторые преобразования в нем, и в конце концов один горячий кодирует его. Теперь я хочу пройти ...
вопрос задан: 15 January 2019 18:32
0
ответов

Получение определенного поля из выбранной строки в Pyspark DataFrame

У меня есть Spark DataFrame, построенный через pyspark из файла JSON, как sc = SparkContext () sqlc = SQLContext (sc) users_df = sqlc.read.json ('users.json') Теперь я хочу получить доступ к данным selected_user, где. ..
вопрос задан: 13 January 2019 20:31
0
ответов

Почему Spark считает, что это кросс / декартово соединение

Я хочу объединить данные дважды, как показано ниже: rdd1 = spark.createDataFrame ([(1, 'a'), (2, 'b'), (3, 'c')], ['idx', 'val'] ) rdd2 = spark.createDataFrame ([(1, 2, 1), (1, 3, 0), (2, 3, 1)], ['key1', 'key2', 'val'] ...
вопрос задан: 7 January 2019 17:58
0
ответов

Как рассчитать разницу дат в писпарке?

У меня есть такие данные: df = sqlContext.createDataFrame ([('1986/10/15', 'z', 'null'), ('1986/10/15', 'z', 'null'), ( '1986/10/15', 'c', 'null'), ('1986/10/15', 'null', 'null'), (...
вопрос задан: 7 January 2019 05:57
0
ответов

Как разбить Вектор на столбцы - используя PySpark

Контекст: у меня есть DataFrame с 2 столбцами: слово и вектор. Где тип столбца "вектор" является VectorUDT. Пример: слово | вектор утверждать | [435,323,324,212 ...] И я хочу получить это: ...
вопрос задан: 6 January 2019 21:59
0
ответов

Spark добавить новый столбец в dataframe со значением из предыдущей строки

Мне интересно, как я могу добиться следующего в исходном кадре данных Spark (Pyspark): + - + --- + | id | num | + - + --- + | 4 | 9.0 | + - + --- + | 3 | 7.0 | + - + --- + | 2 | 3.0 | + - + --- + | 1 | 5.0 | + - + --- + В результате ...
вопрос задан: 6 January 2019 15:00
0
ответов

Pyspark .toPandas (): «Неподдерживаемая основная версия файла класса 55»

У меня есть фрейм данных Pyspark, который я конвертирую в Pandas df, чтобы на нем можно было использовать seaborn. И я получаю сообщение об ошибке: IllegalArgumentException: «Неподдерживаемый файл класса Major Major 55» Я пытался ...
вопрос задан: 31 December 2018 16:19
0
ответов

Исключение Null Pointer в любое время, когда я пытаюсь выполнить операцию на фрейме Spark

Я использую pyspark в ноутбуке zeppelin, чтобы попытаться выполнить SQL-запрос в базе данных postgres. Я использую драйвер postgresql jdbc. Я могу успешно сделать это с некоторыми запросами, но у меня есть один ...
вопрос задан: 13 July 2018 23:51
0
ответов

Неисправность портирования искрового кода Scala для PySpark

Я нашел пример кодирования строк Spark DataFrame для Avro в Scala. кредит: Spark Dataframe пишите на тему кафки в формате avro? Мои приложения написаны на Python, и у меня есть ...
вопрос задан: 13 July 2018 15:29
0
ответов

Python, определяющий общие столбцы

Мне нужно определить общие столбцы из 2 / нескольких разных фреймов. Имена столбцов будут разными. Нужно знать, есть ли в библиотеке какая-либо библиотека, которая имеет интеллект для этого. Если пользовательский подход, как я могу обратиться ...
вопрос задан: 13 July 2018 12:49
0
ответов

Суммарная сумма Python Spark по группам с использованием DataFrame

Как рассчитать совокупную сумму для каждой группы, в частности, используя абстракцию DataFrame; а в PySpark? С примером набора данных следующим образом: df = sqlContext.createDataFrame ([(1,2, "a"), (3,2, "a"), (...
вопрос задан: 20 February 2018 17:24
0
ответов

Ошибка sqlContext HiveDriver в SQLException: метод не поддерживается

Я пытался использовать sqlContext.read.format ("jdbc"). Options (driver = "org.apache.hive.jdbc.HiveDriver"), чтобы получить таблицу Hive в Spark без какого-либо успеха. Я провел исследование и прочитал ниже: Как ...
вопрос задан: 1 February 2018 11:32