0
ответов

Наиболее эффективный способ взрыва столбца данных Pyspark

У меня очень большой фрейм данных pyspark. Фрейм данных содержит два важных столбца: ключ и токены, связанные с этим ключом. Таким образом, в каждой строке есть ключ и список токенов: load_df.show (5) + -----------------...
вопрос задан: 30 March 2019 22:47
0
ответов

Сложные функции от Python до Pyspark - РЕДАКТИРОВАТЬ: проблема конкатенации (я думаю)

Я пытаюсь преобразовать функцию панды на двух фреймах данных в функцию pyspark. В частности, у меня есть дата-кадр ключей и функций в виде строк, а именно: > мв | Ключи | Формула ...
вопрос задан: 29 March 2019 11:41
0
ответов

Проблема Pyspark с метками времени при чтении БД MySQL

Python 2.7 Pyspark 2.2.1 JDBC-формат для MySQL-> Spark DF Для написания Spark DF- > AWS Redshift Я использую драйвер `Spark-Redshift` от Databricks. Я читаю данные в Spark из MySQL ...
вопрос задан: 28 March 2019 09:49
0
ответов

Как отсортировать GroupedData в Spark с помощью Pyspark

Я новичок, чтобы зажечь, но я должен объединить 2 кадра данных вместе. Затем сгруппируйте по одному из столбцов и отсортируйте по другому столбцу, и я продолжаю получать ошибки. Ниже я попробовал: cmte = spark.read.json ("/ ...
вопрос задан: 28 March 2019 09:35
0
ответов

Pyspark join не принимает 5 позиционных аргументов?

Я реализую LEFT JOIN на 5 столбцов в Pyspark. Но он выдает ошибку, как показано ниже. TypeError: join () принимает от 2 до 4 позиционных аргументов, но 5 получили код, реализованный:
вопрос задан: 28 March 2019 07:13
0
ответов

PySpark не записывает статистику для столбцов TimeStamp и Decimal в формате Parquet

Я пытаюсь сгенерировать файлы Parquet с помощью Pyspark. Я обнаружил, что в метаданных сгенерированных файлов Parquet статистика столбцов TimestampType и DecimalType не задается
вопрос задан: 28 March 2019 06:02
0
ответов

Как сравнить 2 кадра данных в pyspark на основе динамических столбцов

У меня есть 2 dataframes, которые я обрабатываю в pyspark из разных источников. Эти кадры данных имеют несколько общих столбцов. Вот что мне нужно сделать, сравнить 2 кадра данных на основе столбцов, которые ...
вопрос задан: 28 March 2019 03:08
0
ответов

Периодически выполнять запрос куста без блокировки при выполнении заданий потоковой передачи

Как мне периодически выполнять неблокирующий запрос MSCK REPAIR TABLE database.table? Поддерживает ли Spark Streaming это изначально или я должен полагаться на модуль потоков Python? У меня есть ...
вопрос задан: 27 March 2019 15:38
0
ответов

Как получить среднее сходство Jaccard среди строк текстового столбца, используя PySpark

Мой Dataframe выглядит так: schema = ['name', 'text'] rdd = sc.parallelize (["abc, xyz a", "abc, xyz a", "abc, xyz b", "att, xcy b "," att, vwa c "," acy, xyz a "," acy, xyz a "]) \ .map (lambda x: x.split (", ")) ...
вопрос задан: 27 March 2019 06:17
0
ответов

PySpark: использовать первичный ключ строки в качестве начального числа для ранда

Я пытаюсь использовать функцию rand в PySpark для генерации столбца со случайными числами. Я бы хотел, чтобы функция rand принимала первичный ключ строки в качестве начального числа, чтобы число было ...
вопрос задан: 26 March 2019 21:25
0
ответов

Как установить mmlspark на локальной машине Windows?

Я установил pyspark на Windows на моей локальной машине. Все работает хорошо Я хочу установить mmlspark (я хочу использовать lightgbm). Любой может показать мне некоторые подробные шаги? Я прочитал ...
вопрос задан: 25 March 2019 15:26
0
ответов

PySpark Выбрать топ-записи, используя разделы

У меня есть большой набор данных на S3, сохраненный в виде файлов паркета, разделенных столбцом «last_update». Я хочу взять первые 10 миллионов записей, по заказу last_update ASC. Я пытался сохранить прикрепленный фрейм данных на S3 ...
вопрос задан: 25 March 2019 15:10
0
ответов

PySpark - обновить Dataframe из временного представления или другого dataframe

Я должен запустить и обновить данные на основе правил в другом кадре данных. Сначала я копирую оба в dataframes data_df и rules_df, затем перебираю правила, фильтрую данные и обновляю данные, как показано ниже ...
вопрос задан: 24 March 2019 05:37
0
ответов

Конвертировать Long Type () в DateTime () в pyspark, а также добавить дату

Предположим, у меня есть фрейм данных df со столбцом birth_date, который имеет значения ('123', '5345', 234345 ') и т. Д. Сначала я читаю фрейм данных из csv, используя df = sqlContext.read.csv (' s3: // путь / к / файлу», ...
вопрос задан: 22 March 2019 16:42
0
ответов

Разверните векторные столбцы в скалярные столбцы в Apache Spark в pyspark

Как расширить векторный столбец, присутствующий в кадре данных искры, в скалярные столбцы. Используемая мной версия spark 2.4.0, и я использую python (pyspark) для написания кода.
вопрос задан: 20 March 2019 15:37
0
ответов

AWS Склеивает задание для объединения столбцов во временную метку

Я очень новичок в использовании AWS Glue и Spark. Я пытаюсь запустить задание ETL, поэтому мои данные, которые в настоящее время анализируются как три отдельных столбца (год, месяц и день), и мне нужно объединить эти столбцы в ...
вопрос задан: 20 March 2019 14:35
0
ответов

Pyspark - удалить документ из таблицы MapR DB JSON

Требуется удалить некоторые строки, хранящиеся в таблице Json Mapr DB. Я использовал следующее для чтения и записи данных в таблицу mapr db json с помощью spark. Сохранение фрейма данных Apache Spark в JSON базы данных MapR
вопрос задан: 19 March 2019 06:56
0
ответов

Создание диапазона дат в PySpark

Я хотел создать диапазон дат в Spark Dataframe, по умолчанию нет функции для этого. Итак, я написал это из pyspark.sql import * import pyspark.sql.functions как F из pyspark.sql ....
вопрос задан: 18 March 2019 18:14
0
ответов

Блокнот Jupyter зависает при создании основного Spark Context

Я попытался создать игрушечную программу создания контекста Spark и запустить простую модель. Мой код выглядит следующим образом из pyspark.sql импорта SQLContext из pyspark импорта SparkContext, SparkConf из ...
вопрос задан: 18 March 2019 14:59
0
ответов

из pyspark_ext import * выдает ошибку: ModuleNotFoundError: нет модуля с именем 'pyspark_ext

Я пытаюсь создать конвейер в реальном времени от Кафки до HBase, используя Pyspark, используя блог: https://datafloq.com/read/real-time-kafka-data-ingestion-into-hbase-pyspark/2658 Ошибка ниже когда ...
вопрос задан: 10 March 2019 19:20
0
ответов

Проблема производительности Pyspark (Databricks). НЛП проблема

У меня проблема с производительностью при работе с задачей NLP в Pyspark, в Databricks: CONTEXT: у меня есть 2 фрейма данных pyspark со столбцом «ID» и столбцом «текст», например: Таблица A | Таблица ...
вопрос задан: 10 March 2019 15:18
0
ответов

PYSPARK: применить квантильный дискретизатор для всех столбцов

Предположим, у меня есть 1000 столбцов. Как применить QuantileDiscretizer для всех столбцов? Это похоже на следующее для дискретизации одного столбца: result_discretizer1 = QuantileDiscretizer (numBuckets = 2, ...
вопрос задан: 7 March 2019 09:38
0
ответов

Доступ к Vertica с помощью Kerberos в PySpark

Я использую PySpark 2 & amp; пытается получить доступ к данным из Vertica, аутентифицированным Kerberos. Я использую следующий механизм с драйвером JDBC: # PySpark python 3.5 krb_url = "jdbc: vertica: // vertica ....
вопрос задан: 3 March 2019 08:57
0
ответов

Ядра Pyspark / Pyspark не работают в ноутбуке Jupyter

Здесь установлены ядра: $ jupyter-kernelspec list Доступные ядра: apache_toree_scala / usr / local / share / jupyter / kernels / apache_toree_scala apache_toree_sql / usr / local / share / jupyter / ...
вопрос задан: 3 March 2019 04:41
0
ответов

Pyspark UDF - TypeError: объект 'module' не вызывается

Я пытаюсь запустить следующий код, основанный на некотором учебнике, который я нашел в сети: импортировать pandas как pd из pyspark.sql, импортировать SparkSession из pyspark.sql, импортировать функции из pyspark.sql import udf ...
вопрос задан: 1 March 2019 08:37
0
ответов

Соедините pyspark с mongodb из Google-Colab

Я хочу подключить Pyspark и Google Colab. У меня есть информация в mongodb по облаку (mlab). В Google Colab я выполняю этот скрипт:! Apt-get install openjdk-8-jdk-headless -qq > / dev / null! ...
вопрос задан: 28 February 2019 21:40
0
ответов

JDBC соединение Pyspark 2.3.0 возвращает пустой набор результатов

Я пытаюсь подключиться к своей базе данных улья, используя JDBC через pyspark. Я не получаю никакой ошибки соединения, однако, я получаю пустой набор результатов. Импорт кода pyspark spark = pyspark.sql.SparkSession ....
вопрос задан: 21 February 2019 20:48
0
ответов

Pyspark: фильтр данных на основе нескольких условий

Я хочу отфильтровать фрейм данных в соответствии со следующими условиями: во-первых (d <5) и во-вторых (значение col2 не равно его аналогу в col4, если значение в col1 равно его аналогу в col3). Если ...
вопрос задан: 8 February 2019 06:04
0
ответов

Как я могу экспортировать очень большой файл данных PySpark в виде файла CSV?

Мой вопрос может быть похож на некоторые другие вопросы по stackoverflow, но он немного другой. У меня очень большой фрейм данных PysPark (около 40 миллионов строк и 30 столбцов). Я собираюсь экспортировать ...
вопрос задан: 20 January 2019 06:22
0
ответов

Pyspark - конвертировать элементы массива в нижний регистр

У меня есть спарк dataframe со столбцом, содержащим массив строк. Как преобразовать этот столбец так, чтобы каждый элемент в массиве был строчным? Желательно без использования UDF. Рамка данных: + -------...
вопрос задан: 19 January 2019 18:33