pyspark - список вопросов по программированию pyspark

1

ответ

Как добавить или добавить модули Python или PySpark в PYTHONPATH в коде Visual Studio

Существует два подхода к настройке Pyspark в IDE: Использование Pip i.e pip install pyspark, Как упомянуто в следующей ссылке (E0401: Невозможно импортировать 'pyspark в VSCode в Windows 10), добавив ...

вопрос задан: 11 March 2019 14:33

1

ответ

Изменить только один столбец-разделитель PYTHON

a = ['0, Италия, "Ароматы включают в себя тропические фрукты, метлу, серу и сушеную траву. Вкус не слишком выразительный, предлагая незрелое яблоко, цитрусовые и сушеный шалфей наряду с оживленной кислотностью.", Vulkà Bianco, ...

python python-3.x hive pyspark rdd

вопрос задан: 6 March 2019 13:36

1

ответ

Невозможно сохранить в ES из фрейма данных pyspark

Я использую ноутбук Jupyter. У меня есть фрейм данных pyspark, который я загрузил, используя команду ниже

python-3.x elasticsearch pyspark

вопрос задан: 6 March 2019 07:01

1

ответ

Выполнение искры в первый раз занимает приблизительно 13 секунд, но второе, а каждый второй раз - 3,5 секунды.

Я использую pyspark и Flask для интерактивной искры в качестве сервисного приложения. Мое приложение должно получить запрос с некоторыми параметрами и вернуть ответ обратно. Мой код здесь: // сначала я делаю UDF ...

apache-spark flask pyspark

вопрос задан: 5 March 2019 16:49

1

ответ

Влияет ли количество разделов всех объединяемых таблиц на максимальных исполнителей?

У меня есть Spark SQL как select ... from A join B на A.k = B.k join C на A.k = C.k A имеет 2k разделов; B имеет 7 разделов; пока С не разделен. Я установил максимальный динамический номер исполнителя на ...

apache-spark pyspark apache-spark-sql

вопрос задан: 4 March 2019 08:16

1

ответ

Предупреждение Hadoop «Невозможно загрузить библиотеку native-hadoop для вашей платформы»

Я использую PySpark и не устанавливал Hadoop как таковой. Я получаю это предупреждение Hadoop «Невозможно загрузить библиотеку native-hadoop для вашей платформы». Нужно ли устанавливать Hadoop, если да, то как ...

hadoop pyspark

вопрос задан: 3 March 2019 08:29

1

ответ

Восстановите Матрицу из компонентов SVD с помощью Pyspark

Я работаю над SVD, используя pyspark. Но в документации, как и в любом другом месте, я не нашел, как восстановить матрицу обратно, используя сегментированные векторы. Например, используя svd of ...

apache-spark pyspark apache-spark-mllib svd

вопрос задан: 2 March 2019 09:11

1

ответ

Фрейм данных pyspark работает с несколькими столбцами динамически

Предположим, что в pyspark у меня есть фрейм данных со столбцами, названными 'a1', 'a2', 'a3' ... 'a99'. Как применить операцию к каждому из них, чтобы динамически создавать новые столбцы с новыми именами? Например, чтобы узнать ...

python apache-spark pyspark apache-spark-sql

вопрос задан: 28 February 2019 18:20

1

ответ

Как проверить, если RDD пуст с помощью потоковой передачи искры?

У меня есть следующий код pyspark, который я использую для чтения файлов журнала из каталога logs /, а затем сохраняю результаты в текстовый файл, только когда в нем есть данные ... другими словами, когда RDD не пуст. ...

python-3.x apache-spark pyspark spark-streaming

вопрос задан: 28 February 2019 17:39

1

ответ

Добавить агрегированные столбцы в сводку без объединения

Учитывая таблицу: df = sc.parallelize ([(1,1,1), (5,0,2), (27,1,1), (1,0,3), (5,1,1) , (1,0,2)]). ToDF (['id', 'error', 'timestamp']) df.show () + --- + ----- + ------- - + | Идентификатор | ошибка | Отметка времени | + --- + ----- + ------...

dataframe group-by pyspark pivot-table

вопрос задан: 28 February 2019 09:14

1

ответ

Проблема вставки данных в таблицу кустов с использованием искры

В настоящее время я работаю над Spark версии 2.1.0, и в рамках моей работы по сбору данных я должен использовать метод insertinto для загрузки данных в таблицы кустов. Но есть ошибка с версией Spark 2.1, вставьте в ...

apache-spark hive pyspark apache-spark-sql

вопрос задан: 26 February 2019 16:41

1

ответ

Как я могу найти медиану первых значений каждого списка в фрейме данных pyspark?

значения = [(u '[23,4,77,890,455]', 10), (u '[11,2,50,1,11]', 20), (u '[10,5,1,22,04 ] ', 30)] df = sqlContext.createDataFrame (values, [' list ',' A ']) df.show () + ----------------- + - - + | list_1 | | + -----...

python apache-spark pyspark apache-spark-sql pyspark-sql

вопрос задан: 26 February 2019 10:31

1

ответ

Pyspark: невозможно импортировать CSV-файл в экземпляр Zeppilin

Я не могу запустить следующую строку кода. из pyspark.sql import SQLContext sqlContext = SQLContext (sc) df_t = sqlContext.read.format ('com.databricks.spark.csv'). options (header = 'true', inferschema = '...

csv import pyspark apache-zeppelin

вопрос задан: 21 February 2019 03:35

1

ответ

Не удалось собрать в & hellip; из-за отмены этапа, потому что SparkContext был закрыт

Я хочу отобразить количество элементов в каждом разделе, поэтому я пишу следующее: def count_in_a_partition (iterator): yield sum (1 для _ в итераторе) Если я использую его как этот print ("number of ...

apache-spark pyspark rdd

вопрос задан: 19 February 2019 14:54

1

ответ

Почему pyspark sql запрос против S3 возвращает нули

Я получаю разные результаты при выполнении одного и того же запроса в Афине к источнику S3 по сравнению с выполнением его из скрипта pyspark в кластере EMR (1 x 10). Я получаю данные от Афины, но все, что я ...

amazon-s3 pyspark null amazon-emr amazon-athena

вопрос задан: 21 January 2019 16:37

1

ответ

Объединить условие во фреймах данных со списком в качестве записей

У меня есть 2 кадра данных со следующими записями: df1- + ---------- + -------------------- + | id1 | joinKey1 | + ---------- + -------------------- + | b000jz4hqo | [clickart, 950, 0 ... | | ...

python pyspark

вопрос задан: 20 January 2019 11:03

1

ответ

Ошибка использования встроенной функции python abs в pyspark-2.3

Я пытался преобразовать отрицательное число в положительное, используя встроенную в Python функцию abs в pyspark shell-2.3. numb = -2 print (abs (numb)) Это выдает мне странную ошибку: py4j.protocol.Py4JError: An ...

python apache-spark pyspark pyspark-sql

вопрос задан: 19 January 2019 22:53

1

ответ

PySpark заполнить отсутствующее / неправильное значение сгруппированным средним

У меня есть Spark dataframe с одним отсутствующим и одним неправильным значением. из pyspark.sql import Row из pyspark.sql.types import StringType, DoubleType, StructType, StructField # данные данных о продажах фруктов = [...

pyspark apache-spark-sql databricks

вопрос задан: 19 January 2019 21:22

1

ответ

как получить доступ к СДР в другом СДР?

У меня есть 2 RDD (в pyspark) в форме rdd1 = (id1, value1) и rdd2 = (id2, value2), где id уникальны (т.е. все id1 отличаются от id2). у меня есть третий СДР в форме resultRDD = ((id1, id2), value3). ...

python apache-spark pyspark

вопрос задан: 19 January 2019 12:03

1

ответ

PySpark проблемы с загрузкой непригодного объекта модели

Я играл с функциями сохранения и загрузки моделей pyspark.ml.classification. Я создал экземпляр RandomForestClassifier, установил значения для пары параметров и вызвал сохранение ...

apache-spark pyspark apache-spark-ml

вопрос задан: 19 January 2019 09:44

1

ответ

Добавление столбца в фрейм данных PySpark включает стандартные отклонения столбца на основе группировки по двум другим столбцам

Предположим, что у нас есть CSV-файл, который был импортирован в виде фрейма данных в PysPark следующим образом из pyspark.sql import SparkSession spark = SparkSession.builder.getOrCreate () df = spark.read.csv ("file ...

dataframe pyspark standard-deviation

вопрос задан: 19 January 2019 00:38

1

ответ

Как показать столбец в фрейме данных PySpark в научной нотации в правильном формате

Предположим, что у меня есть датафрейм в pyspark: col1 | col2 | + --------- + --------- + | 3.34567e4 | 45876549 | + --------- + --------- + | 4.4781e8 | 7856549 | + --------- + -...

formatting dataframe pyspark

вопрос задан: 18 January 2019 19:31

1

ответ

Pyspark не входит в файл

Я запускаю сценарий pyspark с командой spark-submit, перенаправляющий стандартный вывод в файл, тоже с tee, чтобы получить журнал. Команда следующая: spark-submit test.py | tee test.xxx ...

python python-3.x pyspark user-defined-functions tee

вопрос задан: 18 January 2019 09:21

1

ответ

Как работает отображение на rdd в pyspark?

Я изучал pyspark, когда столкнулся с этим. из pyspark.sql import Row df = spark.createDataFrame ([Row ([0,45,63,0,0,0,0]), Row ([0,0,0,85,0,69,0]) ...

rdd apache-spark-sql pyspark

вопрос задан: 18 January 2019 06:32

1

ответ

PySpark 2.4: перестало работать программное добавление Maven JAR-координат

Ниже приведен мой фрагмент запуска PySpark, который довольно надежен (я давно его использую). Сегодня я добавил две координаты Maven, показанные в опции spark.jars.packages (эффективно "...

python maven apache-spark pyspark apache-kafka

вопрос задан: 18 January 2019 04:04

1

ответ

Эффективное объединение большого количества pyspark DataFrames

Я пытаюсь выполнить объединение тысяч кадров данных в списке Python. Я использую два подхода, которые я нашел. Первый с помощью for loop union, а второй использует functools ....

python apache-spark-sql pyspark dataframe

вопрос задан: 18 January 2019 01:05

1

ответ

Не могу записать файлы (.csv, .parquet) из PySpark [дубликаты]

Я использую PySpark и могу читать файлы, например: df = spark.read.load ("data.parquet"). Проблема возникает, когда я пытаюсь записать этот файл в файл, например: df.write.save ("new_data ....

python pyspark

вопрос задан: 17 January 2019 16:04

1

ответ

python: уменьшить на ключ с условным оператором if?

(K1, (v1, v2)) (K2, (v3, v4)) (K1, (v1, v5)) (K2, (v3, v6)) Как можно суммировать значения ключа при условии первого значения Это некоторые или экв, так что я получаю (k1, (v1, v2 + v5), (k2, (v3, v4 + v6)?

pyspark rdd reduce

вопрос задан: 17 January 2019 11:37

1

ответ

Как Паркет обрабатывает столбцы SparseVector?

Я очень новичок в PySpark. Я собирал tfidf и хочу сохранить его на диске в качестве промежуточного результата. Теперь оценка IDF дает мне представление SparseVector. Однако при попытке сохранить его как ...

pyspark parquet apache-spark

вопрос задан: 17 January 2019 03:10

1

ответ

Запись в режиме добавления к красному смещению в pyspark

Я пытаюсь добавить dataframe в таблицу красного смещения с помощью pyspark. Что я делаю неправильно? Таблица существует и уже содержит некоторые данные. myDf.write \ .format ("com.databricks.spark ....

pyspark amazon-redshift

вопрос задан: 16 January 2019 06:24