1
ответ

Как добавить или добавить модули Python или PySpark в PYTHONPATH в коде Visual Studio

Существует два подхода к настройке Pyspark в IDE: Использование Pip i.e pip install pyspark, Как упомянуто в следующей ссылке (E0401: Невозможно импортировать 'pyspark в VSCode в Windows 10), добавив ...
вопрос задан: 11 March 2019 14:33
1
ответ

Изменить только один столбец-разделитель PYTHON

a = ['0, Италия, "Ароматы включают в себя тропические фрукты, метлу, серу и сушеную траву. Вкус не слишком выразительный, предлагая незрелое яблоко, цитрусовые и сушеный шалфей наряду с оживленной кислотностью.", Vulkà Bianco, ...
вопрос задан: 6 March 2019 13:36
1
ответ

Невозможно сохранить в ES из фрейма данных pyspark

Я использую ноутбук Jupyter. У меня есть фрейм данных pyspark, который я загрузил, используя команду ниже
вопрос задан: 6 March 2019 07:01
1
ответ

Выполнение искры в первый раз занимает приблизительно 13 секунд, но второе, а каждый второй раз - 3,5 секунды.

Я использую pyspark и Flask для интерактивной искры в качестве сервисного приложения. Мое приложение должно получить запрос с некоторыми параметрами и вернуть ответ обратно. Мой код здесь: // сначала я делаю UDF ...
вопрос задан: 5 March 2019 16:49
1
ответ

Влияет ли количество разделов всех объединяемых таблиц на максимальных исполнителей?

У меня есть Spark SQL как select ... from A join B на A.k = B.k join C на A.k = C.k A имеет 2k разделов; B имеет 7 разделов; пока С не разделен. Я установил максимальный динамический номер исполнителя на ...
вопрос задан: 4 March 2019 08:16
1
ответ

Предупреждение Hadoop «Невозможно загрузить библиотеку native-hadoop для вашей платформы»

Я использую PySpark и не устанавливал Hadoop как таковой. Я получаю это предупреждение Hadoop «Невозможно загрузить библиотеку native-hadoop для вашей платформы». Нужно ли устанавливать Hadoop, если да, то как ...
вопрос задан: 3 March 2019 08:29
1
ответ

Восстановите Матрицу из компонентов SVD с помощью Pyspark

Я работаю над SVD, используя pyspark. Но в документации, как и в любом другом месте, я не нашел, как восстановить матрицу обратно, используя сегментированные векторы. Например, используя svd of ...
вопрос задан: 2 March 2019 09:11
1
ответ

Фрейм данных pyspark работает с несколькими столбцами динамически

Предположим, что в pyspark у меня есть фрейм данных со столбцами, названными 'a1', 'a2', 'a3' ... 'a99'. Как применить операцию к каждому из них, чтобы динамически создавать новые столбцы с новыми именами? Например, чтобы узнать ...
вопрос задан: 28 February 2019 18:20
1
ответ

Как проверить, если RDD пуст с помощью потоковой передачи искры?

У меня есть следующий код pyspark, который я использую для чтения файлов журнала из каталога logs /, а затем сохраняю результаты в текстовый файл, только когда в нем есть данные ... другими словами, когда RDD не пуст. ...
вопрос задан: 28 February 2019 17:39
1
ответ

Добавить агрегированные столбцы в сводку без объединения

Учитывая таблицу: df = sc.parallelize ([(1,1,1), (5,0,2), (27,1,1), (1,0,3), (5,1,1) , (1,0,2)]). ToDF (['id', 'error', 'timestamp']) df.show () + --- + ----- + ------- - + | Идентификатор | ошибка | Отметка времени | + --- + ----- + ------...
вопрос задан: 28 February 2019 09:14
1
ответ

Проблема вставки данных в таблицу кустов с использованием искры

В настоящее время я работаю над Spark версии 2.1.0, и в рамках моей работы по сбору данных я должен использовать метод insertinto для загрузки данных в таблицы кустов. Но есть ошибка с версией Spark 2.1, вставьте в ...
вопрос задан: 26 February 2019 16:41
1
ответ

Как я могу найти медиану первых значений каждого списка в фрейме данных pyspark?

значения = [(u '[23,4,77,890,455]', 10), (u '[11,2,50,1,11]', 20), (u '[10,5,1,22,04 ] ', 30)] df = sqlContext.createDataFrame (values, [' list ',' A ']) df.show () + ----------------- + - - + | list_1 | | + -----...
вопрос задан: 26 February 2019 10:31
1
ответ

Pyspark: невозможно импортировать CSV-файл в экземпляр Zeppilin

Я не могу запустить следующую строку кода. из pyspark.sql import SQLContext sqlContext = SQLContext (sc) df_t = sqlContext.read.format ('com.databricks.spark.csv'). options (header = 'true', inferschema = '...
вопрос задан: 21 February 2019 03:35
1
ответ

Не удалось собрать в & hellip; из-за отмены этапа, потому что SparkContext был закрыт

Я хочу отобразить количество элементов в каждом разделе, поэтому я пишу следующее: def count_in_a_partition (iterator): yield sum (1 для _ в итераторе) Если я использую его как этот print ("number of ...
вопрос задан: 19 February 2019 14:54
1
ответ

Почему pyspark sql запрос против S3 возвращает нули

Я получаю разные результаты при выполнении одного и того же запроса в Афине к источнику S3 по сравнению с выполнением его из скрипта pyspark в кластере EMR (1 x 10). Я получаю данные от Афины, но все, что я ...
вопрос задан: 21 January 2019 16:37
1
ответ

Объединить условие во фреймах данных со списком в качестве записей

У меня есть 2 кадра данных со следующими записями: df1- + ---------- + -------------------- + | id1 | joinKey1 | + ---------- + -------------------- + | b000jz4hqo | [clickart, 950, 0 ... | | ...
вопрос задан: 20 January 2019 11:03
1
ответ

Ошибка использования встроенной функции python ** abs ** в pyspark-2.3

Я пытался преобразовать отрицательное число в положительное, используя встроенную в Python функцию abs в pyspark shell-2.3. numb = -2 print (abs (numb)) Это выдает мне странную ошибку: py4j.protocol.Py4JError: An ...
вопрос задан: 19 January 2019 22:53
1
ответ

PySpark заполнить отсутствующее / неправильное значение сгруппированным средним

У меня есть Spark dataframe с одним отсутствующим и одним неправильным значением. из pyspark.sql import Row из pyspark.sql.types import StringType, DoubleType, StructType, StructField # данные данных о продажах фруктов = [...
вопрос задан: 19 January 2019 21:22
1
ответ

как получить доступ к СДР в другом СДР?

У меня есть 2 RDD (в pyspark) в форме rdd1 = (id1, value1) и rdd2 = (id2, value2), где id уникальны (т.е. все id1 отличаются от id2). у меня есть третий СДР в форме resultRDD = ((id1, id2), value3). ...
вопрос задан: 19 January 2019 12:03
1
ответ

PySpark проблемы с загрузкой непригодного объекта модели

Я играл с функциями сохранения и загрузки моделей pyspark.ml.classification. Я создал экземпляр RandomForestClassifier, установил значения для пары параметров и вызвал сохранение ...
вопрос задан: 19 January 2019 09:44
1
ответ

Добавление столбца в фрейм данных PySpark включает стандартные отклонения столбца на основе группировки по двум другим столбцам

Предположим, что у нас есть CSV-файл, который был импортирован в виде фрейма данных в PysPark следующим образом из pyspark.sql import SparkSession spark = SparkSession.builder.getOrCreate () df = spark.read.csv ("file ...
вопрос задан: 19 January 2019 00:38
1
ответ

Как показать столбец в фрейме данных PySpark в научной нотации в правильном формате

Предположим, что у меня есть датафрейм в pyspark: col1 | col2 | + --------- + --------- + | 3.34567e4 | 45876549 | + --------- + --------- + | 4.4781e8 | 7856549 | + --------- + -...
вопрос задан: 18 January 2019 19:31
1
ответ

Pyspark не входит в файл

Я запускаю сценарий pyspark с командой spark-submit, перенаправляющий стандартный вывод в файл, тоже с tee, чтобы получить журнал. Команда следующая: spark-submit test.py | tee test.xxx ...
вопрос задан: 18 January 2019 09:21
1
ответ

Как работает отображение на rdd в pyspark?

Я изучал pyspark, когда столкнулся с этим. из pyspark.sql import Row df = spark.createDataFrame ([Row ([0,45,63,0,0,0,0]), Row ([0,0,0,85,0,69,0]) ...
вопрос задан: 18 January 2019 06:32
1
ответ

PySpark 2.4: перестало работать программное добавление Maven JAR-координат

Ниже приведен мой фрагмент запуска PySpark, который довольно надежен (я давно его использую). Сегодня я добавил две координаты Maven, показанные в опции spark.jars.packages (эффективно "...
вопрос задан: 18 January 2019 04:04
1
ответ

Эффективное объединение большого количества pyspark DataFrames

Я пытаюсь выполнить объединение тысяч кадров данных в списке Python. Я использую два подхода, которые я нашел. Первый с помощью for loop union, а второй использует functools ....
вопрос задан: 18 January 2019 01:05
1
ответ

Не могу записать файлы (.csv, .parquet) из PySpark [дубликаты]

Я использую PySpark и могу читать файлы, например: df = spark.read.load ("data.parquet"). Проблема возникает, когда я пытаюсь записать этот файл в файл, например: df.write.save ("new_data ....
вопрос задан: 17 January 2019 16:04
1
ответ

python: уменьшить на ключ с условным оператором if?

(K1, (v1, v2)) (K2, (v3, v4)) (K1, (v1, v5)) (K2, (v3, v6)) Как можно суммировать значения ключа при условии первого значения Это некоторые или экв, так что я получаю (k1, (v1, v2 + v5), (k2, (v3, v4 + v6)?
вопрос задан: 17 January 2019 11:37
1
ответ

Как Паркет обрабатывает столбцы SparseVector?

Я очень новичок в PySpark. Я собирал tfidf и хочу сохранить его на диске в качестве промежуточного результата. Теперь оценка IDF дает мне представление SparseVector. Однако при попытке сохранить его как ...
вопрос задан: 17 January 2019 03:10
1
ответ

Запись в режиме добавления к красному смещению в pyspark

Я пытаюсь добавить dataframe в таблицу красного смещения с помощью pyspark. Что я делаю неправильно? Таблица существует и уже содержит некоторые данные. myDf.write \ .format ("com.databricks.spark ....
вопрос задан: 16 January 2019 06:24