pyspark - список вопросов по программированию pyspark

1

ответ

Как реализовать & ldquo; else if & rdquo; на искровом каркасе без UDF? [Дубликат]

В приведенной ниже ссылке объясняется, как реализовать IF ELSE в Spark. Как использовать несколько условий с помощью pyspark.sql.funtions.when ()? Если мой блок данных выглядит так A B C 10 2 300 20 3 200 30 7 ...

вопрос задан: 19 April 2016 21:15

1

ответ

Как контролировать количество задач, выполняемых для каждого исполнителя в PySpark [duplicate]

Я использую Spark для запуска двоичного файла C ++, который использует много памяти. Я запускаю его следующим образом: rdd.map (lambda x: subprocess.check_call (["./ high_memory_usage_executable"])) Я получаю -9 return ...

performance apache-spark pyspark

вопрос задан: 17 April 2016 20:56

1

ответ

Как использовать dataframes в функции карты в Spark? [Дубликат]

Я занимаюсь машинным обучением, и у меня есть два фрейма Spark, содержащие данные обучения и тестирования соответственно. У меня есть функция, которая принимает некоторую конфигурацию модели, обучает модель на ...

python apache-spark machine-learning pyspark spark-dataframe

вопрос задан: 8 March 2016 06:01

1

ответ

подготовить модель по кадру данных с несколькими столбцами sparseVector [duplicate]

Предположим, у меня есть dataframe с двумя или более sparseVector столбцом, и я хочу сделать модель над ним в Pyspark. Я знаю, видел некоторые примеры, что модель была сделана по одному разреженному столбцу. Как ...

apache-spark pyspark

вопрос задан: 5 March 2016 00:21

1

ответ

Используйте банку в искровом коде: pyspark [duplicate]

Мне нужно читать из mysql из моего искрового кода с помощью SQLContext.read.format ('jdbc'). Options (key: value pairs) Но для подключения требуется класс com.jdbc.mysql.Driver. В настоящее время у меня этого нет ...

python mysql apache-spark pyspark

вопрос задан: 11 February 2016 20:28

1

ответ

Ошибка при попытке создать экземпляр sqlContext [duplicate]

Я запускаю среду pacpark anaconda. И мне нужно реализовать Dataframe из RDD. Но когда я пытаюсь внедрить sqlContext: из pyspark.sql import SQLContext sc = SparkContext ....

apache-spark pyspark apache-spark-sql spark-dataframe

вопрос задан: 10 January 2016 14:22

1

ответ

Прочтите json, используя pypair, и назначьте значение keypair на основе индекса массива [duplicate]

У меня есть формат json, например {"change": [{"kind": "insert", "schema": "public", "table": "test123", "columnnames": ["name", "id"] , "typestypes": ["character differenting (20)", "integer"], "columnvalues": ["mani", 3]}]} ...

python arrays apache-spark pyspark rdd

вопрос задан: 19 October 2015 17:57

1

ответ

искровое соединение - параллельная производительность [дубликат]

У меня 50 миллионов записей в левой таблице и 1000 строк в правой таблице и попытка присоединиться к записи, используя «как». Ниже я использую sql, но как я могу писать в искру. Если я запустил его, как ...

pyspark apache-spark-sql

вопрос задан: 17 October 2015 18:21

1

ответ

Запросить внешний фрейм данных в карте Spark Streaming или foreachRDD [дубликат]

Я пытаюсь изучить Spark, и у меня возникают проблемы с потоком Apache Spark. У меня есть dataRrame userRecs со списком фильмов, рекомендованных для каждого UserID и другого фреймворка dfMovies с помощью ...

python apache-spark pyspark spark-streaming

вопрос задан: 17 September 2015 00:54

1

ответ

Отладка Pyspark в кластере [дубликат]

Если задания pyspark терпят неудачу в кластере, как отлаживать? Должны ли мы перезапустить весь процесс приложения с самого начала или его можно перезапустить с неудачного шага?

apache-spark pyspark amazon-emr spark-submit

вопрос задан: 21 August 2015 14:29

1

ответ

Отладка локального искрового исполнителя в pycharm [duplicate]

Я хочу выполнить работу искрового исполнителя, работающего локально на моей машине, от Pycharm. Я использую явные функциональные возможности в виде dataset.foreachPartition (f), и я хочу видеть ...

apache-spark pyspark pycharm

вопрос задан: 21 August 2015 14:29

1

ответ

как сделать глобальный список в искры Apache, который будет распространен на разные узлы [duplicate]

Есть ли какой-либо глобальный список, такой как переменная в искры Apache, которая может быть распределена между узлами. Аккумулятор - это один из вариантов, но он является переменной счетчика и, как я читал в документах, это просто целочисленная перемен

apache-spark pyspark

вопрос задан: 17 August 2015 19:47

1

ответ

Как разрешить связь master / detail (parent / child) с pyspark с использованием порядка входных данных? [Дубликат]

надеюсь, вы могли бы мне помочь. Я довольно новичок в Spark, и я ищу решение, как решить взаимоотношения с основными деталями из данных, которые я получаю. Входные данные выглядят как A; A Thing ...

apache-spark pyspark

вопрос задан: 5 July 2015 11:35

1

ответ

Как преобразовать определенные строки в столбец в отдельный столбец с помощью pyspark и перечислить каждую строку с увеличением числового индекса? [Дубликат]

Я борется за то, чтобы придумать разумное решение для форматирования моих данных в соответствующую структуру для ввода в фреймворк pyspark. Я новичок в pyspark, поэтому, возможно, я чего-то не хватает ...

apache-spark pyspark spark-dataframe rdd

вопрос задан: 5 July 2015 11:35

1

ответ

PySpark: Преобразование Spark DataFrame в Pandas Dataframe [альтернатива для .toPandas ()] [duplicate]

У меня огромный кадр искровых данных со многими столбцами (PySpark). [количество столбцов около 100 и количество строк более 5000000]. Я хочу преобразовать этот фрейм данных в кадр данных Pandas. Однако, ...

pandas apache-spark dataframe pyspark

вопрос задан: 22 June 2015 14:55

1

ответ

Функция на карте не выполняется [дубликат]

Я хочу выполнить функцию «выполнить» внутри карты в csvLine, но она не выполняется из neo4j.v1 import GraphDatabase, basic_auth driver = GraphDatabase.driver («bolt: // localhost», auth = ...

apache-spark neo4j pyspark

вопрос задан: 24 June 2014 15:12

0

ответов

pyspark присоединиться к нескольким условиям

Я хочу спросить, есть ли у вас какие-либо идеи о том, как я могу указать много условий в pyspark, когда я использую .join () Пример: с hive: query = "select a.NUMCNT, b.NUMCNT как RNUMCNT, a.POLE, b. Полюс как RPOLE, ....

apache-spark pyspark

вопрос задан: 30 July 2019 09:55

0

ответов

Как отключить ведение журнала INFO в Spark?

Я установил Spark с помощью руководства AWS EC2, и я могу нормально запустить программу с помощью сценария bin / pyspark, чтобы перейти к приглашению spark, а также успешно выполнить быстрый запуск. Однако я ...

apache-spark pyspark scala python hadoop

вопрос задан: 11 May 2019 00:48

0

ответов

Что означают различия между собственными векторами pyspark SVD и собственными векторами PCA?

Я использую функции SVD и PCA в (pyspark) mllib (Spark 2.2.0), как описано в этой ссылке: https://spark.apache.org/docs/2.2.0/mllib-dimensionality-reduction.html Предположим, что нам дают ...

pyspark pca svd

вопрос задан: 6 May 2019 19:50

0

ответов

Как создать фрейм данных из списка в Spark SQL?

Версия Spark: 2.1 Например, в pyspark я создаю список test_list = [['Hello', 'world'], ['I', 'am', 'fine']], затем как создать фрейм данных из test_list где тип датафрейма ...

pyspark apache-spark python

вопрос задан: 6 May 2019 01:29

0

ответов

Понимание функции разделения MLlib из PySpark

У меня есть следующие преобразованные данные. + -------- + ------------------ + | особенности | этикетки | + -------- + ------------------ + | [24,0] | +6,382551510879452 | | [29,0] | +6,233604067150788 | | [35,0] | ...

pyspark linear-regression apache-spark-mllib

вопрос задан: 19 April 2019 20:39

0

ответов

Как создать фрейм данных с определенным значением строки + следующее значение в той же строке?

Допустим, у нас есть следующий DataFrame: # a b c d # 1 10:10 красный открыт # 2 11:12 блау закрыт # 3 11:30 черный закрыт # 4 02:13 красный открыт # 5 03:00 желтый закрыт # 6 ...

dataframe pyspark

вопрос задан: 14 April 2019 11:21

0

ответов

Проблема импорта модулей из файла .zip (созданного в python с использованием пакета zipfile) с --py-файлами в EMR в Spark

Я пытаюсь заархивировать свое приложение в моем тестовом файле, чтобы инициировать отправку в кластере EMR, например: Структура папок модулей: app --- module1 ------ test.py ------ test2.py - - module2 ------ ...

python python-3.x pyspark amazon-emr

вопрос задан: 13 April 2019 14:11

0

ответов

При сопоставлении строк с использованием конвейера ML возникла ошибка. Не удалось выполнить пользовательскую функцию ($ anonfun $ 1: (вектор) = > массив < вектор >)

я пытаюсь сделать совпадение строк на двух данных. Допустим, dataframe1 содержит X предложений, а dataframe2 Y предложений. Мне нужно проверить, любое предложение из Dataframe1 совпадает с ...

pyspark string-matching fuzzy-search

вопрос задан: 11 April 2019 10:34

0

ответов

Как использовать не основанное на времени окно с искровой структурой потоковой передачи данных?

Я пытаюсь использовать окно структурированной потоковой передачи с искрой и кафкой. Я использую окно для данных, не основанных на времени, поэтому я получаю эту ошибку: «Не потоковые окна не поддерживаются при потоковой передаче данных DataFrames / ...

pyspark apache-spark-sql spark-streaming

вопрос задан: 9 April 2019 11:26

0

ответов

python имеет атрибут .powers_ в функции PolynomialFeatures, хотите найти аналогичный атрибут в функции PolynomialExpansion в pyspark

Я пытаюсь найти атрибут, который работает аналогично атрибуту .powers_ в PolynomialFeatures (функция python) для функции PolynomialExpansion в pyspark. Я провел некоторое исследование, но не смог найти ...

pyspark apache-spark-mllib

вопрос задан: 9 April 2019 08:17

0

ответов

Анализ правил ассоциации Pyspark +: как перевести фрейм данных в формат, подходящий для частого анализа шаблонов?

Я пытаюсь использовать pyspark для майнинга правил ассоциации. Допустим, мои данные похожи на: myItems = spark.createDataFrame ([(1, 'a'), (1, 'b'), (1, '...

apache-spark pyspark associations fpgrowth

вопрос задан: 8 April 2019 05:26

0

ответов

Как добавить совершенно не относящийся к делу столбец во фрейм данных при использовании pyspark, spark + databricks

Допустим, у меня есть фрейм данных: myGraph = spark.createDataFrame ([(1.3,2.1,3.0), (2.5,4.6,3.1), (6.5,7.2,10.0)], ...

string apache-spark dataframe pyspark databricks

вопрос задан: 7 April 2019 07:00

0

ответов

Pyspark перебирает сгруппированные данные

У меня есть датафрейм, который выглядит следующим образом Out [105]: DataFrame [_1: struct < file_name: string & gt ;, _2: string] Я хотел бы сгруппировать по _2, отсортировать каждую группу и выполнить итерации по каждой группе и сделать некоторые ...

pyspark apache-spark-sql

вопрос задан: 5 April 2019 16:49

0

ответов

Как конвертировать сводную таблицу в df с помощью PySpark

У меня следующая проблема: я использую PySpark для чтения таблицы из Snowflake в качестве кадра данных. Затем я выполняю pivot в кадре данных. После этого я хочу преобразовать объект сводки обратно в фрейм данных ...

dataframe group-by pyspark pivot pyspark-sql

вопрос задан: 5 April 2019 04:40