20
ответов

Ошибка записи данных в формате PySpark (данные MovieLens) [дубликат]

Я только начал изучать Spark и Python и застрял. Я тестировал воды с набором данных MovieLens 1M, но застрял в соединении с dataframe и не мог понять, в чем проблема. Кажется ...
вопрос задан: 22 March 2016 14:59
12
ответов

Обновление версии python в pyspark [duplicate]

Я изучаю pyspark на Ubuntu 16.04. моя искробезопасная версия 2.2.1, а версия python (в искры) - 2.7.2. Я хочу обновить версию python в искровом режиме до 3.5. Как я могу это сделать?
вопрос задан: 28 May 2015 22:52
10
ответов

Как разбить большой текст на более мелкие файлы на основе столбца id, используя pyspark [duplicate]

У меня есть коллекция TSV-файлов на хранилище Azure blob, которые мне нужно разбить на основе идентификатора записи. например формат записи: | ID | имя | адрес | | - | ---- | ---------- | | 34 | Стивен | Дом | Я ...
вопрос задан: 22 February 2018 11:56
9
ответов

Замена groupBykey () с помощью reduceByKey () [duplicate]

Я пытаюсь заменить groupByKey () на reudceByKey (), я новичок pyspark и python, и мне сложно определить функцию лямбда для операции reduceByKey (). Вот код ...
вопрос задан: 17 August 2017 10:00
9
ответов

Не удалось загрузить модель pyspark.ml с помощью python-api-клиента livy и оболочки pysaprk [duplicate]

Я пытаюсь загрузить модель pyspark.ml с помощью python-api-клиента livy (https://github.com/cloudera/livy/tree/master/python-api) со следующей функцией: def load_model (context): from pyspark ....
вопрос задан: 25 December 2015 19:56
9
ответов

Как проверить, свободен ли световой кадр в pyspark [duplicate]

Прямо сейчас, я должен использовать df.count> 0, чтобы проверить, является ли кадр данных пустым или нет. Но это неэффективно. Есть ли лучший способ сделать это. Благодарю. PS: Я хочу проверить, пусто ли это, чтобы ...
вопрос задан: 22 September 2015 02:52
7
ответов

pyspark.sql.utils.IllegalArgumentException: u «Ошибка при создании экземпляра при чтении csv [duplicate]

Я пытаюсь читать csv-файл из S3, используя переменную url & gt; & gt; & gt; & gt; m = spark.read.csv (url, header = "true", sep = ",") Но я получаю сообщение об ошибке, как показано ниже. Traceback (последний последний звонок): ...
вопрос задан: 22 March 2017 05:11
7
ответов

Spark Job Ошибка после запуска [дубликат]

У меня есть искровое задание со следующей конфигурацией: Конфигурации = [{"Классификация": "Искра-по умолчанию", "Свойства": {"Искра ....
вопрос задан: 25 November 2015 11:14
7
ответов

py4j.protocol.Py4JJavaError: Произошла ошибка при вызове o243.trainRandomForestModel. : java.lang.OutOfMemoryError: пространство кучи Java [дубликат]

Я использую случайный лесной mllib pyspark в наборе данных HIGGS (который включает 11000000 экземпляров). Я хочу обучить 100 деревьев с 5 для глубины для каждого дерева. Кроме того, я создаю искру в автономном режиме с 4 узлами (...
вопрос задан: 25 November 2015 11:14
6
ответов

Pyspark: экспортировать искробезопасный фрейм в конкретный локальный файл csv в Spark Standalone [дубликат]

Я пытаюсь изучить pyspark 2.3.1. Я пытаюсь написать dataframe в один CSV-файл. Это мой код: из pyspark.sql импортировать SparkSession из pyspark.sql import Row из pyspark.sql ....
вопрос задан: 13 January 2018 03:50
6
ответов

Как вызвать функцию pre-define в python с помощью map ()? [Дубликат]

У меня есть 10 000 файлов, которые я обрабатываю, и у меня возникают проблемы с получением предопределенной функции. Вот мой код: def process_labs (labs): lab1 = labs.map (lambda x: x.split ('labIDs:')) ...
вопрос задан: 7 February 2016 02:05
6
ответов

Создание фиктивных переменных в SparkR [duplicate]

У меня есть Spark DataFrame, как показано ниже. custID | ProdType ----------------- 001 | prod1 001 | prod2 001 | prod3 002 | prod1 002 | prod3 002 | prod4 003 | prod1 003 | prod2 ...
вопрос задан: 10 November 2015 14:43
6
ответов

Поворот, группировка и частота в Пейспарке Dataframe [дубликат]

У меня есть таблица, которая выглядит так, как показано ниже. ++++++++++++++ col1 | col2 | ++++++++++++++ 1 | A | 1 | A | 2 | B | Я хочу найти частоту и поворот таблицы ...
вопрос задан: 10 November 2015 14:43
6
ответов

Pyspark: динамическое добавление столбцов в фрейм данных [дубликат]

У меня длинный csv, содержащий несколько связанных записей, например: group | item ------------ A 1 A 2 A 3 B 1 B 2 B 4 Список уникальных / отдельных элементов ...
вопрос задан: 10 November 2015 14:43
5
ответов

Spark - исправить - отправить ошибку локального и прямого импорта [дубликат]

Процесс успешно выполняется с помощью spark-submit --master local [*] script.py Я установил следующие переменные: export PYSPARK_PYTHON = / usr / bin / python export PYSPARK_DRIVER_PYTHON = / usr / bin / python ...
вопрос задан: 5 February 2016 01:25
5
ответов

Вывод функции foreach на Spark DataFrame [дубликат]

Я видел различные публикации (например, ответ на этот пост stackexchange), которые дают что-то похожее на код ниже как простой пример использования функции foreach () на Spark ...
вопрос задан: 13 August 2014 21:13
4
ответа

Как сохранить данные в формате текстового файла GZ в pyspark? ((Но не в формате csv) [дублировать]

У меня есть фрейм данных, как показано ниже + ------- + ------ + ---- + ---- + | | b | c | d | + ------- + ----------- + ---- + | 101 | 244 | 4 | 1 | | 101 | 245 | 5 | 0 | | 101 | 313 | 2 | 0 | | ...
вопрос задан: 28 November 2016 21:06
4
ответа

Чтобы обновить таблицу базы данных, используя SparkSQL [duplicate]

Я пытаюсь выполнить операции с базой данных с помощью SparkSQL и Pyspark. Я использую DB Postgresql и использую DataFrameReader и Writer с пакетом jdbc. Мне нужно обновить несколько строк через ...
вопрос задан: 6 January 2016 22:33
4
ответа

Импорт SparkContext из pyspark под управлением Jupyter Notebook на AWS EC2 [дубликат]

После настройки сервера AWS EC2 Linux я установил Anaconda, Spark на Hadoop, как описано в следующей лекции: https: //medium.com/@josemarcialportilla/getting-spark-python-and-jupyter-notebook -...
вопрос задан: 4 January 2016 09:14
4
ответа

Почему искра занимает время, чтобы выделить исполнителей и память перед отправкой задания [дублировать]

Я занимаюсь искровым заданием, занимающим 18 лет, в течение 8 секунд для фактической логики обработки (бизнес-логика) и 10 секунд для распределения исполнителей и памяти. Любые идеи о том, как сократить время до начала искры ...
вопрос задан: 23 November 2015 02:30
4
ответа

Как рассказать PySpark, где находится пакет pymongo-spark? [Дубликат]

Я создаю Data Science env't на ноутбуке с Ubuntu 14.04 LTS. Инструкции приведены в главе 2 Agile Data Science от Russell Jurney. Мне нужно настроить PySpark, чтобы поговорить с MongoDB, используя ...
вопрос задан: 17 November 2015 18:58
4
ответа

ошибка памяти в pyspark [дубликат]

Следуя настройке, которую я использую в своей работе pyspark. Я попытался увеличить объем памяти и количество драйверов, но продолжаю получать ошибку размера кучи. Как найти идеальные настройки, чтобы избежать этого ...
вопрос задан: 23 December 2014 19:22
4
ответа

PySpark IntelliJ IDE Interpreter [дубликат]

Я могу настроить и запустить PySpark из IntelliJ, добавив SPARK_HOME и PYTHONPATH в конфигурацию переменных среды времени выполнения. Но я также хочу использовать интерпретатор для распознавания PySpark ...
вопрос задан: 15 July 2014 23:18
4
ответа

(HttpContext. Текущий. Пользователь! = пустой указатель) достаточно, чтобы предположить, что FormsAuthentication аутентифицировал пользователя

В ASP.NET (2.0) приложение я использую FormsAuthentication. В Global.asax / метод Application_AuthenticateRequest я проверяю если HttpContext. Текущий. Пользователь является пустым. Этого достаточно, чтобы знать если...
вопрос задан: 9 October 2009 22:01
3
ответа

Считайте данные текстового файла с помощью Spark и разделите данные с помощью запятой

У меня есть данные в формате ниже. abc, x1, x2, x3 def, x1, x3, x4, x8, x9 ghi, x7, x10, x11 Требуемый вывод: 0, abc, [x1, x2, x3] 1, def, [x1, x3 х4, х8, х9] 2, ги, [х7, х10, х11]
вопрос задан: 18 March 2019 15:48
3
ответа

Как указать путь класса драйвера при использовании pyspark в ноутбуке jupyter? [Дубликат]

Я хочу запросить PostgreSQL с pyspark в ноутбуке jupyter. Я просмотрел много вопросов о StackOverflow, но никто из них не работал для меня, главным образом потому, что ответы казались устаревшими. Вот'...
вопрос задан: 19 April 2018 01:38
3
ответа

Напишите два кадра данных в один csv [duplicate]

У меня есть 2 кадра данных в pyspark Df1. Df2 Количество животных. Автомобиль. Граф Кат. 15 Toyota. 10 Собака. 20. ...
вопрос задан: 19 December 2016 10:01
3
ответа

Пользовательские функции pyspark для группировки объектов [дубликат]

Я выполняю groupby с помощью 'name' и apply function; my_func 'groupedData в pandas df.groupby ([' name ']). Apply (my_func) Я хочу выполнить такую ​​же операцию в pyspark. Как это можно достичь. ...
вопрос задан: 12 October 2016 19:01
3
ответа

Чтение нескольких паркетных файлов из S3 Bucket [duplicate]

Я пытаюсь прочитать несколько паркетных файлов из ведра s3, содержащего данные за несколько дней. s3 путь: s3n: // & lt; s3path & gt; /dt=*/*.snappy.parquet Код Pyspark для чтения данных из нескольких ...
вопрос задан: 16 May 2016 15:09
3
ответа

Файловый фрейм PySpark - Замените последовательные значения NaN в столбце с предыдущим допустимым значением [duplicate]

[Я новичок в PySpark. Если это дубликат для какого-то существующего вопроса, хотя я не могу его найти, укажите мне. Спасибо.] У меня есть набор данных, где из каждых четырех последовательных значений сначала ...
вопрос задан: 4 April 2016 15:35