Я только начал изучать Spark и Python и застрял. Я тестировал воды с набором данных MovieLens 1M, но застрял в соединении с dataframe и не мог понять, в чем проблема. Кажется ...
Я изучаю pyspark на Ubuntu 16.04. моя искробезопасная версия 2.2.1, а версия python (в искры) - 2.7.2. Я хочу обновить версию python в искровом режиме до 3.5. Как я могу это сделать?
У меня есть коллекция TSV-файлов на хранилище Azure blob, которые мне нужно разбить на основе идентификатора записи. например формат записи: | ID | имя | адрес | | - | ---- | ---------- | | 34 | Стивен | Дом | Я ...
Я пытаюсь заменить groupByKey () на reudceByKey (), я новичок pyspark и python, и мне сложно определить функцию лямбда для операции reduceByKey (). Вот код ...
Я пытаюсь загрузить модель pyspark.ml с помощью python-api-клиента livy (https://github.com/cloudera/livy/tree/master/python-api) со следующей функцией: def load_model (context): from pyspark ....
Прямо сейчас, я должен использовать df.count> 0, чтобы проверить, является ли кадр данных пустым или нет. Но это неэффективно. Есть ли лучший способ сделать это. Благодарю. PS: Я хочу проверить, пусто ли это, чтобы ...
Я пытаюсь читать csv-файл из S3, используя переменную url & gt; & gt; & gt; & gt; m = spark.read.csv (url, header = "true", sep = ",") Но я получаю сообщение об ошибке, как показано ниже. Traceback (последний последний звонок): ...
Я использую случайный лесной mllib pyspark в наборе данных HIGGS (который включает 11000000 экземпляров). Я хочу обучить 100 деревьев с 5 для глубины для каждого дерева. Кроме того, я создаю искру в автономном режиме с 4 узлами (...
Я пытаюсь изучить pyspark 2.3.1. Я пытаюсь написать dataframe в один CSV-файл. Это мой код: из pyspark.sql импортировать SparkSession из pyspark.sql import Row из pyspark.sql ....
У меня есть 10 000 файлов, которые я обрабатываю, и у меня возникают проблемы с получением предопределенной функции. Вот мой код: def process_labs (labs): lab1 = labs.map (lambda x: x.split ('labIDs:')) ...
У меня есть таблица, которая выглядит так, как показано ниже. ++++++++++++++ col1 | col2 | ++++++++++++++ 1 | A | 1 | A | 2 | B | Я хочу найти частоту и поворот таблицы ...
У меня длинный csv, содержащий несколько связанных записей, например: group | item ------------ A 1 A 2 A 3 B 1 B 2 B 4 Список уникальных / отдельных элементов ...
Процесс успешно выполняется с помощью spark-submit --master local [*] script.py Я установил следующие переменные: export PYSPARK_PYTHON = / usr / bin / python export PYSPARK_DRIVER_PYTHON = / usr / bin / python ...
Я видел различные публикации (например, ответ на этот пост stackexchange), которые дают что-то похожее на код ниже как простой пример использования функции foreach () на Spark ...
Я пытаюсь выполнить операции с базой данных с помощью SparkSQL и Pyspark. Я использую DB Postgresql и использую DataFrameReader и Writer с пакетом jdbc. Мне нужно обновить несколько строк через ...
После настройки сервера AWS EC2 Linux я установил Anaconda, Spark на Hadoop, как описано в следующей лекции: https: //medium.com/@josemarcialportilla/getting-spark-python-and-jupyter-notebook -...
Я занимаюсь искровым заданием, занимающим 18 лет, в течение 8 секунд для фактической логики обработки (бизнес-логика) и 10 секунд для распределения исполнителей и памяти. Любые идеи о том, как сократить время до начала искры ...
Я создаю Data Science env't на ноутбуке с Ubuntu 14.04 LTS. Инструкции приведены в главе 2 Agile Data Science от Russell Jurney. Мне нужно настроить PySpark, чтобы поговорить с MongoDB, используя ...
Следуя настройке, которую я использую в своей работе pyspark. Я попытался увеличить объем памяти и количество драйверов, но продолжаю получать ошибку размера кучи. Как найти идеальные настройки, чтобы избежать этого ...
Я могу настроить и запустить PySpark из IntelliJ, добавив SPARK_HOME и PYTHONPATH в конфигурацию переменных среды времени выполнения. Но я также хочу использовать интерпретатор для распознавания PySpark ...
В ASP.NET (2.0) приложение я использую FormsAuthentication. В Global.asax / метод Application_AuthenticateRequest я проверяю если HttpContext. Текущий. Пользователь является пустым. Этого достаточно, чтобы знать если...
Я хочу запросить PostgreSQL с pyspark в ноутбуке jupyter. Я просмотрел много вопросов о StackOverflow, но никто из них не работал для меня, главным образом потому, что ответы казались устаревшими. Вот'...
Я выполняю groupby с помощью 'name' и apply function; my_func 'groupedData в pandas df.groupby ([' name ']). Apply (my_func) Я хочу выполнить такую же операцию в pyspark. Как это можно достичь. ...
Я пытаюсь прочитать несколько паркетных файлов из ведра s3, содержащего данные за несколько дней. s3 путь: s3n: // & lt; s3path & gt; /dt=*/*.snappy.parquet Код Pyspark для чтения данных из нескольких ...
[Я новичок в PySpark. Если это дубликат для какого-то существующего вопроса, хотя я не могу его найти, укажите мне. Спасибо.] У меня есть набор данных, где из каждых четырех последовательных значений сначала ...