Как я могу пометить целое поле как поле категории без повторной индексации в Pyspark? Например: Категория = [1,5,3,6,7,8] -> искра использует его как числовое поле -> Я хочу, чтобы искра рассматривала их как номинальные ...
У меня есть Spark DataFrame с заголовками столбцов ['tsmID', 'sigID', 'Timestamp', 'Value']. Я хотел бы создать пользовательскую функцию, такую, что она сравнивает измерение в Valuecolumn с элементом ...
Я установил Spark 2.1 с Cloudera. Когда я запускаю искровую оболочку из / usr / bin / spark2-shell, она запускается (с scala). Когда я запускаю Pyspark, я получаю эту проблему sudo -u hdfs ./pyspark2. Я получаю: ...
Предположим, у меня есть фреймворк PySpark с столбцом типа set: from pyspark import SparkContext import pyspark.sql.functions как f sc = SparkContext () df = sc.parallelize ([[1, 'A'], [1, '. ..
В моем наборе данных есть скорость, записанная для нескольких автомобилей, как функция времени. У каждого автомобиля есть определенный идентификатор. Данные выглядят так: + ----------------- + ----------- + ------ + | отметка времени | ...
У меня проблема аналогичная этому, но я хочу проверить дубликаты в нескольких столбцах и сохранить запись с самой старой отметкой времени. Я попытался создать порядок столбцов timestamp с этим, а затем отбросить ...
У меня есть два фрейма данных в Spark, у которых есть много столбцов плюс столбец timestamp. Я хочу исключить дубликаты для всех столбцов, кроме столбца timestamp. Поэтому мой окончательный кадр данных должен быть ...
Имея кадр данных, как показано ниже (на самом деле он содержит гораздо больше строк): Time | EventType | OrderId | Размер | Цена | Направление | message_id | Вторая | | 34200.105 | 5 | 0 | 100 | 1103400 | 1 | ...
Используя pyspark, мне нужно найти что-то похожее на команду SQL KEEP (DENSE RANK LAST ORDER). Используя groupBy и agg, я хочу извлечь другие значения столбцов, которые связаны с минимумом групп. ...
Вот как выглядят мои данные csv: TagNumber, DatePaid, TotalPaid ABCD, 11/5/2017, $ 101 EFGH, 12/5/2017, $ 201 ABCD, 11/7/2017, $ 501 ABCD, 12/5/2017, $ 201 Я создаю dataframe, который будет группировать данные с помощью ...
Я запускаю скрипт python в запросе на публикацию в листинге. В моей просьбе я добавил список «pyFiles», и все работает отлично. Но я также добавил свои json-файлы с помощью «файлов». И я вижу ...
Я использую приведенный ниже сценарий для чтения данных с MSSQL Server в Pyspark dataframes. DFFSA = spark.read.format ("jdbc"). Option ("url", jdbcURLDev) .option ("driver", MSSQLDriver) .option ("dbtable", "FSA.dbo ....
Я пытаюсь сохранить модель в PySpark 1.4.2. но ниже модели error.save (sc, modelpath) Traceback (последний последний вызов): Файл «& lt; stdin & gt;», строка 1, в & lt; module & gt; AttributeError: '...
написав простую операцию объединения на искру и пытаясь получить значения карты. почему я получаю синтаксическую проблему? что такое правильный синтаксис? Spark 2.x joinrdd = webrdd.join (titlerdd) \ .map (...
Я создал искровое приложение. Я нахожусь на этапе тестирования, поэтому мне нужно создать модульные тесты для всех моих функций python. Я создал локальную искровую сессию в настроенном классе def setUpClass (cls): ...
У меня есть файловый фрейм PySpark mydf, и я группируюсь по 2 столбцам (код и col1), чтобы получить результирующую таблицу с наивысшим разным числом третьего столбца (newid). Например: mydf code col1 newid 100 ...
Для RDD для генерации пары, например: rdd1 = sc.parallelize (['d', '112', 'b', 'c', 'i', 'a', 'e']) output: [(' d ',' 112 '), (' d ',' b '), (' d ',' c '), (' d ',' i '), ..., (' a ',' e ' )] Благодаря
В pyspark я хочу использовать Scala UDF для фильтрации массива с произвольным типом элемента. пакет com.example.spark.udf import scala.collection.mutable.WrappedArray import org.apache.spark.sql.api.java ....
Я хотел бы использовать библиотеку регистрации Pythons, но хочу, чтобы выходные данные журналов попадали в HDFS вместо локальной файловой системы для рабочего узла. Есть ли способ сделать это? регистрация журналов импорта ....
Я работаю над большим набором данных CSV данных. Мне нужно прочитать это на ноутбуке с помощью pyspark. У меня более 4 миллионов записей (540000 строк и 7 столбцов). Что я могу сделать, чтобы я мог показать весь свой набор данных ...
Я хотел бы сделать SQL-соединение между двумя таблицами в spark, и я получил неожиданную ошибку: > > > cyclistes.printSchema () root | - id: string (nullable = true) | - age: string (nullable = ...
Я ищу способ легко выполнить параметризованный прогон ноутбуков Jupyter, и я нашел проект Papermill (https://github.com/nteract/papermill/). Этот инструмент, кажется, соответствует моим требованиям, но я ...
У меня есть фрейм данных pyspark с 5 столбцами: Id, значение X, lower & amp; верхние границы X и дата обновления (этот кадр данных упорядочен по «Id, Update»). Я прочитал это из таблицы улья: (spark.sql (Выбрать ...
У меня есть куча точек данных для каждого есть два столбца: start_dt и end_dt. Мне интересно, как я могу разделить промежуток времени между start_dt и end_dt на 5 минут? Например, id ++++ ...
Когда я создаю фрейм данных из RDD, применяя схему, он выдает ошибку «Целочисленный тип не может принять объект« 24 »в типе». Это мой код: myschema = StructType ([StructField ('name', StringType (), False), ...
Я совершенно новый в Spark, и у меня есть проблема с dataframe. Мне нужно сгруппировать уникальные категориальные переменные из двух столбцов (estado, producto), а затем посчитать и отсортировать (asc) уникальные значения ...
Я сталкиваюсь с этой проблемой: у меня сложный формат даты, представленный в виде строки. Поэтому я использую функцию unix_timestamp для ее анализа. Однако я не могу найти правильный шаблон для использования. Я не знаю ...
Я довольно новичок в улье и искре, но то, что я хочу сделать, кажется, что это должно быть просто. По сути, я хочу взять список из Python, а затем только извлекать записи из улья, в которых есть ключ к этому ...