2
ответа

Вставка файла фиксированной ширины в Hive с использованием scala spark

У меня есть пример записи файла, подобный этому 2018-01-1509.05.540000000000001000000751111EMAIL@AAA.BB.CL, и вышеупомянутая запись взята из файла с фиксированной длиной, и я хотел разбить на основе длин и когда я ...
вопрос задан: 13 July 2018 10:58
2
ответа

Заменить Недействительные значения фрейма Spark как «1» с использованием Scala оптимизированным способом

У меня есть исходная искра-dataframe с именем freq as, + --------------- + ---- + ---- + ---- + ---- + | Main_CustomerID | A1 | A2 | A3 | A4 | + --------------- + ---- + ---- + ---- + ---- + | 101 | нуль | 2 | 1 | нуль | | ...
вопрос задан: 13 July 2018 09:57
2
ответа

добавить пакет mmlspark в pyspark [дубликат]

Я пытаюсь использовать пакет mmlspark в pyspark и не могу импортировать модель. Мой блокнот jupyter подключен к кластеру. Я включил детали пакета в мою sparksession, как показано ниже. В ...
вопрос задан: 19 April 2018 01:38
2
ответа

spark sclaa univot dataframe динамически [дубликат]

Я пытаюсь отключить набор данных. Мой ввод выглядит следующим образом: + -------------- + ----------------------- + ---- ----------- + ---------------- + ----------------- + --- -------------- + | materialNumber | measuredAt ...
вопрос задан: 12 February 2018 21:06
2
ответа

Как скопировать файлы из одного каталога HDFS в другой HDFS Dir в искровом / скале ETL Job [duplicate]

У меня есть работа Spark ETL в процессе нужно скопировать из одного hdfs-каталога в другой каталог hdfs с помощью java / scala-клиента, каков эффективный способ копирования? Я ищу способ, если что-то в ...
вопрос задан: 12 January 2018 15:08
2
ответа

Простой Pyspark UDF получает numpy ошибку с razorvine_pickle [дубликат]

У меня есть DataFrame с столбцами, содержащими данные, разделенные «|», которые я хочу дублировать по строке (например, для данного столбца, если определенная строка имеет следующую форму: 'a' | 'b' | 'c' , тогда я бы ...
вопрос задан: 26 December 2017 12:43
2
ответа

Преобразовать строку, содержащую список для разделения строк на pyspark [duplicate]

У меня есть следующий dataframe на pyspark с несколькими строками (я показываю только первую строку для иллюстрации). Каждая строка для каждого столбца содержит список с таким же количеством элементов (3 в этом ...
вопрос задан: 26 December 2017 05:16
2
ответа

Pyspark Взорвать два столбца массива, сохраняя при этом карту между ними [duplicate]

У меня есть фреймворк pyspark, где два столбца являются массивами и имеют один к одному соответствие (первый элемент первого массива сопоставляется первому элементу второго массива и т. Д.). Затем я создаю ...
вопрос задан: 26 December 2017 05:16
2
ответа

как создать новый столбец с датой в качестве параметризованного значения в искровом фрейме? [Дубликат]

Мне нужно вставить новый столбец в мой существующий фреймворк на основе даты, которую я даю в качестве параметра. Например: Оригинальный набор данных - Идентификатор имени 1 Bob 2 Sam Input - val Inputdate = "23-11 -...
вопрос задан: 26 December 2017 02:18
2
ответа

создать фрейм данных в цикле foreach apache spark [duplicate]

Я новичок в Spark Scala. Я был бы очень признателен, если бы кто-то помог мне здесь. У меня есть dataframe, называемый df. df.printSchema () root | - tab: string (nullable = true) | - cust: string (nullable = ...
вопрос задан: 17 November 2017 20:43
2
ответа

не удалось загрузить pyspark под anaconda [duplicate]

Я установил pyspark (pyspark-2.3.1-py37_1.tar). когда я пытаюсь импортировать, я получаю эту ошибку: [bin] $ ./conda list | grep -i spark pyspark 2.3.1 py37_1 & ...
вопрос задан: 18 September 2017 19:12
2
ответа

Фильтр из фрейма данных на основе условия в строке [дубликат]

У меня есть dataframe, подобный следующему: s = sc.parallelize ([Row (items = [1], freq = 3), Row (items = [2], freq = 3), Row (items = [2, 1] , freq = 3), Row (items = [5], freq = 2), Row (items = [5, 2], freq = 2), Row (items = [5, ...
вопрос задан: 1 August 2017 02:56
2
ответа

Count of Dataframe без использования функции count [duplicate]

Поскольку подсчет является дорогостоящей операцией на DataFrames, когда речь идет о больших наборах данных. Я хочу получить итоговые записи no.of из DataFrame без использования функции count, поскольку я использую этот счет только ...
вопрос задан: 31 May 2017 11:31
2
ответа

Повторная поездка Spark MLlib Рекомендация Модель [дубликат]

Я хочу создать систему рекомендаций, которая работает в режиме реального времени или каждые 30 секунд для наших пользователей на основе данных о рейтинге пользователя, количестве просмотров продукта и т. Д. Проблема заключается в том, что я не хочу запраш
вопрос задан: 23 May 2017 11:47
2
ответа

выберите таблицу из базы данных в R [дубликат]

Я использую dbplyr для выбора таблицы из удаленной базы данных с помощью Rstudio. Я подключился к Spark на сервере, используя livy. Он показывает мне базы данных, которые у меня есть, но когда я пытаюсь получить доступ к одной из таблиц ...
вопрос задан: 19 May 2017 13:24
2
ответа

Игнорировать пустые папки при чтении с помощью Spark wholeTextFiles [duplicate]

Я использую wholeTextFiles, чтобы читать кучу xml-файлов из разных папок, и некоторые из этих папок могут быть пустыми. К сожалению, Spark выдает исключение, если какая-либо из этих папок пуста: org ....
вопрос задан: 3 February 2017 15:02
2
ответа

Проблемы создания RDD LabeledPoint из dataframe в pyspark [duplicate]

Я использую искру 2.0, и у меня есть dataframe, который я создал из вытаскивания данных из таблицы sql: df = sqlContext.sql («Мой выбор запроса») Теперь моя цель - создать модель классификации ml, используя ...
вопрос задан: 28 December 2016 16:45
2
ответа

Искра изменяет значение столбца столбца после объединения [duplicate]

У меня три фрейма данных с указанными схемами. Перед присоединением ко всем столбцам допускается значение NULL. Однако, после (слева внешнего) соединения, даже столбцы, которые не имеют udf, применяемые к ним, меняют их ...
вопрос задан: 15 November 2016 07:53
2
ответа

Не удалось выполнить определенную пользователем функцию ($ anonfun $ createTransformFunc $ 1: (string) = & gt; array & lt; string & gt; [duplicate]

Я создал DataFrame, как показано ниже resultWithId = production_df.withColumn ("id", monotonically_increasing_id ()) resultWithId.show (5, truncate = False) resultWithId.printSchema () Результат: ...
вопрос задан: 1 November 2016 01:51
2
ответа

pyspark json взрывается для массива с нулевым или большим количеством элементов [duplicate]

У меня есть некоторые данные json с массивом, который может иметь ноль или более элементов. Ниже приведены данные. Когда я взорваюсь в массиве, строка с нулевыми элементами падает. В этом случае имя: Энди получает ...
вопрос задан: 28 September 2016 05:57
2
ответа

pyspark Dataframe - сравнение двойного столбца с столбцом массива двойников - тип Mismatch? [Дубликат]

У меня есть столбец, который содержит двойной столбец и массив столбцов двойников. Я пытаюсь выяснить, могу ли я создать другой столбец на основе проверки наличия двойного столбца в массиве удвоений ...
вопрос задан: 10 September 2016 03:09
2
ответа

Как использовать функцию SPLIT Spark SQL для передачи ввода в параметр Spark SQL IN [дубликат]

У меня есть набор данных, аналогичный показанному ниже: color: fruit -------------------- red: mango yellow: banana Это выше df зарегистрировано в таблице TEMP. Существует строка ввода ...
вопрос задан: 10 September 2016 03:09
2
ответа

Как я могу получить доступ к определенным элементам структуры в блоке данных искровой scala? [Дубликат]

Столбец в моей кадре данных содержит структуры вида [{«annotatorType»: «pos», «begin»: 0, «end»: 0, «result»: «NNP», «metadata»: {"word": " D "}}, {" annotatorType ":" pos "," begin ": 1," end ": 4," result ":" POS "," ...
вопрос задан: 16 July 2016 16:17
2
ответа

Как все справляются с вероятностями из XGBoost Scored Data? Scala [дубликат]

Обучайте xgboost так, чтобы потом получить набор ответов и вероятностей. Вероятности возвращаются как вектор:% scala import ml.dmlc.xgboost4j.scala.spark. {DataUtils, XGBoost} val ...
вопрос задан: 30 June 2016 00:01
2
ответа

как предсказать тестовые данные параллельно с использованием случайной модели леса в искровом [дубликат]

Моя платформа - это искру 2.1.0, 8 узлов кластера, используя язык python. Теперь у меня около 100 случайных моделей многоклассификации леса, я сохранил их в HDFS. Есть 100 наборов данных, сохраненных в ...
вопрос задан: 28 June 2016 08:35
2
ответа

как изменить часть «когда» части данных pyspark [duplicate]

Я хочу сгладить один столбец в Dataframe, как показано ниже: df.select (* caculate_gender (). Values ​​()) def caculate_gender (): return {'gender': ** F.when ((F.col ('gender' ) == 1 | F.col ('gender') == ...
вопрос задан: 8 June 2016 21:02
2
ответа

Получить класс Вероятность и метки в искровом мл случайного классификатора леса Spark V1.6 [duplicate]

Я пытаюсь получить вероятности классов для случайного классификатора леса, написанного в искровом разряде 1.6. У меня есть общий класс 55, который будет предсказан, наконец, я получу финальную метку предсказания. Вместо этого я хочу получить ярлык ...
вопрос задан: 1 June 2016 16:20
2
ответа

Pyspark конвертирует числовые данные в категорию без значения reindex [duplicate]

Как я могу пометить целое поле как поле категории без повторной индексации в Pyspark? Например: Категория = [1,5,3,6,7,8] -> искра использует его как числовое поле -> Я хочу, чтобы искра рассматривала их как номинальные ...
вопрос задан: 28 May 2016 10:38
2
ответа

Как ссылаться на значение строки DataFrame в пользовательской функции Spark SQL? [Дубликат]

У меня есть Spark DataFrame с заголовками столбцов ['tsmID', 'sigID', 'Timestamp', 'Value']. Я хотел бы создать пользовательскую функцию, такую, что она сравнивает измерение в Valuecolumn с элементом ...
вопрос задан: 25 May 2016 04:59
2
ответа

Ошибка запуска Pyspark - Ошибка hive.HiveSessionState [duplicate]

Я установил Spark 2.1 с Cloudera. Когда я запускаю искровую оболочку из / usr / bin / spark2-shell, она запускается (с scala). Когда я запускаю Pyspark, я получаю эту проблему sudo -u hdfs ./pyspark2. Я получаю: ...
вопрос задан: 29 March 2016 16:38