1
ответ

PySpark SQL: структура структуры экспорта [дубликат]

Я использую PySpark, и для одного из наборов данных мне нужно экспортировать схему фрейма данных. Как и в ответе, приведенном здесь, но в той же версии pyspark. Есть ли способ сделать это?
вопрос задан: 8 July 2016 23:17
1
ответ

Исключение в thread & ldquo; main & rdquo; java.lang.NoClassDefFoundError: org / joda / time / DateTime Spark [duplicate]

Я хочу прочитать запись из db Cassandra, используя Spark в java. Это мой код. import com.datastax.driver.core.Session; import com.datastax.spark.connector.japi.CassandraJavaUtil. *; импорт com ....
вопрос задан: 8 June 2016 22:29
1
ответ

PySpark получает вложенный массив из sql Dataframe [duplicate]

У меня есть dataframe из sql, например: + ---- + ---------- + | ID | категория | + ---- + ---------- + | 1 | 1 | | 1 | 2 | | 2 | 4 | | 3 | 1 | | 3 | 4 | + ---- + ---------- + I ...
вопрос задан: 2 June 2016 00:17
1
ответ

Как использовать pivot в & ldquo; SPARKSQL & rdquo; для типа столбца String [duplicate]

У меня есть требование использовать pivot в SPARKSQL для столбцов типа string. Хранить: Int, Year: Int, Code: String store, Year, Code 102,1, STJ 101,1, SDF 105,1, DFR 109,1, YTR 101,2, KIR 102,2, CVT 105,2, WER 109,2, ...
вопрос задан: 28 May 2016 10:37
1
ответ

тип несоответствие Рекурсивный метод вызова RDD в искры apache [дубликат]

Я пытаюсь адаптировать рекурсивный метод (наряду с примером), предложенный в рекурсивном вызове метода в Apache Spark. Тем не менее, я получаю следующую ошибку несоответствия типа, когда я вызываю метод ...
вопрос задан: 27 May 2016 08:15
1
ответ

Поля картографических данных Scala для списка классов case [duplicate]

Я объединяю перекрывающиеся диапазоны точно так же, как и пользователь в этом вопросе: как функционально объединить перекрывающиеся диапазоны чисел из списка. Функция, предоставляемая @DanSimon, работает для меня, но мои входы ...
вопрос задан: 27 May 2016 08:15
1
ответ

Spark - как получить соседний уровень второго уровня в графе [дубликат]

1 & lt; - 2 1 & lt; - 3 2 & lt; - 3 2 & lt; - 4 3 & lt; 4 каждый номер представл ет идентификатор узла, и каждый ряд представл ет собой край. Мне нужно получить соседа второго уровня от каждого узла соседа первого уровня. ...
вопрос задан: 25 May 2016 06:22
1
ответ

Рандомизация Dataframe или RDD для тренировки ML в Spark [дубликат]

Как я могу случайным образом перетасовать данные обучения для классификатора Spark? Прямо сейчас у меня есть dataframe, где первые N строк относятся к положительному классу, а остальные M строк относятся к отрицательному ...
вопрос задан: 22 April 2016 20:44
1
ответ

Как реализовать & ldquo; else if & rdquo; на искровом каркасе без UDF? [Дубликат]

В приведенной ниже ссылке объясняется, как реализовать IF ELSE в Spark. Как использовать несколько условий с помощью pyspark.sql.funtions.when ()? Если мой блок данных выглядит так A B C 10 2 300 20 3 200 30 7 ...
вопрос задан: 19 April 2016 21:15
1
ответ

Как контролировать количество задач, выполняемых для каждого исполнителя в PySpark [duplicate]

Я использую Spark для запуска двоичного файла C ++, который использует много памяти. Я запускаю его следующим образом: rdd.map (lambda x: subprocess.check_call (["./ high_memory_usage_executable"])) Я получаю -9 return ...
вопрос задан: 17 April 2016 20:56
1
ответ

Правильное использование Аккумуляторов в Apache Spark [дубликат]

Нам нужно каким-то образом переключить флаг переменной в преобразовании. Мы собираемся использовать искровые Аккумуляторы для этой цели. Можем ли мы использовать их, как показано ниже: Переменные - & gt; Начальное значение ...
вопрос задан: 4 April 2016 11:46
1
ответ

Как реализовать счетчик в Spark, который также может быть прочитан рабочими ..? [Дубликат]

Spark предоставляет два типа распределенных переменных ... широковещательные переменные и Аккумуляторы. Широковещательные переменные распределяются по искровому кластеру и доступны каждому рабочему узлу. Но это ...
вопрос задан: 4 April 2016 11:46
1
ответ

Искры RDD на основе нескольких строк файла [duplicate]

У меня есть простой вопрос об искре. Представьте файл с этими данными: 00000000000 01000000000 02000000000 00000000000 01000000000 02000000000 03000000000 Я хочу создать rdd или sparkdataframe ...
вопрос задан: 9 March 2016 00:04
1
ответ

Как использовать dataframes в функции карты в Spark? [Дубликат]

Я занимаюсь машинным обучением, и у меня есть два фрейма Spark, содержащие данные обучения и тестирования соответственно. У меня есть функция, которая принимает некоторую конфигурацию модели, обучает модель на ...
вопрос задан: 8 March 2016 06:01
1
ответ

подготовить модель по кадру данных с несколькими столбцами sparseVector [duplicate]

Предположим, у меня есть dataframe с двумя или более sparseVector столбцом, и я хочу сделать модель над ним в Pyspark. Я знаю, видел некоторые примеры, что модель была сделана по одному разреженному столбцу. Как ...
вопрос задан: 5 March 2016 00:21
1
ответ

Как преобразовать строки Spark DataFrame в Python? [Дубликат]

У меня есть файл CSV, содержащий данные обучения. Формат выглядит как эта метка, x, y 1,0.13,2.11 1,0.20,0.32 Я хочу использовать ее для обучения модели машинного обучения с использованием самых современных идиом Python Spark ....
вопрос задан: 5 March 2016 00:21
1
ответ

Преобразование ключа / пары RDD для получения суммы значений, минимальных и максимальных значений в каждой группе с использованием Python SPark [duplicate]

Я новичок в Spark, у меня есть ниже RDD (2, 2.0) (2, 4.0) (2, 1.5) (2, 6.0) (2, 7.0) (2, 8.0) Я попытался преобразовать его в (2, 28.5, 1.5, 8), где 2 - ключевое значение, за которым следует 28,5 суммы всех ...
вопрос задан: 23 February 2016 19:52
1
ответ

ошибка при использовании метода collect_list в scala [duplicate]

У меня есть df: + ---- + ------ + -------- + ---- + | ID | veh_cd | veh_p_cd | код | + ---- + ------ + -------- + ---- + | 1002 | 23 | 89 | в | | 1003 | 34 | 78 | в | | 1004 | 78 | 78 | в | | 1004 | 7 | ...
вопрос задан: 20 February 2016 22:01
1
ответ

Используйте банку в искровом коде: pyspark [duplicate]

Мне нужно читать из mysql из моего искрового кода с помощью SQLContext.read.format ('jdbc'). Options (key: value pairs) Но для подключения требуется класс com.jdbc.mysql.Driver. В настоящее время у меня этого нет ...
вопрос задан: 11 February 2016 20:28
1
ответ

Передача набора данных в искровом sql не работает [дубликат]

Я использую искру sql с java api.Я пытаюсь транслировать набор данных и использовать badadcasted datset. Вот такой же код кода, который вызывает проблему. Dataset & л; Правила & GT; rulesDS = ...
вопрос задан: 7 February 2016 18:58
1
ответ

Как использовать несколько ключей join в Java Spark? [Дубликат]

Я хочу использовать несколько ключей соединения, например: Dataset & lt; Row & gt; dataset = all.join (part, multiKeys); Но я только нахожу join (Dataset & lt;? & Gt; right, scala.collection.Seq & lt; String & gt; usingColumns) в ...
вопрос задан: 4 February 2016 23:13
1
ответ

Ошибка при попытке создать экземпляр sqlContext [duplicate]

Я запускаю среду pacpark anaconda. И мне нужно реализовать Dataframe из RDD. Но когда я пытаюсь внедрить sqlContext: из pyspark.sql import SQLContext sc = SparkContext ....
вопрос задан: 10 January 2016 14:22
1
ответ

Глобальная переменная возвращает Empty List () в кластере [duplicate]

У меня есть два объекта: sample.scala и test.scala sample.scala trait variables {var flatten: List [String] = List ()} образец объекта расширяет переменные {def main (args: Array [String]) {...
вопрос задан: 24 December 2015 18:38
1
ответ

Искра 2.1.1 Обнаружен утечка памяти [дубликат]

При использовании Spark 2.1.1 я вижу ошибки «Обнаружена утечка управляемой памяти» в моем файле журнала без других трассировок стека. Должны ли я беспокоиться об этих ошибках? Они предлагают основную проблему ...
вопрос задан: 18 December 2015 18:35
1
ответ

Как преобразовать один столбец (тип UDO) в несколько столбцов в Spark [duplicate]

У меня есть один столбец с типом UDO (пользовательский класс). Я просто хочу преобразовать его в несколько столбцов (извлеките некоторые поля в виде отдельных столбцов). Как я могу это достичь? класс A {int x; DateTime y; B z;} ...
вопрос задан: 23 November 2015 20:38
1
ответ

Scala Spark Dataframe новый столбец из столбца объекта [дубликат]

У меня есть dataframe, который содержит столбец Polyline (от Magellan). Я хочу извлечь некоторые поля этого столбца в новые столбцы. Вот пример того, что я хочу сделать: spark.read .format ("...
вопрос задан: 23 November 2015 20:38
1
ответ

Заполните значения NULL с последним хорошим значением [duplicate]

Я импортирую CSV как обычно: val df = spark.read .format ("csv") .option ("header", "true") // чтение заголовков .option ("mode", "DROPMALFORMED") .option («разделитель», «,») ....
вопрос задан: 11 November 2015 02:36
1
ответ

Scala / Spark вперед заполняют условия [дубликат]

Поэтому вопрос в том, что у меня есть кадр данных со следующими входными данными. Обращаем ваше внимание, что формат данных сортируется по id. Я хочу получить желаемый результат в данном примере. Я хочу заполнить нулевые значения ...
вопрос задан: 11 November 2015 02:36
1
ответ

Spark и scala, как создать матрицу? [Дубликат]

Я попытался создать матрицу в искры apache из rdd. но я потерпел неудачу. Как создать матрицу в искро и скале? resultRDD: org.apache.spark.rdd.RDD [(что-то, что-то)] (SomethingA1, SomethingA2) (...
вопрос задан: 26 October 2015 11:19
1
ответ

Вершина с совершенно разными свойствами в Graphx Spark Scala [дубликат]

Я пытаюсь реализовать граф свойств в Graphx, где мои вершины имеют совершенно разные свойства. Я не могу применить метод наследования, указанный в документации Spark. класс ...
вопрос задан: 20 October 2015 20:15