1
ответ

Pyspark: Исключения с простейшим примером структурированного потока [дубликат]

В начале руководства по структурированному потоковому потоку есть пример потокового примера World Count. Во-первых, мы выполняем nc -lk 8888 в отдельном терминале. Далее, следуя руководству Python ...
вопрос задан: 22 April 2018 02:35
1
ответ

Как добавить столбец из фрейма данных в другой блок данных в Scala? [Дубликат]

У меня есть кадр данных, например val df = Seq ((«a», «1»), («b», «2»)). ToDF («A», «B») + --- + - + | | B | + --- + --- + | | 1 | | б | 2 | + --- + --- + Другой dataframe df2 как val df2 = Seq (("9"), ("10")) ....
вопрос задан: 9 April 2018 18:14
1
ответ

Почему первое чтение в hdfs с искрою всегда длиннее? [Дубликат]

Я пытался измерить разницу между временами чтения между csv и паркет с искровым. Я знаю, что паркет работает быстрее, но мне нужно иметь несколько показателей для отчета. Я заметил, что когда я прочитал ...
вопрос задан: 25 January 2018 12:41
1
ответ

Как исправить count () быстрее для огромных кадров данных? [Дубликат]

У меня есть оператор конвейера данных, используемый для сбора показателей данных. Продукт данных, для которого я собираю метрики, называется foo. У меня есть следующий `foo.select (foo.id) .count ()` = & gt; 2M + `foo ....
вопрос задан: 5 January 2018 17:06
1
ответ

Ошибка бросания Pyspark: py4j.Py4JException: метод __getstate __ ([]) не существует [дубликат]

У меня есть метод в файле Scala, который возвращает py4j.java_collections.JavaMap в моем pyspark-коде. Я считаю, что могу использовать словарные методы на моей карте Java. Но я не могу. Я пытаюсь использовать ...
вопрос задан: 31 August 2017 09:42
1
ответ

Как добавить Jars во время работы искровой оболочки? [Дубликат]

Мне нужно добавить несколько банок к моей искровой оболочке. Итак, я добавил их, используя -jars. Внезапно, через какое-то время, я понимаю, что мне нужно добавить еще одну, и я нахожусь между работой, на которой я уже провел 2 часа. Так, ...
вопрос задан: 23 May 2017 12:02
1
ответ

Фильтр A Spark Dataframe на основе количества дней между двумя столбцами TimeStamp [дубликат]

В настоящее время я пытаюсь передать некоторые запросы T-SQL для запуска на Apache Spark. У меня есть два поля, сохраненные как метки времени в паркет. Однако я хочу преобразовать условие where следующего SQL-запроса в ...
вопрос задан: 17 May 2017 09:54
1
ответ

текст сходство различный способ используя искру? [дубликат]

Я хочу получить текстовый метод подобия, отличающийся от 200 миллионов различных предложений, используя искру. Предположим, у меня есть 4 предложения, которые есть [«Привет, я слышал об искры», «Привет, я слышал о Spark World», «...
вопрос задан: 12 May 2017 13:14
1
ответ

Вычислить сходство между предложениями с помощью Spark [duplicate]

У меня есть следующий ввод для моей задачи: - ID - & gt; Список слов (101 - & gt; Массив («a1», «b2», «c4», «d2»)) (102 - & gt; Array («a6», «b1», «c5», «d3») ) (103 - & gt; Array ("a1", "b4", "c4", "d2")) (...
вопрос задан: 12 May 2017 13:14
1
ответ

Зачем запускать приложение с локальным использованием локального режима & ldquo; ls -F & rdquo; на окнах? [Дубликат]

В настоящее время я создал простое приложение Spark с кодом ниже: SparkConf conf = new SparkConf (). SetAppName («Test»). SetMaster («local [2]») JavaSparkContext sc = new JavaSparkContext (conf); Строка ...
вопрос задан: 5 May 2017 18:29
1
ответ

динамический запрос sql sql [дубликат]

Как мы можем динамически передавать имя столбца в SQL-запрос Spark в Java? Я попытался сохранить SQL-запрос в строку, а затем передать эту строку в качестве параметра, такого как: SparkSession spark = ...
вопрос задан: 25 April 2017 17:36
1
ответ

как изменить схему структуры внутри фрейма данных? [Дубликат]

У меня есть код, подобный этому df.select (col ("productionformation")). PrintSchema () output: | - productionformation: struct (nullable = true) | | - _1: string (nullable = true) | | - _2: string (...
вопрос задан: 24 March 2017 20:54
1
ответ

Как удалить CompactBuffer из искрового выхода после выполнения группы по ключу? [Дубликат]

Я новичок в искру. Вот данные, над которыми я работаю: 12-12-1990,12347,34 25-10-1991,11337,24 17-05-1990,12347,34 24-07-1990,12098,45 21-01- 1992,76947,47 30-05-1991,12986,12 14-08-1992,43347,43 ...
вопрос задан: 14 March 2017 13:21
1
ответ

PySpark: добавить столбец с индексом группы [duplicate]

Я действительно новичок в искру и у меня мало проблем. Предположим, у меня есть это: 'a' | 'b' 0 | 5416 1 | 5278 2 | 2 3 | 568 0 | 416 1 | 216 2 | 56 3 | 56, и я хочу третьего ...
вопрос задан: 6 March 2017 16:22
1
ответ

Определите scala udf, которые принимают любые параметры * в искровом [дубликат]

Моя функция scala объединяет список значений и хеширует их. Я хотел бы использовать эту функцию в искровом dataframe. Но я получаю ошибку: не удалось выполнить пользовательскую функцию (anonfun $ 2: (string) ...
вопрос задан: 28 February 2017 18:48
1
ответ

Spark Dataset: как добавить объекты подкласса в набор данных родительского класса [duplicate]

Как я могу вернуть объекты подкласса в наборе данных родительского класса ?. Ниже кода компилируется, но последняя строка не работает во время выполнения с помощью «scala.ScalaReflectionException: не является термином». Любая помощь очень высока ...
вопрос задан: 22 February 2017 21:51
1
ответ

Apache Spark пишет в MySQL с JDBC-коннектором (режим записи: игнорировать) не выполняет, как ожидалось [duplicate]

У меня есть мои таблицы, хранящиеся в MySQL с идентификатором в качестве первичного ключа. Я хочу написать, используя Spark для Mysql, где он игнорирует строки в фрейме данных, который уже существует в Mysql (на основе первичного ключа) и только ...
вопрос задан: 13 February 2017 22:26
1
ответ

Spark RDD (Список (карта [String, Any]) преобразуется в Dataframe со смешанными значениями карты [duplicate]

У меня есть список со списком (Map [String, Any]), и вам нужно построить DataFrame из этого со смешанными типами значений. Например: Строка 1 - Карта («a» - & gt; 1 (intType), «b» - & gt; «hi» (StringType)) Возможно ли это? ...
вопрос задан: 8 February 2017 21:36
1
ответ

Невозможно указать схему JSON в Spark [duplicate]

Я читаю JSON-файл с указанной схемой в Spark 2.3. Я обнаружил, что один из столбцов, не имеющих значения NULL, является нулевым, что не ожидается. Другими словами, я не смог указать схему для JSON. Видеть ...
вопрос задан: 17 January 2017 20:41
1
ответ

Как я могу сделать DStream после использования foreachrdd ()? [Дубликат]

Примечание. Я не могу переключиться на Structured Streaming, так как он не поддерживает некоторые из компонентов MLLib, которые я использую (KMeans, vectorizers и т. Д.) (Исправьте меня, если я ошибаюсь). Я знаю, что DStreams. ..
вопрос задан: 6 January 2017 15:26
1
ответ

Передача ввода DataFrame в класс Case с членом любого типа [дубликат]

У меня есть DataFrame с различными типами столбцов. Для ясности, скажем, он структурирован, как показано ниже, с колонкой Ints, столбцом строк и столбцом Floats. + ------- + ------- + --...
вопрос задан: 6 January 2017 12:43
1
ответ

PySpark 2.1. Безножки с нулевым плюсом [дубликат]

Я использую PySpark 2.1. Я пытаюсь фильтровать данные по строке даты как таковой «2017-12-01». Однако в моих исходных данных это выглядит следующим образом. ID YEAR MONTH ДЕНЬ 1 2017 12 10 2 2017 ...
вопрос задан: 29 December 2016 09:25
1
ответ

DataFrame: применить пользовательскую функцию в groupBy [duplicate]

У меня есть Dataframe DF с последующей структурой: DF (тег, значение) и оценка, связанная со всем Dataframe (двойное значение). У меня есть функция, которая принимает параметр Dataframe и счет, ...
вопрос задан: 25 November 2016 01:14
1
ответ

как получить элементы из вероятности Прогноз столбцов в модели pyspark [duplicate]

Как я могу получить первый элемент из вероятностной модели в виде кадра данных pyspark? + ------ + -------------------- + | labelh | вероятность | + ------ + -------------------- + | 1 | [0 ....
вопрос задан: 18 September 2016 11:56
1
ответ

карта в dataframe - pyspark [дубликат]

Здесь я передаю dataframe (CV_data), чтобы добавить метки для Decision Tree def label Данные (данные): # label: row [end], features: row [0: end-1] return data.map (лямбда-строка: LabeledPoint (строка [-1], ...
вопрос задан: 16 September 2016 17:23
1
ответ

Spark row encoder для Seq [CaseClass] [дубликат]

Это надуманный пример того, чего я пытаюсь достичь: import org.apache.spark.sql._ import org.apache.spark.sql.catalyst.encoders.RowEncoder import org.apache.spark.sql.types._ класс случая ...
вопрос задан: 1 September 2016 20:18
1
ответ

объединение и фильтрация на массивах структурных искры udf [дубликат]

У меня есть два фрейма данных, каждый из которых содержит столбец, который представляет собой массив структур, я хочу присоединиться к двум файлам данных, а затем объединить два массива структур в один массив структур при фильтрации ...
вопрос задан: 17 August 2016 21:11
1
ответ

scala, избегайте дважды читать файл, используя dataframe [duplicate]

Я использую искру scala, чтобы прочитать большой json-файл и подтолкнуть его к elasticsearch. Я использовал dataFrame для чтения файла val df = spark.read.json (args (0)). Мне удалось передать данные в elasticsearch, но ...
вопрос задан: 12 August 2016 18:47
1
ответ

Почему Spark дважды читает HDFS? [Дубликат]

У меня есть приложение Spark, которое считывает набор данных из HDFS и выполняет сложную операцию с использованием UDF. Это код: val ds = spark.read.json ("hdfs: //hdfshost/path/to/dataset.json") ....
вопрос задан: 12 August 2016 18:47
1
ответ

Прочтите файл csv с помощью apache spark not work [duplicate]

Я использую искру apache для чтения файлов csv, я обнаружил, что если имя файла начинается с символа _ char, то загружаемый DataSet будет пустым, просто измените имя файла, удалив _ файл загружен правильно. ...
вопрос задан: 11 July 2016 22:02