2
ответа

Scala - как взять образец (выборку) списка внутри RDD? [Дубликат]

У меня есть набор данных: «ALABAMA», ..., 28418 «ALABAMA», ..., 13981 «ALABAMA», ..., 40979 ... «MINNESOTA», ..., 51661 «MINNESOTA», , ..., 19823 "MINNESOTA", ..., 68117 Я хочу ...
вопрос задан: 11 March 2016 21:59
2
ответа

нестабильная работа с искровым RDD [дубликат]

поэтому у меня есть следующий фрагмент кода: def processing (): RDD [String] = {@volatile var count = 0 val results = rdd.mapPartitions [String] ((iter) = & gt; {try {iter.grouped (c ....
вопрос задан: 2 March 2016 04:59
2
ответа

Pyspark: найти первое появление максимального значения [duplicate]

В моем наборе данных есть скорость, записанная для нескольких автомобилей, как функция времени. У каждого автомобиля есть определенный идентификатор. Данные выглядят так: + ----------------- + ----------- + ------ + | отметка времени | ...
вопрос задан: 25 February 2016 12:40
2
ответа

Spark Drop Duplicates в нескольких столбцах - проблема с производительностью [дубликат]

У меня проблема аналогичная этому, но я хочу проверить дубликаты в нескольких столбцах и сохранить запись с самой старой отметкой времени. Я попытался создать порядок столбцов timestamp с этим, а затем отбросить ...
вопрос задан: 25 February 2016 12:40
2
ответа

Исключить дубликаты данных из подмножества столбцов [дубликат]

У меня есть два фрейма данных в Spark, у которых есть много столбцов плюс столбец timestamp. Я хочу исключить дубликаты для всех столбцов, кроме столбца timestamp. Поэтому мой окончательный кадр данных должен быть ...
вопрос задан: 25 February 2016 12:40
2
ответа

Группа Pyspark и наименьший элемент [дубликат]

Имея кадр данных, как показано ниже (на самом деле он содержит гораздо больше строк): Time | EventType | OrderId | Размер | Цена | Направление | message_id | Вторая | | 34200.105 | 5 | 0 | 100 | 1103400 | 1 | ...
вопрос задан: 25 February 2016 12:40
2
ответа

Извлечение нескольких столбцов, связанных с минимальным pyspark [duplicate]

Используя pyspark, мне нужно найти что-то похожее на команду SQL KEEP (DENSE RANK LAST ORDER). Используя groupBy и agg, я хочу извлечь другие значения столбцов, которые связаны с минимумом групп. ...
вопрос задан: 25 February 2016 12:40
2
ответа

Получить максимальный столбец на основе значения другого столбца [duplicate]

Вот как выглядят мои данные csv: TagNumber, DatePaid, TotalPaid ABCD, 11/5/2017, $ 101 EFGH, 12/5/2017, $ 201 ABCD, 11/7/2017, $ 501 ABCD, 12/5/2017, $ 201 Я создаю dataframe, который будет группировать данные с помощью ...
вопрос задан: 25 February 2016 12:40
2
ответа

Как использовать значение non-column в UserDefinedFunction (UDF) для добавления столбца в DataFrame? [Дубликат]

У меня есть простой фреймворк, над которым я хочу работать: + --- + ---- + | идентификатор | имя | + --- + ---- + | 1 | | | 2 | б | | 3 | с | | 4 | d | | 5 | е | + --- + ---- + Я пытаюсь добавить еще один столбец на основе «id» ...
вопрос задан: 22 February 2016 12:13
2
ответа

NullPointerException в spark.read.json [дубликат]

Я пытаюсь запустить приведенный ниже код в искровом режиме и получить исключение: исключение в потоке «main» org.apache.spark.SparkException: Иск прерывается из-за срыва этапа: Задача 0 на этапе 42.0 не удалась 1 раз, ...
вопрос задан: 5 February 2016 05:00
2
ответа

livy открыть файл, добавленный из hadoop в контекст партии [duplicate]

Я запускаю скрипт python в запросе на публикацию в листинге. В моей просьбе я добавил список «pyFiles», и все работает отлично. Но я также добавил свои json-файлы с помощью «файлов». И я вижу ...
вопрос задан: 22 January 2016 06:19
2
ответа

Как оценивать строки в DataFrame? [Дубликат]

У меня этот DataFrame df: + ----------- + -------------- + ---------- + ----- ------------- + ---- + | country_pk | cat_pk | item_pk | valrank | rank | + ----------- + -------------- + ---------- + -------...
вопрос задан: 7 December 2015 21:55
2
ответа

Scala, SparkRDD, регулярное выражение [дубликат]

У меня есть RDD, как показано ниже: 1,0,3, Браунд, г-н Оуэн Харрис, мужчина 2,1,1, Кумингс, миссис Джон Брэдли (Флоренс Бриггс Тайер), женщина 3,1,3, Хейккинен, Мисс Лай, женщина 4,1,1, Futrelle, г-жа Жак Хит (...
вопрос задан: 2 December 2015 10:38
2
ответа

Загрузка данных Spark Data в драйвер [дубликат]

Представьте, что у нас есть некоторый val hiveTableDataFrame: DataFrame И я хочу передать строки этого фрейма данных в мою программу драйверов. Дело в том, что hiveTableDataFrame слишком велик, и я не могу использовать ...
вопрос задан: 6 October 2015 10:51
2
ответа

Apache Spark: проблема с картой [duplicate]

написав простую операцию объединения на искру и пытаясь получить значения карты. почему я получаю синтаксическую проблему? что такое правильный синтаксис? Spark 2.x joinrdd = webrdd.join (titlerdd) \ .map (...
вопрос задан: 2 September 2015 02:07
2
ответа

Spark jar работает слишком долго [дубликат]

Я пытаюсь получить количество строк в таблице: bank_accounts. Условиями являются «source_system_name = SAP» & amp; period_year = "2017" Для этого я придумал следующий код: object PartitionRetrieval {...
вопрос задан: 24 August 2015 20:04
2
ответа

Почему Apache Spark быстрее, чем Hadoop MapReduce [дубликат]

Я уже тестировал Apache Spark и Hadoop MapReduce с помощью TestDFSIO. Целью является тестирование производительности узкого места ввода-вывода в сети. Это приводит к тому, что Apache Spark работает быстрее, чем Hadoop. ...
вопрос задан: 16 August 2015 11:16
2
ответа

Scala - функция вызова параллельно с различными параметрами [duplicate]

У моего приложения Scala есть dataframe, созданный при вызове таблицы hive. После того, как данные потянуты, я создаю набор со списком идентификаторов: val c_Set = inputDF.select ("c_id"). Collect (). Map (_ (0)). ToSet Затем я ...
вопрос задан: 11 August 2015 16:52
2
ответа

Одновременно оптимизируйте обработку Spark [duplicate]

Я занимаюсь обработкой Spark на нескольких файлах. Обработка проста: чтение csv, выбор / фильтрация, а затем наложение на паркет. Я заметил, что: чтение всех файлов в одном фрейме данных ...
вопрос задан: 11 August 2015 16:52
2
ответа

Spark: Параллельное создание файлов файловой системы [дубликат]

Я думал о том, как это сделать, поскольку я новичок в искру и играю с ним какое-то время. Требование выглядит так просто, как это, у меня есть несколько файлов с разделителями-запятыми (100 + МБ файлов) ...
вопрос задан: 11 August 2015 16:52
2
ответа

Обработать несколько путей HDFS параллельно [дублировать]

У меня есть файл, который содержит много hdfs-путей. каждый путь HDFS содержит некоторые файлы JSON. Я хочу обработать все эти json-файлы, которые обновляются за последние 24 часа. На данный момент я читаю файл, который ...
вопрос задан: 11 August 2015 16:52
2
ответа

Spark Counter: Main method / extends Приложение предоставляет разные результаты для одного приложения, почему это так? [Дубликат]

У меня есть файл, в котором есть некоторые отсутствующие данные. Поэтому я пытаюсь определить количество отсутствующих записей, используя переменную счетчика. Файл: data-error.csv ...
вопрос задан: 9 July 2015 12:33
2
ответа

Единичное тестирование PySpark UDF [дубликат]

Я создал искровое приложение. Я нахожусь на этапе тестирования, поэтому мне нужно создать модульные тесты для всех моих функций python. Я создал локальную искровую сессию в настроенном классе def setUpClass (cls): ...
вопрос задан: 27 June 2015 20:25
2
ответа

Как пары RDD - pyspark [duplicate]

Для RDD для генерации пары, например: rdd1 = sc.parallelize (['d', '112', 'b', 'c', 'i', 'a', 'e']) output: [(' d ',' 112 '), (' d ',' b '), (' d ',' c '), (' d ',' i '), ..., (' a ',' e ' )] Благодаря
вопрос задан: 25 June 2015 22:54
2
ответа

Я получаю ошибку & ldquo; В этом RDD отсутствует SparkContext & rdquo; когда я вызываю преобразования или действия [duplicate]

Вероятно, основной вопрос, я довольно новичок в Spark / Scala. Поэтому у меня есть переменная типа Map [String, RDD [Int]]. Я не могу перебирать эту переменную с помощью и делать что-либо с RDD внутри ...
вопрос задан: 23 April 2015 06:55
2
ответа

spark flatMapValues, которые не могут выделяться в разных линиях [дублировать]

как использовать foreach (println) для кода ниже для разделения в разных строках: sc.textFile ("/ user / edureka_366833 / spark / fmapvalue") .map (_. split ('\ t')) .map (a = & gt; ; (a (0), a (1))) .flatMapValues ​​(a = & gt; (a ....
вопрос задан: 2 March 2015 08:32
2
ответа

Исправлена ​​проблема с автономным кластером Spark [дубликат]

Я развертываю приложение искры через автономный кластер. У меня есть один мастер и 2 раба. Я тестирую свой кластер. У меня есть приложение .jar, скопированное везде в том же месте. Я заметил ...
вопрос задан: 28 February 2015 07:10
2
ответа

Можно ли удалить каталог HDFS с помощью Apache Spark (Java)? [Дубликат]

Можно ли удалить тест каталога (hdfs: // localhost: 8020 / test), если он существует? благодаря
вопрос задан: 27 February 2015 16:26
2
ответа

Компиляция скалака выдает & ldquo; объект apache не является членом пакета org & rdquo;

Мой код: import org.apache.spark.SparkContext Он может работать в интерактивном режиме, но когда я использую scalac для его компиляции, я получил следующее сообщение об ошибке: объект apache не является членом пакета ...
вопрос задан: 2 February 2015 01:08
2
ответа

Scala: Как я могу сортировать сообщения перед saveAsTextFile? [Дубликат]

У меня есть искровой скрипт, который читает каждое сообщение, кодирует его и сохраняет в виде текстового файла sparkContext.sequenceFile (inputDirectory, classOf [IntWritable], classOf [DataOutputValue]). Map {case (_, message) = & gt; ...
вопрос задан: 17 November 2014 10:59