12
ответов

Загрузить CSV-файл как RDD в scala / spark? [Дубликат]

У меня есть большой файл csv объемом 6 ГБ с 1-й строкой в ​​качестве заголовков. Как я могу прочитать этот файл из HDFS и выполнить предварительную обработку данных (синтаксический анализ, фильтрация и т. Д.)?
вопрос задан: 5 May 2015 15:24
10
ответов

раскол по запятой искра RDD [дубликат]

У меня есть файл csv, и я хотел бы открыть его с помощью искры RDD 111, rock, sf, «недавно, продвигался». Я разделил его на vals = line.split (','), но это также будет разделено. «В последнее время, способствовали». Я хочу сохранить «...
вопрос задан: 28 February 2015 15:41
5
ответов

Прочитайте файл паркета на несколько разделов [duplicate]

Я использую Spark 1.2.1 (Ancient, я знаю, но это то, что я могу использовать на данный момент.) И пытаясь прочитать файл паркета размером около 4,5 ГБ с помощью sparksql, как это (я буду избегать шаблона) val schemaRDD: ...
вопрос задан: 3 December 2014 18:02
5
ответов

Вывод функции foreach на Spark DataFrame [дубликат]

Я видел различные публикации (например, ответ на этот пост stackexchange), которые дают что-то похожее на код ниже как простой пример использования функции foreach () на Spark ...
вопрос задан: 13 August 2014 21:13
2
ответа

Игнорировать пустые папки при чтении с помощью Spark wholeTextFiles [duplicate]

Я использую wholeTextFiles, чтобы читать кучу xml-файлов из разных папок, и некоторые из этих папок могут быть пустыми. К сожалению, Spark выдает исключение, если какая-либо из этих папок пуста: org ....
вопрос задан: 3 February 2017 15:02
2
ответа

Scala - как взять образец (выборку) списка внутри RDD? [Дубликат]

У меня есть набор данных: «ALABAMA», ..., 28418 «ALABAMA», ..., 13981 «ALABAMA», ..., 40979 ... «MINNESOTA», ..., 51661 «MINNESOTA», , ..., 19823 "MINNESOTA", ..., 68117 Я хочу ...
вопрос задан: 11 March 2016 21:59
2
ответа

Я получаю ошибку & ldquo; В этом RDD отсутствует SparkContext & rdquo; когда я вызываю преобразования или действия [duplicate]

Вероятно, основной вопрос, я довольно новичок в Spark / Scala. Поэтому у меня есть переменная типа Map [String, RDD [Int]]. Я не могу перебирать эту переменную с помощью и делать что-либо с RDD внутри ...
вопрос задан: 23 April 2015 06:55
1
ответ

Изменить только один столбец-разделитель PYTHON

a = ['0, Италия, "Ароматы включают в себя тропические фрукты, метлу, серу и сушеную траву. Вкус не слишком выразительный, предлагая незрелое яблоко, цитрусовые и сушеный шалфей наряду с оживленной кислотностью.", Vulkà Bianco, ...
вопрос задан: 6 March 2019 13:36
1
ответ

Построение матрицы различий в Spark

Я пытаюсь построить матрицу различий, используя искру, и не понимаю, как это сделать оптимально. Я новичок в искре. Я привел небольшой пример того, что я пытаюсь сделать ниже. Пример различия ...
вопрос задан: 27 February 2019 17:34
1
ответ

Spark читает несколько файлов: двойные кавычки заменены на% 22

У меня есть требования для чтения случайных файлов JSON в разных папках, где данные изменились. Поэтому я не могу применить регулярное выражение для чтения шаблона. Я знаю, какие это файлы, и я мог бы перечислить их. Но когда я формирую ...
вопрос задан: 26 February 2019 11:14
1
ответ

Преобразовать список пар ключ-значение в каждой строке СДР в один ключ-значение в каждой строке

У меня есть СДР в виде списка ((a, b), (b, c)) List ((d, e)) Как я могу получить его как (a, b) (b, c) (d, e) у меня есть попробовал RDD.flatMap (x => x), это не работает, потому что есть список пар ключ-значение, а не просто ...
вопрос задан: 24 February 2019 17:04
1
ответ

Не удалось собрать в & hellip; из-за отмены этапа, потому что SparkContext был закрыт

Я хочу отобразить количество элементов в каждом разделе, поэтому я пишу следующее: def count_in_a_partition (iterator): yield sum (1 для _ в итераторе) Если я использую его как этот print ("number of ...
вопрос задан: 19 February 2019 14:54
1
ответ

Функция оценки времени выполнения не работает с наборами данных / RDD Spark

У меня есть искровое приложение. Мой пример использования - позволить пользователям определять произвольную функцию, которая выглядит как Record = > Записать как «правило», которое будет применяться к каждой записи RDD / Dataset. После ...
вопрос задан: 21 January 2019 08:38
1
ответ

Как мы можем сравнить два фрейма данных в spark scala, чтобы найти разницу между этими двумя файлами, какой столбец ?? а стоимость?

У меня есть два файла, и я создал два кадра данных prod1 и prod2 из него. Мне нужно найти записи с именами столбцов и значениями, которые не совпадают в обоих dfs. id_sk является первичным ключом. все ...
вопрос задан: 20 January 2019 12:09
1
ответ

Как работает отображение на rdd в pyspark?

Я изучал pyspark, когда столкнулся с этим. из pyspark.sql import Row df = spark.createDataFrame ([Row ([0,45,63,0,0,0,0]), Row ([0,0,0,85,0,69,0]) ...
вопрос задан: 18 January 2019 06:32
1
ответ

python: уменьшить на ключ с условным оператором if?

(K1, (v1, v2)) (K2, (v3, v4)) (K1, (v1, v5)) (K2, (v3, v6)) Как можно суммировать значения ключа при условии первого значения Это некоторые или экв, так что я получаю (k1, (v1, v2 + v5), (k2, (v3, v4 + v6)?
вопрос задан: 17 January 2019 11:37
1
ответ

Драйвер Spark ждет, пока все разделы завершат работу из rdd.foreachPartition, прежде чем продолжить?

Например, если у меня в драйвере Spark работает следующий код: rdd.foreachPartition (iterator = > myFunc (iterator)) val x = 1 Будет ли драйвер ждать завершения каждого раздела ...
вопрос задан: 16 January 2019 23:52
1
ответ

Kafka Direct Stream в DataFrame не работает с окном

У меня есть данный кусок кода. Я запускаю это на Spark 2.3.1, используя Zeppelin 0.8.0 и org.apache.spark: spark-streaming-kafka-0-10_2.11: 2.3.1. stream.window (минуты (5), секунды (20)). foreachRDD {rdd ...
вопрос задан: 16 January 2019 08:41
1
ответ

Расширение DefaultCodec для поддержки сжатия Zip для файла Hadoop

У меня есть код Spark, который считывает два файла из HDFS (заголовочный файл и файл body), уменьшает RDD [String] до одного раздела, а затем записывает результат как сжатый файл с помощью GZip ...
вопрос задан: 13 July 2018 21:38
1
ответ

текст сходство различный способ используя искру? [дубликат]

Я хочу получить текстовый метод подобия, отличающийся от 200 миллионов различных предложений, используя искру. Предположим, у меня есть 4 предложения, которые есть [«Привет, я слышал об искры», «Привет, я слышал о Spark World», «...
вопрос задан: 12 May 2017 13:14
1
ответ

Исключение в thread & ldquo; main & rdquo; java.lang.NoClassDefFoundError: org / joda / time / DateTime Spark [duplicate]

Я хочу прочитать запись из db Cassandra, используя Spark в java. Это мой код. import com.datastax.driver.core.Session; import com.datastax.spark.connector.japi.CassandraJavaUtil. *; импорт com ....
вопрос задан: 8 June 2016 22:29
1
ответ

Искры RDD на основе нескольких строк файла [duplicate]

У меня есть простой вопрос об искре. Представьте файл с этими данными: 00000000000 01000000000 02000000000 00000000000 01000000000 02000000000 03000000000 Я хочу создать rdd или sparkdataframe ...
вопрос задан: 9 March 2016 00:04
1
ответ

Преобразование ключа / пары RDD для получения суммы значений, минимальных и максимальных значений в каждой группе с использованием Python SPark [duplicate]

Я новичок в Spark, у меня есть ниже RDD (2, 2.0) (2, 4.0) (2, 1.5) (2, 6.0) (2, 7.0) (2, 8.0) Я попытался преобразовать его в (2, 28.5, 1.5, 8), где 2 - ключевое значение, за которым следует 28,5 суммы всех ...
вопрос задан: 23 February 2016 19:52
1
ответ

Прочтите json, используя pypair, и назначьте значение keypair на основе индекса массива [duplicate]

У меня есть формат json, например {"change": [{"kind": "insert", "schema": "public", "table": "test123", "columnnames": ["name", "id"] , "typestypes": ["character differenting (20)", "integer"], "columnvalues": ["mani", 3]}]} ...
вопрос задан: 19 October 2015 17:57
1
ответ

Можем ли мы предоставить нашу собственную функцию в качестве условия соединения для RDD или Dataframes в Spark? [Дубликат]

Использование Apache Spark 1.6.0 на CDH. У меня есть RDD, который включает столбец Name. У меня также есть список имен моих клиентов в отдельном Dataframe. Мне нужно присоединиться к этим двум, но это не будет точное совпадение ...
вопрос задан: 5 October 2015 16:14
1
ответ

Разделение и распределение Spark RDD [дубликат]

Как Spark распространяет данные? Что происходит внутри, когда Spark запускает SparkContext.textFile («путь к файлу»)? Он создает RDD, который мы знаем, но он распространяется по кластеру или RDD ...
вопрос задан: 26 September 2015 12:29
1
ответ

Как преобразовать определенные строки в столбец в отдельный столбец с помощью pyspark и перечислить каждую строку с увеличением числового индекса? [Дубликат]

Я борется за то, чтобы придумать разумное решение для форматирования моих данных в соответствующую структуру для ввода в фреймворк pyspark. Я новичок в pyspark, поэтому, возможно, я чего-то не хватает ...
вопрос задан: 5 July 2015 11:35
1
ответ

Почему mergeValue требуется в CombineByKey [duplicate]

Функция combByKey в искровом режиме выполняет три функции: combByKey (createCombiner, mergeValue, mergeCombiners). Результат mergeValue может быть сгенерирован с помощью createCombiner и ...
вопрос задан: 25 March 2015 08:05
0
ответов

Искры итеративного Kmeans не получают ожидаемых результатов?

Я пишу наивную реализацию Kmeans в Spark для моей домашней работы: import breeze.linalg. {Vector, DenseVector, squaredDistance} import scala.math def parse (line: String): Vector [Double] = {...
вопрос задан: 6 April 2019 23:25
0
ответов

Как установить разрешения в Apache Spark

Я работаю над настройкой, которая включает в себя Apache Spark. Проблема сейчас в том, что не всем пользователям разрешено просматривать один и тот же контент. В моей настройке требуется, чтобы люди использовали сценарии друг друга ...
вопрос задан: 5 March 2019 12:07