У меня есть большой файл csv объемом 6 ГБ с 1-й строкой в качестве заголовков. Как я могу прочитать этот файл из HDFS и выполнить предварительную обработку данных (синтаксический анализ, фильтрация и т. Д.)?
У меня есть файл csv, и я хотел бы открыть его с помощью искры RDD 111, rock, sf, «недавно, продвигался». Я разделил его на vals = line.split (','), но это также будет разделено. «В последнее время, способствовали». Я хочу сохранить «...
Я использую Spark 1.2.1 (Ancient, я знаю, но это то, что я могу использовать на данный момент.) И пытаясь прочитать файл паркета размером около 4,5 ГБ с помощью sparksql, как это (я буду избегать шаблона) val schemaRDD: ...
Я видел различные публикации (например, ответ на этот пост stackexchange), которые дают что-то похожее на код ниже как простой пример использования функции foreach () на Spark ...
Я использую wholeTextFiles, чтобы читать кучу xml-файлов из разных папок, и некоторые из этих папок могут быть пустыми. К сожалению, Spark выдает исключение, если какая-либо из этих папок пуста: org ....
Вероятно, основной вопрос, я довольно новичок в Spark / Scala. Поэтому у меня есть переменная типа Map [String, RDD [Int]]. Я не могу перебирать эту переменную с помощью и делать что-либо с RDD внутри ...
a = ['0, Италия, "Ароматы включают в себя тропические фрукты, метлу, серу и сушеную траву. Вкус не слишком выразительный, предлагая незрелое яблоко, цитрусовые и сушеный шалфей наряду с оживленной кислотностью.", Vulkà Bianco, ...
Я пытаюсь построить матрицу различий, используя искру, и не понимаю, как это сделать оптимально. Я новичок в искре. Я привел небольшой пример того, что я пытаюсь сделать ниже. Пример различия ...
У меня есть требования для чтения случайных файлов JSON в разных папках, где данные изменились. Поэтому я не могу применить регулярное выражение для чтения шаблона. Я знаю, какие это файлы, и я мог бы перечислить их. Но когда я формирую ...
У меня есть СДР в виде списка ((a, b), (b, c)) List ((d, e)) Как я могу получить его как (a, b) (b, c) (d, e) у меня есть попробовал RDD.flatMap (x => x), это не работает, потому что есть список пар ключ-значение, а не просто ...
Я хочу отобразить количество элементов в каждом разделе, поэтому я пишу следующее: def count_in_a_partition (iterator): yield sum (1 для _ в итераторе) Если я использую его как этот print ("number of ...
У меня есть искровое приложение. Мой пример использования - позволить пользователям определять произвольную функцию, которая выглядит как Record = > Записать как «правило», которое будет применяться к каждой записи RDD / Dataset. После ...
У меня есть два файла, и я создал два кадра данных prod1 и prod2 из него. Мне нужно найти записи с именами столбцов и значениями, которые не совпадают в обоих dfs. id_sk является первичным ключом. все ...
(K1, (v1, v2)) (K2, (v3, v4)) (K1, (v1, v5)) (K2, (v3, v6)) Как можно суммировать значения ключа при условии первого значения Это некоторые или экв, так что я получаю (k1, (v1, v2 + v5), (k2, (v3, v4 + v6)?
Например, если у меня в драйвере Spark работает следующий код: rdd.foreachPartition (iterator = > myFunc (iterator)) val x = 1 Будет ли драйвер ждать завершения каждого раздела ...
У меня есть данный кусок кода. Я запускаю это на Spark 2.3.1, используя Zeppelin 0.8.0 и org.apache.spark: spark-streaming-kafka-0-10_2.11: 2.3.1. stream.window (минуты (5), секунды (20)). foreachRDD {rdd ...
У меня есть код Spark, который считывает два файла из HDFS (заголовочный файл и файл body), уменьшает RDD [String] до одного раздела, а затем записывает результат как сжатый файл с помощью GZip ...
Я хочу получить текстовый метод подобия, отличающийся от 200 миллионов различных предложений, используя искру. Предположим, у меня есть 4 предложения, которые есть [«Привет, я слышал об искры», «Привет, я слышал о Spark World», «...
Я хочу прочитать запись из db Cassandra, используя Spark в java. Это мой код. import com.datastax.driver.core.Session; import com.datastax.spark.connector.japi.CassandraJavaUtil. *; импорт com ....
У меня есть простой вопрос об искре. Представьте файл с этими данными: 00000000000 01000000000 02000000000 00000000000 01000000000 02000000000 03000000000 Я хочу создать rdd или sparkdataframe ...
Я новичок в Spark, у меня есть ниже RDD (2, 2.0) (2, 4.0) (2, 1.5) (2, 6.0) (2, 7.0) (2, 8.0) Я попытался преобразовать его в (2, 28.5, 1.5, 8), где 2 - ключевое значение, за которым следует 28,5 суммы всех ...
Использование Apache Spark 1.6.0 на CDH. У меня есть RDD, который включает столбец Name. У меня также есть список имен моих клиентов в отдельном Dataframe. Мне нужно присоединиться к этим двум, но это не будет точное совпадение ...
Как Spark распространяет данные? Что происходит внутри, когда Spark запускает SparkContext.textFile («путь к файлу»)? Он создает RDD, который мы знаем, но он распространяется по кластеру или RDD ...
Я борется за то, чтобы придумать разумное решение для форматирования моих данных в соответствующую структуру для ввода в фреймворк pyspark. Я новичок в pyspark, поэтому, возможно, я чего-то не хватает ...
Функция combByKey в искровом режиме выполняет три функции: combByKey (createCombiner, mergeValue, mergeCombiners). Результат mergeValue может быть сгенерирован с помощью createCombiner и ...
Я работаю над настройкой, которая включает в себя Apache Spark. Проблема сейчас в том, что не всем пользователям разрешено просматривать один и тот же контент. В моей настройке требуется, чтобы люди использовали сценарии друг друга ...