1
ответ

Использование Window.rowsBetween в искровой scala [дубликат]

Я пытаюсь создать окно для определенного количества строк из CSV-файла, например следующее: Например, мне нужно подсчитать, сколько классов в окне размером 5 строк получают следующие результаты: ...
вопрос задан: 20 October 2015 00:59
1
ответ

Новый столбец на основе комбинации из 2 списков искры [дубликат]

Структура структуры данных: | main_id | ID | CreatedBy | + ------------ + -------------------- + --------------- ----- + | 1 | [10,20,30] | [999888777 | | 2 ...
вопрос задан: 19 October 2015 17:57
1
ответ

Spark scala Разверните несколько вложенных столбцов xml в разные столбцы при получении данных из таблицы hive в формате паркета [duplicate]

Я пытаюсь использовать это на следующем df, но не знаю, как spark-shell -jars com.databricks_spark-xml_2.10-0.2.0.jar import org.json._ import com.databricks.spark.xml.XmlReader val parq = ...
вопрос задан: 19 October 2015 17:57
1
ответ

Переместить строку в столбец в Spark [duplicate]

Любой может помочь мне с этим транспозицией в Spark / Scala, пожалуйста, у меня есть следующая таблица + ------ + -------------- + ------- ---- + -------- + --------- + --------------------- + | userId | ...
вопрос задан: 19 October 2015 17:57
1
ответ

Прочтите json, используя pypair, и назначьте значение keypair на основе индекса массива [duplicate]

У меня есть формат json, например {"change": [{"kind": "insert", "schema": "public", "table": "test123", "columnnames": ["name", "id"] , "typestypes": ["character differenting (20)", "integer"], "columnvalues": ["mani", 3]}]} ...
вопрос задан: 19 October 2015 17:57
1
ответ

получение данных из hdfs и что-то не так, когда я хочу иметь дело с данными [duplicate]

Я кодирую идею и использую spark-submit для запуска. Я получаю данные из hdfs, а затем разбираюсь с ним. Но я не понимаю, почему это происходит? Есть еще один простой код, который не показан. Я уверен, что они ...
вопрос задан: 12 October 2015 18:21
1
ответ

Можем ли мы предоставить нашу собственную функцию в качестве условия соединения для RDD или Dataframes в Spark? [Дубликат]

Использование Apache Spark 1.6.0 на CDH. У меня есть RDD, который включает столбец Name. У меня также есть список имен моих клиентов в отдельном Dataframe. Мне нужно присоединиться к этим двум, но это не будет точное совпадение ...
вопрос задан: 5 October 2015 16:14
1
ответ

Разделение и распределение Spark RDD [дубликат]

Как Spark распространяет данные? Что происходит внутри, когда Spark запускает SparkContext.textFile («путь к файлу»)? Он создает RDD, который мы знаем, но он распространяется по кластеру или RDD ...
вопрос задан: 26 September 2015 12:29
1
ответ

Как писать & ldquo; например, «% ABC%» & rdquo; в Spark [дубликат]

Как написать следующий фильтр в Spark TYPE_FIELD, например, «% ABC%». Это то же самое, что и df.filter ($ "TYPE_FIELD" === "ABC")?
вопрос задан: 23 September 2015 16:25
1
ответ

Запросить внешний фрейм данных в карте Spark Streaming или foreachRDD [дубликат]

Я пытаюсь изучить Spark, и у меня возникают проблемы с потоком Apache Spark. У меня есть dataRrame userRecs со списком фильмов, рекомендованных для каждого UserID и другого фреймворка dfMovies с помощью ...
вопрос задан: 17 September 2015 00:54
1
ответ

Spark: ERROR LiveListenerBus: SparkListenerBus уже остановил [дубликат]

Я получаю эту ошибку при отправке заданий Spark как в режиме клиента, так и в кластере? В основном я пытаюсь объединить тысячи файлов событий в один файл, используя sc.repartition. В конце я могу ...
вопрос задан: 1 September 2015 20:48
1
ответ

Отладка Pyspark в кластере [дубликат]

Если задания pyspark терпят неудачу в кластере, как отлаживать? Должны ли мы перезапустить весь процесс приложения с самого начала или его можно перезапустить с неудачного шага?
вопрос задан: 21 August 2015 14:29
1
ответ

Отладка локального искрового исполнителя в pycharm [duplicate]

Я хочу выполнить работу искрового исполнителя, работающего локально на моей машине, от Pycharm. Я использую явные функциональные возможности в виде dataset.foreachPartition (f), и я хочу видеть ...
вопрос задан: 21 August 2015 14:29
1
ответ

Отладка сценария Python / Spark и остановка в точке останова для метода foreachPartition [duplicate]

Как остановиться в точке останова при отладке моего сценария искро-питона и вызове функции foreachPartition? Также я попытался установить искровой мастер локальный [1], предполагая, что он работает с одним потоком.
вопрос задан: 21 August 2015 14:29
1
ответ

как сделать глобальный список в искры Apache, который будет распространен на разные узлы [duplicate]

Есть ли какой-либо глобальный список, такой как переменная в искры Apache, которая может быть распределена между узлами. Аккумулятор - это один из вариантов, но он является переменной счетчика и, как я читал в документах, это просто целочисленная перемен
вопрос задан: 17 August 2015 19:47
1
ответ

Использование java.util.date в искровом наборе данных [дубликат]

Я пытаюсь присоединиться к двум наборам искровых данных, чтобы получить один набор данных. мой первый набор данных создается из класса java bean, созданного из базы данных Cassandra: это мой java-компонент, и мне не разрешено ...
вопрос задан: 9 July 2015 08:31
1
ответ

Как разрешить связь master / detail (parent / child) с pyspark с использованием порядка входных данных? [Дубликат]

надеюсь, вы могли бы мне помочь. Я довольно новичок в Spark, и я ищу решение, как решить взаимоотношения с основными деталями из данных, которые я получаю. Входные данные выглядят как A; A Thing ...
вопрос задан: 5 July 2015 11:35
1
ответ

Как преобразовать определенные строки в столбец в отдельный столбец с помощью pyspark и перечислить каждую строку с увеличением числового индекса? [Дубликат]

Я борется за то, чтобы придумать разумное решение для форматирования моих данных в соответствующую структуру для ввода в фреймворк pyspark. Я новичок в pyspark, поэтому, возможно, я чего-то не хватает ...
вопрос задан: 5 July 2015 11:35
1
ответ

Что произойдет, если вы посчитаете дважды? [Дубликат]

Что происходит в искры, когда вы пытаетесь сделать что-то вроде этого: def myMethod (myDF: Dataframe): Unit = {myDF .... transform .... myDF.count () # 1 myDF.count () # 2} Я понимаю ...
вопрос задан: 2 July 2015 09:22
1
ответ

PySpark: Преобразование Spark DataFrame в Pandas Dataframe [альтернатива для .toPandas ()] [duplicate]

У меня огромный кадр искровых данных со многими столбцами (PySpark). [количество столбцов около 100 и количество строк более 5000000]. Я хочу преобразовать этот фрейм данных в кадр данных Pandas. Однако, ...
вопрос задан: 22 June 2015 14:55
1
ответ

Код Java Spark для чтения файла из местоположения s3 [дубликат]

Я новичок в искровой Java-логике. У меня есть требование написать программу для чтения файла / каталога из местоположения S3. Как я могу загрузить этот файл / каталог в искровых RDD? Любая помощь будет ...
вопрос задан: 6 May 2015 13:36
1
ответ

Почему mergeValue требуется в CombineByKey [duplicate]

Функция combByKey в искровом режиме выполняет три функции: combByKey (createCombiner, mergeValue, mergeCombiners). Результат mergeValue может быть сгенерирован с помощью createCombiner и ...
вопрос задан: 25 March 2015 08:05
1
ответ

twitterStream не является членом org.apache.spark.streaming.StreamingContext? почему так? [Дубликат]

Я пытаюсь найти самые популярные хэштеги, получая данные twitter, но я получаю это значение ошибки. TwitterStream не является членом org.apache.spark.streaming.StreamingContext val ...
вопрос задан: 10 March 2015 07:01
1
ответ

Передача пользовательских параметров скрипту scala поверх DataStax C * [duplicate]

У нас есть логика ETL для запуска преобразований по Spark с использованием Scala поверх стека DSE. Мы хотим параметризовать этот скрипт Scala. Например, ввод «ABC» будет принят в скрипте и ...
вопрос задан: 10 December 2014 15:31
1
ответ

Функция на карте не выполняется [дубликат]

Я хочу выполнить функцию «выполнить» внутри карты в csvLine, но она не выполняется из neo4j.v1 import GraphDatabase, basic_auth driver = GraphDatabase.driver («bolt: // localhost», auth = ...
вопрос задан: 24 June 2014 15:12
1
ответ

SparkSQL (Thrift Server) TTransportException после 11 минут при запуске select * на 30-миллионной таблице строк [дубликат]

Env: hive 2.1.1, указывающий на таблицы на S3 Spark 2.3.0 (автономный режим) Hadoop 2.8.3 без hdfs Используя beeline для запроса sparksql (порт 10015, который был открыт службой бережливости), выберите * на таблицах с ...
вопрос задан: 31 May 2012 11:02
1
ответ

Некоторые классы в scala - Сопоставление карты в искровом [дубликат]

Это мой код. val ss = SparkSession.builder () .appName ("broadcastvariable") .master ("local") .getOrCreate () val sq = ss ....
вопрос задан: 22 February 2012 11:15
0
ответов

pyspark присоединиться к нескольким условиям

Я хочу спросить, есть ли у вас какие-либо идеи о том, как я могу указать много условий в pyspark, когда я использую .join () Пример: с hive: query = "select a.NUMCNT, b.NUMCNT как RNUMCNT, a.POLE, b. Полюс как RPOLE, ....
вопрос задан: 30 July 2019 09:55
0
ответов

Как преобразовать массивоподобную строку в массив в spark-dataframe (Scala api)?

У меня следующий искровой фрейм данных: опубликованные данные 2019-05-15T10: 37: 22 + 00: 00 [{"@id": "1", "@ type": "type", "category": "cat"} , {"@ id": "2", "@ type": "type", "category": "cat1"}] со следующим ...
вопрос задан: 19 May 2019 13:03
0
ответов

Как отключить ведение журнала INFO в Spark?

Я установил Spark с помощью руководства AWS EC2, и я могу нормально запустить программу с помощью сценария bin / pyspark, чтобы перейти к приглашению spark, а также успешно выполнить быстрый запуск. Однако я ...
вопрос задан: 11 May 2019 00:48